Estimación MCO y sus propiedades en regresión lineal

CAPÍTULO 2
ESTIMACIÓN DEL MODELO POR MÍNIMOS CUADRADOS ORDINARIOS Y

SUS PROPIEDADES
Una parte importante del análisis econométrico es la obtención de una versión muestral
de la regresión a partir de los datos disponibles para el investigador. Como se vio, la
recta de regresión queda completamente caracterizada mediante sus parámetros, por lo
que la primera tarea consiste en la estimación de estos parámetros utilizando inferencia
estadística. En esta parte la econometría se apoya en los métodos de estimación
provenientes de la estadística, como por ejemplo el método de mínimos cuadrados, el de
máxima verosimilitud o el método de los momentos.
En este capítulo presentaremos los temas concernientes a la estimación del modelo de

regresión clásico de dos variables por el ampliamente conocido método de mínimos
cuadrados ordinarios. No solamente se obtendrán los estimadores sino que se discutirá
con bastante detalle las principales propiedades numéricas y estadísticas de estas
estimaciones. Hacia la parte final del capítulo se presentará una primera forma de
evaluar el ajuste del modelo a los datos a través del coeficiente de determinación R-
cuadrado.
2.1 La Función de Regresión Muestral
La función de regresión poblacional 𝐸[𝑌|𝑋] presentada en el supuesto 1 no es

observable, lo cual representa un problema para poder responder a la pregunta
cuantitativa sobre el efecto de 𝑋 sobre 𝑌. Lo único que vemos es un conjunto de
observaciones de las variables, presentados en forma de puntos o pares ordenados
(𝑋𝑖 , 𝑌𝑖 ). Nuestro objetivo entonces será encontrar una aproximación a la FRP utilizando
esta muestra de observaciones y aplicando técnicas de inferencia estadística.
Definimos la Función de Regresión Muestral (FRM) como:
𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 (2.1)
En (2.1), 𝑌̂𝑖 es un estimador de 𝐸[𝑌𝑖 |𝑋𝑖 ], 𝛽̂1 es un estimador del parámetro poblacional
𝛽1 y 𝛽̂2 es un estimador del parámetro poblacional 𝛽2. Nótese que se está definiendo
30
una función lineal en los estimadores. En ocasiones llamamos a la ecuación (2.1)
simplemente como recta estimada.
Gráficamente, en el ejemplo de remuneraciones y años de educación, continuando con

lo mostrado en la figura 1.3, en la figura 2.1 volvemos a dibujar a la FRP como la línea
continua y agregamos a la recta estimada o FRM como la línea punteada. Digamos que
si nuestra estimación de la recta es “buena”, ambas rectas deberían ser muy parecidas,
aunque no hay nada que diga que deban ser exactamente iguales o que alguna tenga una
pendiente mayor o menor que la otra. No obstante, el investigador no tiene cómo saber
qué tan parecidas son las rectas pues la FRP es invisible mientras que la FRM es
calculada por el econometrista. Adicionalmente, aunque existe una sola relación
poblacional FRP, pueden existir infinidad de regresiones muestrales FRM, pues
depende cada una de ellas de la muestra con que se trabaje.
Figura 2.1
Rectas de regresión poblacional y muestral
En la figura 2.1 se muestran las distancias entre dos puntos de observaciones y lo

estimado por la recta. Estas distancias son los residuos, definidos como
𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 = 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖
31
En comparación con los términos de perturbación, no hay nada que diga que los
residuos 𝑒𝑖 sean más grandes o más pequeños que las perturbaciones 𝑢𝑖 . Inclusive para
un mismo individuo 𝑒𝑖 y 𝑢𝑖 podrían tener signos distintos.
Alternativamente, la ecuación de residuos puede escribirse como
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 (2.2)
Llamaremos a la ecuación (2.2) el modelo estimado, el cual viene a ser una versión
estimada de la ecuación (1.1) del capítulo anterior.
Antes de proseguir vale la pena aclarar algunos términos para evitar confusiones.
Fundamentalmente tenemos dos grupos de ecuaciones: las poblacionales y las
muestrales. Llamamos modelo econométrico a la expresión 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , de la
cual la regresión o función de regresión poblacional es 𝐸[𝑌𝑖 |𝑋𝑖 ] = 𝛽1 + 𝛽2 𝑋𝑖 . Existen
también sus contrapartidas muestrales, vamos a llamar el modelo estimado a 𝑌𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 + 𝑒𝑖 , de la cual la recta estimada o función de regresión muestral es 𝑌̂𝑖 = 𝛽̂1 +
𝛽̂2 𝑋𝑖 .
2.2 Estimación por Mínimos Cuadrados Ordinarios
Existen métodos para calcular la FRM, siendo el más popular el de Mínimos Cuadrados
Ordinarios (𝑀𝐶𝑂). Intuitivamente, este método busca trazar una recta estimada que
pase entre los puntos de las observaciones de tal manera que las distancias de cada
punto respecto a la recta estimada (es decir, los residuos) sean las más pequeñas
posibles. Para evaluar que estas distancias sean pequeñas, una forma podría ser
minimizar la suma de todos los residuos. No obstante, debido a que algunos residuos
son positivos y otros negativos, no tendría mucho sentido hacer una suma simple de
ellos. Por el contrario, elevando los residuos al cuadrado y sumándolos tendríamos una
mejor manera de evaluar la recta de regresión estimada propuesta en comparación con
otras rectas alternativas. La recta que mejor se ajuste a los datos será aquella que
presente la menor suma de cuadrados de los residuos.
32
No es necesario probar diferentes rectas estimadas, pues matemáticamente es posible
encontrar la mejor recta utilizando cálculo. Para ello se define a la sumatoria de
cuadrados de los residuos (SCR) como:
𝑆𝐶𝑅 = ∑𝑛𝑖=1 𝑒𝑖 2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 )2 (2.3)
El método de mínimos cuadrados ordinarios consiste en escoger los valores de β̂1 y β̂2 ,
tal que se minimice la SCR. Derivando la ecuación (2.3) respecto a los parámetros se
obtienen las condiciones necesarias de 1er orden de esta minimización:
𝜕𝑆𝐶𝑅
̂1 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0 (2.4)
𝜕𝛽
𝜕𝑆𝐶𝑅
̂2 = −2 ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0 (2.5)
𝜕𝛽
Estas dos ecuaciones son conocidas como las “ecuaciones normales” de la estimación
𝑀𝐶𝑂, y de las cuales se desprenden algunas propiedades que se verán más adelante. En
sí son dos ecuaciones con dos incógnitas (𝛽̂1 y 𝛽̂2) que debemos resolver. Omitiendo los
subíndices de las sumatorias, de la ecuación (2.4) se cumple que
∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0
Desarrollando el paréntesis se obtiene ∑ 𝑌𝑖 = 𝑛𝛽̂1 + 𝛽̂2 ∑ 𝑋𝑖 . Dividiendo ambos lados

de la ecuación por 𝑛, se obtiene
𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋̅ (2.4𝑏)
La ecuación (2.4b) nos dice que la recta estimada pasa necesariamente por la
combinación de valores (𝑋̅, 𝑌̅) pues esos puntos satisfacen la ecuación. Podemos
despejar el valor de 𝛽̂1 y obtener
𝛽̂1 = 𝑌̅ − 𝛽̂2 𝑋̅ (2.4𝑐)
De la ecuación (2.5), ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0
Desarrollando el paréntesis, aplicando la sumatoria, omitiendo los límites de la

sumatoria por simplicidad y despejando se obtiene
∑ 𝑋𝑖 𝑌𝑖 = 𝛽̂1 ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2
33
Reemplazando (2.4c) en la última expresión,
∑ 𝑋𝑖 𝑌𝑖 = (𝑌̅ − 𝛽̂2 𝑋̅) ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 = 𝛽̂2 (∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 )
Luego, el estimador de mínimos cuadrados de la pendiente es
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖
𝛽̂2 =
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖
Después de algunas manipulaciones algebraicas se puede comprobar que la última

expresión es igual a
∑(𝑋𝑖 − 𝑋̅) (𝑌𝑖 − 𝑌̅)

𝛽̂2 = 2 (2.6)
∑(𝑋𝑖 − 𝑋̅)
Una vez calculado, se puede obtener el valor estimado de β̂1 de la ecuación (2.4c).
2.3 Algunas características de la estimación por 𝑴𝑪𝑶
Los estimadores de los parámetros por 𝑀𝐶𝑂, expresados en las ecuaciones (2.4c) y
(2.6) generan algunas propiedades numéricas muy importantes para la estimación. Estas
propiedades son:
a) Los estimadores puntuales 𝛽̂1 y 𝛽̂2 están expresados en términos de las

observaciones únicamente.
Tal propiedad resalta el hecho que, para obtener los valores estimados, lo único
que se necesita es reemplazar los valores de las variables de la muestra en las
fórmulas (2.4c) y (2.6). No es necesario hacer ningún supuesto adicional ni
calcular otros parámetros para obtener estas estimaciones. Un detalle adicional es
que, al depender íntegramente de las muestras aleatorias, estos estimadores son en
sí mismos variables aleatorias.
b) ∑ 𝑒𝑖 = 0
34
El hecho que la suma de los residuos sea exactamente igual a cero es un resultado
que se deduce directamente de las ecuaciones normales. La ecuación (2.4) dice
explícitamente que esta suma es igual a cero recordando que el residuo se define
como 𝑒𝑖 = 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 . De esta característica se desprende directamente que el
promedio de los residuos es igual a cero, 𝑒̅ = 0.1 Es importante no confundir esta
propiedad numérica de la estimación 𝑀𝐶𝑂 con el supuesto 2 sobre la nulidad del
valor esperado del término de perturbación, 𝐸[𝑢𝑖 ] = 0. Esto último es un
supuesto, mientras que la propiedad que estamos explicando es un producto del
proceso de minimización.
c) ∑ 𝑒𝑖 𝑋𝑖 = 0
De la misma forma que el anterior, la ecuación (2.5) muestra este resultado. En

palabras quiere decir que los residuos de la estimación 𝑀𝐶𝑂 y la variable
explicativa son ortogonales.
d) ∑ 𝑒𝑖 𝑌̂𝑖 = 0
Esta propiedad puede deducirse de las dos anteriores.
∑ 𝑒𝑖 𝑌̂𝑖 = ∑ 𝑒𝑖 (𝛽̂1 + 𝛽̂2 𝑋𝑖 ) = 𝛽̂1 ∑ 𝑒𝑖 + 𝛽̂2 ∑ 𝑒𝑖 𝑋𝑖 = 0
e) La recta de regresión estimada pasa por el punto de los promedios (𝑋̅, 𝑌̅).
f) 𝑌̅̂ = 𝑌̅
Este resultado quiere decir que promediando los valores de 𝑌̂𝑖 se obtiene ̅𝑌.2
2.4 El modelo en desviaciones respecto a las medias
Para las variables 𝑋 e 𝑌, definimos las desviaciones (en minúscula y cursiva) respecto a
sus promedios como:
1
El lector puede notar que si el modelo econométrico no incluyera al intercepto, es decir si en el modelo
𝛽1 = 0, entonces en el proceso de estimación no habría minimizar la SCR respecto a 𝛽̂1 . Luego, no
existiría la ecuación (2.4) y por lo tanto ya no se cumpliría esta característica.
2
Se deja al lector esta demostración.
35
𝑦𝑖 = 𝑌𝑖 − 𝑌̅
𝑥𝑖 = 𝑋𝑖 − 𝑋̅
Estas desviaciones cumplen las siguientes propiedades3:
1. ∑ 𝑥i = 0, ∑ 𝑦i = 0
2. ∑ 𝑥i Xi = ∑ 𝑥i2 , ∑ 𝑦i Yi = ∑ 𝑦i2
3. ∑ 𝑥i 𝑦i = ∑ 𝑥i Yi = ∑ Xi 𝑦i
El modelo econométrico a estimar se puede presentar en términos de las desviaciones

respecto a las medias de las variables. Esta nueva presentación tiene ciertas ventajas en
términos de claridad expositiva de algunos conceptos que veremos más adelante,
aunque en la econometría aplicada no tiene mayor uso.
Partiendo del modelo estimado 𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 , si lo promediamos obtenemos

𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋̅ + 𝑒̅. Restando una expresión de la otra obtenemos
𝑌𝑖 − 𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋𝑖 − 𝛽̂1 − 𝛽̂2 𝑋̅ + 𝑒𝑖 − 𝑒̅
𝑌𝑖 − 𝑌̅ = 𝛽̂2 (𝑋𝑖 − 𝑋̅) + 𝑒𝑖 − 𝑒̅

𝑦𝑖 = 𝛽̂2 𝑥𝑖 + 𝑒𝑖 − 𝑒̅
Asumamos que 𝑒̅ = 0 , luego
𝑦𝑖 = 𝛽̂2 𝑥𝑖 + 𝑒𝑖 (2.7)
La ecuación (2.7) es el modelo estimado en desviaciones respecto a la media. Nótese

que esta ecuación solo tiene un parámetro, 𝛽̂2, habiendo desaparecido el parámetro 𝛽̂1.
También puede notarse que el residuo e i es exactamente el mismo que el que aparece
en el modelo estimado en niveles 𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 , donde también se cumple que

𝑒̅ = 0.
En términos gráficos, trabajar con las variables en desviaciones respecto a las medias
equivale a desplazar las observaciones hacia el origen, haciendo que el punto de los
promedios de las variables sea el (0, 0). Esto puede observarse en la figura 2.2, en donde
3
Se dejan estas demostraciones como ejercicio.
36
los puntos negros corresponden a los datos en sus niveles originales y los puntos grises
son los datos en desviaciones respecto a las medias. Puesto que se trata de un simple
desplazamiento, la pendiente de una regresión que pase por esos puntos será la misma,
es decir tal pendiente 𝛽̂2 no se ve alterada por el desplazamiento. En cambio en el
modelo en desviaciones la estimación de 𝛽̂1 es igual a cero pues se fuerza a que la recta
pase por el origen.
Figura 2.2
Estimación del modelo en niveles y en desviaciones respecto a las medias
Vamos a estimar el modelo en desviaciones por mínimos cuadrados ordinarios. La suma

de cuadrados de los residuos es en este caso
𝑛 𝑛
𝑆𝐶𝑅 = ∑ 𝑒𝑖 2 = ∑(𝑦𝑖 − 𝛽̂2 𝑥𝑖 )2

𝑖=1 𝑖=1
Derivando respecto al único parámetro se obtiene
𝜕SCR
= −2(𝑦i − β̂2 𝑥i )𝑥i = 0 (2.8)
𝜕β̂2
De la ecuación (2.8) despejamos a 𝛽̂2:
∑(𝑥i 𝑦i − 𝛽̂2 𝑥i 2 ) = 0
37
∑ 𝑥i 𝑦i = 𝛽̂2 ∑ 𝑥i 2
∑ 𝑥i 𝑦i
𝛽̂2 = (2.9)
∑ 𝑥i 2
Este resultado de la ecuación (2.9) es exactamente el mismo que la ecuación (2.6), por
lo que ambas expresiones se pueden usar en forma alternativa.
Ejemplo 2.1: Supongamos que contamos con datos de 12 personas sobre sus años de
educación (𝑋) y sus salarios (𝑌), y queremos estimar el modelo de regresión lineal (1.1)
por mínimos cuadrados ordinarios utilizando estos datos. Vamos a computar en primer
lugar las variables en desviaciones respecto a sus promedios, para luego hacer el cálculo
de los valores estimados. En la tabla 2.1 las columnas 𝑋 e 𝑌 muestran los datos
hipotéticos con los que vamos a hacer el ejercicio. En la parte inferior de las columnas
𝑋 e 𝑌 se han calculado las sumas y los promedios de estas columnas.
Tabla 2.1
Cálculo de las variables del modelo en desviaciones
Obs. X Y x y x2 xy
1 4 225 -4.08 -307.17 16.67 1254.26
2 6 155 -2.08 -377.17 4.34 785.76
3 3 700 -5.08 167.83 25.84 -853.15
4 10 600 1.92 67.83 3.67 130.01
5 8 675 -0.08 142.83 0.01 -11.90
6 8 350 -0.08 -182.17 0.01 15.18
7 7 456 -1.08 -76.17 1.17 82.51
8 11 485 2.92 -47.17 8.51 -137.57
9 13 650 4.92 117.83 24.17 579.35
10 11 820 2.92 287.83 8.51 839.51
11 14 1150 5.92 617.83 35.01 3655.51
12 2 120 -6.08 -412.17 37.01 2507.35
Suma 97 6386 0.00 0.00 164.92 8846.83

Promedio 8.0833 532.1667
La cuarta y quinta columna corresponden a los cálculos de las variables en desviaciones

respecto a sus promedios. En la sexta columna tenemos las desviaciones de 𝑋 al
cuadrado y en la última columna tenemos al producto de las desviaciones de 𝑋 y las
desviaciones de 𝑌. En la parte inferior tenemos las sumas de estas desviaciones.
38
Para hacer el cálculo del estimador de la pendiente, 𝛽̂2, nos apoyamos en la ecuación
(2.9) (que es lo mismo que (2.6)), y obtenemos
8846.83
𝛽̂2 = = 53.6443
164.92
El estimador del intercepto, 𝛽̂1, se obtiene de la ecuación (2.4c), que sería en este caso
𝛽̂1 = 532.1667 − 53.6443 × 8.0833 = 98.5422
El lector no debería tener problemas en realizar por su cuenta estos cálculos. Asimismo,
el parámetro β̂2 se puede obtener de expresiones equivalentes a (2.6). Estas son:
∑ 𝑋𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑋𝑖 60467 − 6386 × 97
𝛽̂2 = = = 53.6443
∑ 𝑋𝑖 2 − 𝑋̅ ∑ 𝑋𝑖 949 − 8.0833 × 97
Para este cálculo es necesario calcular ∑ 𝑋𝑌, y ∑ 𝑋 2 a partir de la información de la

tabla 2.1. En este mismo ejemplo, vamos a calcular a 𝑌̂𝑖 , y a los residuos del modelo. El
cálculo de 𝑌̂𝑖 responde a la fórmula
𝑌̂𝑖 = 98.5422 + 53.6443 ∙ 𝑋𝑖
La tabla 2.2 complementa la información de la tabla 2.1, incluyendo a 𝑌̂𝑖 , a 𝑒𝑖 y al

cuadrado de estos residuos. Comparando los valores de 𝑌 contra los de 𝑌̂, estos últimos
son la predicción lineal o lo que el modelo dice que serán los salarios para cada nivel de
salario 𝑋, y evidentemente no coincidirán con los verdaderos salarios 𝑌. La diferencia
son los residuos, que capturan un componente de variabilidad de 𝑌 que no ha sido
explicado por 𝑋. La última columna muestra los residuos al cuadrado, siendo la
sumatoria de residuos al cuadrado igual a 504737.8. No hay ningún otro par de valores
para 𝛽̂1 y 𝛽̂2 que produzcan una SCR de menor valor.
Tabla 2.2
̂ y de los residuos
Calculo de Y
Obs. X Y 𝑌̂ e e2
1 4 225 313.12 -88.12 7765.00
2 6 155 420.41 -265.41 70441.29
3 3 700 259.47 440.53 194062.29
39
4 10 600 634.98 -34.98 1223.94
5 8 675 527.70 147.30 21698.38
6 8 350 527.70 -177.70 31575.98
7 7 456 474.05 -18.05 325.88
8 11 485 688.63 -203.63 41464.81
9 13 650 795.92 -145.92 21291.96
10 11 820 688.63 131.37 17258.31
11 14 1150 849.56 300.44 90263.05
12 2 120 205.83 -85.83 7366.91
Suma 97 6386 6386.00 0.00 504737.80

Promedio 8.0833 532.1667 532.1667
2.5 Propiedades estadísticas de los estimadores de 𝑴𝑪𝑶
Como bien sabemos los estimadores obtenidos 𝛽̂1 y 𝛽̂2 son variables aleatorias pues sus
resultados varían según las muestras aleatorias tomadas. En esta sección vamos a ver
cuáles serán sus valores esperados y varianzas, y discutiremos sus propiedades.
Empezaremos con la media de la pendiente 𝛽̂2 . Partiendo de la ecuación (2.9) y

recordando las propiedades de las desviaciones, podemos reescribir esta ecuación como
∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖 (𝑌𝑖 − 𝑌̅) ∑ 𝑥𝑖 𝑌𝑖 − 𝑌̅ ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑌𝑖
β̂2 = = = =
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
Reemplazando la expresión de Yi del modelo econométrico se tiene
∑ 𝑥𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) 𝛽1 ∑ 𝑥𝑖 𝛽2 ∑ 𝑥𝑖 𝑋𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = = + +
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
Dado que ∑ 𝑥𝑖 = 0 y que ∑ 𝑥𝑖 𝑋𝑖 = ∑ 𝑥𝑖2 , la expresión se reduce a:
∑ 𝑥𝑖 𝑢𝑖
𝛽̂2 = 𝛽2 + (2.10)
∑ 𝑥𝑖 2
Tomando valor esperado a la expresión en (2.10) obtenemos
∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
𝐸[𝛽̂2 ] = 𝐸 [𝛽2 + ] = 𝛽2 + 𝐸 [ ]
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2
Bajo el supuesto 4,
40
1
𝐸[𝛽̂2 ] = 𝛽2 + ∑ 𝑥 2 ∑ 𝑥𝑖 𝐸[𝑢𝑖 ]
𝑖
Dado el supuesto 2, el valor esperado del término de perturbación es cero, con ello
resulta que 𝛽̂2 es un estimador insesgado.
𝐸[𝛽̂2 ] = 𝛽2
Esto quiere decir que aunque 𝛽̂2 pueda tomar valores en forma aleatoria, en promedio
esperaremos que este estimador de 𝑀𝐶𝑂 entregue un valor que sea igual al poblacional,
siempre y cuando se cumplan los supuestos aludidos del modelo econométrico. No debe
pensarse que la propiedad de insesgadez asegura que 𝛽̂2 = 𝛽2, pues debido a las
variabilidades muestrales eso ocurrirá solo por cuestión de suerte. Lo que si ocurrirá es
que si se tomaran infinitas muestras y si se calculara en cada una de ellas el valor de 𝛽̂2,
el promedio de todos esos valores calculados sí coincidirá con el verdadero valor
poblacional.
Ejemplo 2.2: Para ilustrar la insesgadez consideremos un ejemplo hipotético similar al

ejemplo 2.1. En este ejercicio se construye una función de regresión poblacional con
valores 𝐹𝑅𝑃 = 80 + 65𝑋𝑖 , y se generan cuatro muestras aleatorias sumando a la FRP
un término de perturbación aleatorio con media cero. Las cuatro muestras aleatorias
quedan dibujadas en la figura 2.3 mediante los puntos negros, y sobre ellas se realizan
estimaciones de la FRM por mínimos cuadrados ordinarios. Para cada muestra aleatoria
hay una FRM representada por la línea punteada, las cuales son aproximaciones de la
única y verdadera función poblacional representada por la línea sólida. Obsérvese que
las pendientes estimadas 𝛽̂2 no coincidirán con el parámetro poblacional (en este caso
𝛽2 = 65), aunque siempre tomarán valores cercanos. Si se pudiera repetir este
experimento miles de veces, el promedio de todos los 𝛽̂2 debería ser igual al valor
poblacional.
41
Figura 2.3
Cuatro muestras aleatorias y las estimaciones 𝑴𝑪𝑶
Calculemos ahora el valor esperado del estimador del intercepto, 𝛽̂1. Partiendo del
modelo econométrico 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , lo podemos promediar aplicándole
sumatoria y dividiéndolo entre el número de observaciones de la muestra obteniendo
𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅. Reemplazando esta expresión en la ecuación (2.4c) se obtiene
𝛽̂1 = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅ − 𝛽̂2 𝑋̅
= 𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅ (2.11)
Tomando el valor esperado a (2.11)
𝐸[𝛽̂1 ] = 𝐸[𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅] = 𝛽1 + 𝑋̅(𝛽2 − 𝐸[𝛽̂2 ]) + 𝐸[𝑢̅]
∑𝑢 ∑ 𝐸[𝑢 ]
Dado que 𝐸[𝛽̂2 ] = 𝛽2 , queda 𝐸[𝛽̂1 ] = 𝛽1 + 𝐸[𝑢̅] = 𝛽1 pues 𝐸[𝑢̅] = 𝐸 [ 𝑛 𝑖 ] = 𝑛 𝑖 =
0. Por lo tanto el estimador 𝛽̂1 también es insesgado.
A continuación, vamos a calcular las varianzas de estos estimadores. Empezaremos con

la varianza de 𝛽̂2. Por la definición de varianza,
42
2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [𝛽̂2 − 𝐸[𝛽̂2 ]]
Dado que 𝛽̂2 es insesgado y utilizando la ecuación (2.10) se obtiene que
2
∑ 𝑥𝑖 𝑢𝑖 1 2
𝑉𝑎𝑟(𝛽̂2 ) = 𝐸 [ ] = 𝐸 [(∑ 𝑥𝑖 𝑖 ]
𝑢 )
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2
1
= 𝐸 [∑ 𝑥𝑖 2 𝑢𝑖 2 + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝑢𝑖 𝑢𝑗 ]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗
1
= [∑ 𝑥𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑ 𝑥𝑖 𝑥𝑗 𝐸[𝑢𝑖 𝑢𝑗 ]]
(∑ 𝑥𝑖 2 )2
𝑖<𝑗
Bajo el supuesto de perturbaciones esféricas y 𝑋 fijo, se cumple que 𝑉𝑎𝑟(𝑢𝑖 ) =

2
𝐸[𝑢𝑖 − 𝐸[𝑢𝑖 ]] = 𝐸[𝑢𝑖 2 ] = 𝜎 2 y también se cumple bajo dicho supuesto que
𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 ) = 𝐸[(𝑢𝑖 − 𝐸[𝑢𝑖 ])(𝑢𝑗 − 𝐸[𝑢𝑗 ])] = 𝐸[𝑢𝑖 𝑢𝑗 ] = 0, entonces
1 𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = [∑ 𝑥𝑖
2 2
𝜎 ] = ∑ 𝑥𝑖 2
(∑ 𝑥𝑖 2 )2 (∑ 𝑥𝑖 2 )2
𝜎2
𝑉𝑎𝑟(𝛽̂2 ) = (2.12)
∑ 𝑥𝑖 2
Obsérvese en (2.12) que la variabilidad de 𝛽̂2 es directamente proporcional a la varianza
del término de perturbación e inversamente proporcional a la variabilidad de 𝑋 respecto
a su media. Es decir, la estimación de 𝛽̂2 será más imprecisa mientras más grande sea la
varianza 𝜎 2 , que es a su vez la varianza de la variable endógena 𝑌. Por otro lado, si la
variable 𝑋 muestra una gran amplitud de valores, esto brindará más información para
poder calcular el efecto de 𝑋 sobre 𝑌. Si 𝑋 presenta una mínima variabilidad alrededor
de su promedio, la varianza de la estimación aumentará4.
De la ecuación (2.11), la varianza de 𝛽̂1 es,

2 2
𝑉𝑎𝑟(𝛽̂1 ) = 𝐸 [𝛽̂1 − 𝐸[𝛽̂1 ]] = 𝐸[𝛽̂1 − 𝛽1 ]
2 2
= 𝐸[𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅] = 𝐸[−𝑋̅(𝛽̂2 − 𝛽2 ) + 𝑢̅]
4
Se sugiere al lector trazar diagramas de dispersión considerando variaciones en 𝑋 e 𝑌 grandes y
pequeñas, con el fin de observar estas propiedades.
43
2
= 𝐸 [𝑋̅ 2 (𝛽̂2 − 𝛽2 ) + 𝑢̅2 − 2𝑋̅(𝛽̂2 − 𝛽2 )𝑢̅]
= 𝑋̅ 2 𝑉𝑎𝑟(𝛽̂2 ) + 𝐸[𝑢̅2 ] − 2𝑋̅𝐸(𝛽̂2 − 𝛽2 )𝑢̅
Dado que 𝑉𝑎𝑟(𝑢̅) = 𝐸[𝑢̅2 ] − 𝐸[𝑢̅]2 , entonces reemplazando términos,

𝜎2
= 𝑋̅ 2 + 𝑉𝑎𝑟(𝑢̅) + 𝐸[𝑢̅]2 − 2𝑋̅𝐸(𝛽̂2 − 𝛽2 )𝑢̅
∑ 𝑥𝑖 2
𝜎2
Como 𝐸[𝑢̅] = 0 y 𝑉𝑎𝑟(𝑢̅) = , y usando (2.10) en la última expresión, entonces,
𝑛
𝜎2 𝜎2 ∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖
= 𝑋̅ 2 + − 2𝑋̅𝐸 [ . ]
∑ 𝑥𝑖 2 𝑛 ∑ 𝑥𝑖 2 𝑛
El último término de esta ecuación es cero pues
∑𝑥 𝑢 ∑ 𝑢𝑖 1
𝐸 [ ∑ 𝑥𝑖 2𝑖 . ] = 𝑛 ∑ 𝑥 2 𝐸[∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑢𝑖 ]
𝑖 𝑛 𝑖
1
= 𝑛 ∑ 𝑥 2 𝐸[∑ 𝑥𝑖 𝑢𝑖 2 ∑ ∑ 𝑢𝑖 𝑢𝑗 (𝑥𝑖 + 𝑥𝑗 )]
𝑖
1
= 𝑛 ∑ 𝑥 2 [𝜎 2 ∑ 𝑥𝑖 + ∑ ∑ 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 )(𝑥𝑖 + 𝑥𝑗 )] = 0
𝑖
pues ∑ 𝑥i = 0 y 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 ) = 0. Luego,

1 𝑋̅ 2
̂ 2
𝑉𝑎𝑟(𝛽1 ) = 𝜎 ( + ) (2.13)
𝑛 ∑ 𝑥𝑖 2
También se puede comprobar (ver el apéndice de este capítulo) que
𝑋̅𝜎 2
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = −
∑ 𝑥𝑖2
2.6 Estimación de 𝝈𝟐
Las varianzas de los parámetros calculadas en la sección anterior se encuentran

expresadas en términos de los datos y del parámetro 𝜎 2 . Para tener una estimación
numérica de estas varianzas, es necesario tener una estimación del parámetro 𝜎 2 .
Si a la ecuación (1.1) le restamos 𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝑢̅ se obtiene
𝑦𝑖 = 𝛽2 𝑥𝑖 + (𝑢𝑖 − 𝑢̅) (2.14)
De la ecuación (2.7) se pueden escribir a los residuos como
44
𝑒𝑖 = 𝑦𝑖 − 𝛽̂2 𝑥𝑖 (2.15)
Remplazando la ecuación (2.14) en (2.15) y reordenando términos tenemos
𝑒𝑖 = −(𝛽̂2 − 𝛽2 )𝑥𝑖 + (𝑢𝑖 − 𝑢̅)
Elevando al cuadrado esta expresión, y aplicando sumatoria
𝑒𝑖 2 = (𝛽̂2 − 𝛽2 )2 𝑥𝑖2 + (𝑢𝑖 − 𝑢̅)2 − 2(𝛽̂2 − 𝛽2 )𝑥𝑖 (𝑢𝑖 − 𝑢̅)
∑ 𝑒𝑖 2 = (𝛽̂2 − 𝛽2 )2 ∑ 𝑥𝑖2 + ∑(𝑢𝑖 − 𝑢̅)2 − 2(𝛽̂2 − 𝛽2 ) ∑ 𝑥𝑖 (𝑢𝑖 − 𝑢̅)
y tomando el valor esperado,
𝐸[∑ 𝑒𝑖 2 ] = 𝐸(𝛽̂2 − 𝛽2 )2 ∑ 𝑥𝑖2 + 𝐸[∑(𝑢𝑖 − 𝑢̅)2 ] − 2𝐸[(𝛽̂2 − 𝛽2 ) ∑ 𝑥𝑖 (𝑢𝑖 − 𝑢̅)]
Multiplicamos y dividimos el segundo término del lado derecho por 𝑛 − 1 (para darle la
forma de la varianza muestral de 𝑢𝑖 , esto es ∑(ui − u̅)2 /(n − 1), aplicando las
propiedades de las desviaciones en el tercer término del lado derecho, y utilizando la
ecuación (2.10) obtenemos
∑(𝑢𝑖 −𝑢
̅) 2 ∑𝑥 𝑢
𝐸[∑ 𝑒𝑖 2 ] = 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝐸 [ 𝑛−1 ] − 2𝐸 [ ∑ 𝑥𝑖 2𝑖 ∑ 𝑥𝑖 𝑢𝑖 ]
𝑖
∑𝑥 𝑢 2
= 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝑉𝑎𝑟(𝑢𝑖 ) − 2 ∑ 𝑥𝑖2 𝐸 [( ∑ 𝑥𝑖 2𝑖 ) ]
𝑖
= 𝑉𝑎𝑟(𝛽̂2 ) ∑ 𝑥𝑖2 + (𝑛 − 1)𝑉𝑎𝑟(𝑢𝑖 ) − 2 ∑ 𝑥𝑖2 𝑉𝑎𝑟(𝛽̂2 )
Reemplazando las respectivas varianzas se obtiene,
𝐸[∑ 𝑒𝑖 2 ] = 𝜎 2 + (𝑛 − 1)𝜎 2 − 2𝜎 2 = (𝑛 − 2)𝜎 2
Luego proponemos un estimador de 𝜎 2 llamado 𝑠 2
2
∑ 𝑒𝑖 2
𝑠 = (2.16)
𝑛−2
Este es un estimador insesgado pues
∑𝑒 2 1
𝐸(𝑠 2 ) = 𝐸 [ 𝑛−2
𝑖
] = 𝑛−2 𝐸[∑ 𝑒𝑖 2 ]
45
[𝑛 − 2] 2
= 𝜎 = 𝜎2
[𝑛 − 2]
Ejemplo 2.3: Continuando con el ejemplo 2.1, calculemos el estimador de σ2 y las

varianzas de los parámetros. A partir de la ecuación (2.14) y de la tabla 2.1, como la
504737.80
SCR es igual a 504737.80, y como 𝑛 = 12, luego s2 = = 50473.78. Para
10
calcular las varianzas de los parámetros, nótese que estas varianzas dependen del
parámetro poblacional no observable 𝜎 2 . Entonces utilizaremos al estimador s2 en su
lugar en las ecuaciones (2.12) y (2.13), teniendo entonces a las varianzas estimadas
siguientes:
1 𝑋̅ 2 1 (8.0833)2
̂ 2
𝑉𝑎𝑟(𝛽1 ) = 𝑠 ( + ) = 50473.78 ( + ) = 24203.9499
𝑛 ∑ 𝑥𝑖 2 12 164.92
𝑠2 50473.78
𝑉𝑎𝑟(𝛽̂2 ) = = = 306.0536
∑ 𝑥𝑖 2 164.92
2.7 El teorema de Gauss-Markov
Los estimadores de mínimos cuadrados ordinarios son combinaciones lineales de la

variable estocástica 𝑌𝑖 , por ello se dice que son estimadores lineales. Por ejemplo, en el
caso de 𝛽̂2,
∑ 𝑥𝑖 𝑦𝑖 1 𝑥𝑖
𝛽̂2 = = ∑ 𝑥𝑖 𝑌𝑖 = ∑ ( ) 𝑌 = ∑ 𝑤𝑖 𝑌𝑖 (2.17)
∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 ∑ 𝑥𝑖 2 𝑖
La ecuación (2.17) nos dice que 𝛽̂2 es igual a la suma ponderada de 𝑌𝑖 , en donde los
𝑥
ponderadores son las expresiones 𝑤𝑖 = ∑ 𝑥𝑖 2 . Además, como se comprobó que estos
𝑖
estimadores son insesgados, se afirma que los estimadores 𝑀𝐶𝑂 pertenecen a la clase de
estimadores lineales e insesgados.
El teorema de Gauss-Markov dice que los estimadores de 𝑀𝐶𝑂 tienen la menor

varianza dentro de la clase de los estimadores lineales e insesgados. Por ello se dice que
el estimador 𝑀𝐶𝑂 es el mejor estimador lineal insesgado (MELI).
46
Para probar este teorema, planteamos otro estimador lineal que sea insesgado.
Definamos este estimador como 𝑏2 = ∑ 𝑐𝑖 𝑌𝑖 , en donde los valores ci son ponderadores
no aleatorios, que podrían ser cualquier número. Reemplazando la expresión del modelo
econométrico en 𝑏2 se obtiene
𝑏2 = ∑ 𝑐𝑖 (𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 ) = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝑢𝑖
Tomando el valor esperado a esta expresión nos queda
𝐸[𝑏2 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖 + ∑ 𝑐𝑖 𝐸[𝑢𝑖 ] = 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖
Para que 𝑏2 sea insesgado se requiere que ∑ 𝑐𝑖 = 0 , ∑ 𝑐𝑖 𝑋𝑖 = 1. Luego,
𝑏2 = 𝛽2 + ∑ 𝑐𝑖 𝑢𝑖
La varianza de este estimador insesgado es,
𝑉𝑎𝑟(𝑏2 ) = 𝐸[(𝑏2 − 𝛽2 )2 ] = 𝐸[(∑ 𝑐𝑖 𝑢𝑖 )2 ] = 𝐸[∑ 𝑐𝑖 2 𝑢𝑖 2 + 2 ∑ ∑𝑖<𝑗 𝑐𝑖 𝑐𝑗 𝑢𝑖 𝑢𝑗 ]
= ∑ 𝑐𝑖 2 𝐸[𝑢𝑖 2 ] + 2 ∑ ∑𝑖<𝑗 𝑐𝑖 𝑐𝑗 𝐸[𝑢𝑖 𝑢𝑗 ] = 𝜎 2 ∑ 𝑐𝑖 2
Formulemos, 𝑐𝑖 = 𝑤𝑖 + (𝑐𝑖 − 𝑤𝑖 ) donde wi es el mismo de (2.17). Elevando al

cuadrado y aplicando sumatorias,
𝑐𝑖 2 = 𝑤𝑖 2 + (𝑐𝑖 − 𝑤𝑖 )2 + 2𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 )
∑ 𝑐𝑖 2 = ∑ 𝑤𝑖 2 + ∑(𝑐𝑖 − 𝑤𝑖 )2 + 2 ∑ 𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 ) (2.18)
El último término en (2.18) es cero pues
∑ 𝑥𝑖 𝑐 𝑖 𝑥𝑖 2
∑ 𝑤𝑖 (𝑐𝑖 − 𝑤𝑖 ) = ∑ 𝑤𝑖 𝑐𝑖 − ∑ 𝑤𝑖 2 = 2
− ∑ (∑ 2
)
∑ 𝑥𝑖 𝑥𝑖
1 ∑ 𝑥𝑖 2
= − =0
∑ 𝑥𝑖 2 (∑ 𝑥𝑖 2 )2
Esto es cierto dado que ∑ 𝑐𝑖 𝑥𝑖 = 1. Volviendo a la expresión (2.18), multiplicamos todo

por σ2 y tenemos
𝜎 2 ∑ 𝑐𝑖 2 = 𝜎 2 ∑ 𝑤𝑖 2 + 𝜎 2 ∑(𝑐𝑖 − 𝑤𝑖 )2
𝜎 2
No es difícil comprobar que 𝑉𝑎𝑟(𝛽̂2 ) = ∑ 𝑥 2 = 𝜎 2 ∑ 𝑤𝑖 2 . Luego,
𝑖
47
𝑉𝑎𝑟(𝑏2 ) = 𝑉𝑎𝑟(𝛽̂2 ) + 𝜎 2 ∑(𝑐𝑖 − 𝑤𝑖 )2
Al ser el último término mayor o igual a cero, resulta que 𝑉𝑎𝑟(𝑏2 ) ≥ 𝑉𝑎𝑟(𝛽̂2 ).
Ejemplo 2.4: Consideremos un estimador alternativo de la pendiente. Sea este

𝑦
∑( 𝑖 )
𝑥𝑖
estimador 𝑏2 = . Este estimador es lineal en 𝑌𝑖 pues
𝑛
1 𝑌𝑖 −𝑌̅ 1 𝑌 1 𝑌̅
𝑏2 = 𝑛 ∑ ( ) = 𝑛 ∑ (𝑥𝑖 ) − 𝑛 ∑ (𝑥 )
𝑥𝑖 𝑖 𝑖
1 1 1 1
= ∑ ( ) 𝑌𝑖 − 𝑌̅ ∑ ( )
𝑛 𝑥𝑖 𝑛 𝑥𝑖
1 1 1 1 1
= 𝑛 ∑ (𝑥 ) 𝑌𝑖 − 𝑛 ∑ (𝑥 ) (𝑛 ∑ 𝑌𝑖 )
𝑖 𝑖
1 1 1 1
= 𝑛 ∑ (𝑥 ) 𝑌𝑖 − 𝑛2 ∑ (𝑥 ) ∑ 𝑌𝑖
𝑖 𝑖
Podemos comprobar que también es insesgado. Como 𝑦𝑖 = 𝛽2 𝑥𝑖 + 𝑢𝑖 − 𝑢̅ ,

1 𝛽2 𝑥𝑖 + 𝑢𝑖 − 𝑢̅ 1 𝑢𝑖 − 𝑢̅
𝑏2 = ∑( ) = 𝛽2 + ∑ ( )
Luego,
1 𝑢𝑖 − 𝑢̅ 1 𝐸[𝑢𝑖 ] − 𝐸[𝑢̅]
𝐸[𝑏2 ] = 𝛽2 + 𝐸 [ ∑ ( )] = 𝛽2 + ∑ ( ) = 𝛽2
Según el teorema de Gauss-Markov, este estimador tiene una varianza mayor a la del
estimador de mínimos cuadrados ordinarios.
2.8 Descomposición de la suma de cuadrados
Recordemos que el objetivo del análisis de regresión es explicar las variaciones de la

variable endógena Y. Una forma de estudiar la variabilidad de Y es a través de su
varianza. La varianza muestral de Y se calcula respecto a desviaciones respecto al
promedio, cuya fórmula de cálculo es
∑(𝑌𝑖 − 𝑌̅)2
𝑆𝑌2 =
𝑛−1
En esta ecuación, el denominador es una constante por lo que para estudiar la

variabilidad de Y basta con ver la dispersión que se observa en el numerador, que son
las desviaciones al cuadrado respecto a la media de Y. Llamemos sumatoria de
cuadrados totales de la endógena (SCT) a la expresión ∑(𝑌𝑖 − 𝑌̅)2 = ∑ 𝑦𝑖2 .
48
Para relacionar a la SCT con la recta estimada, elevamos al cuadrado a (2.7) y aplicando
sumatorias resulta en
∑ 𝑦𝑖2 = 𝛽̂22 ∑ 𝑥𝑖2 + ∑ 𝑒𝑖2 + 2𝛽̂2 ∑ 𝑥𝑖 𝑒𝑖
El último término del lado derecho es igual a cero pues en el modelo en desviaciones,
∑ 𝑥𝑖 𝑒𝑖 = 0. Luego,
∑ 𝑦𝑖2 = 𝛽̂22 ∑ 𝑥𝑖2 + ∑ 𝑒𝑖2 (2.19)
El término a la izquierda en (2.19) es la SCT que acabamos de definir, y el último de la

derecha del igual es la SCR. El término intermedio es 𝛽̂22 ∑ 𝑥𝑖2 es la sumatoria de
cuadrados explicada por la regresión, SCE. Es decir (2.19) es
SCT = SCE + SCR.
La SCE depende de la variabilidad de 𝑋 respecto a su media y del cuadrado del

estimador 𝛽̂2. Mediante el método de mínimos cuadrados ordinarios, al minimizarse la
SCR se está maximizando la SCE, es decir lo que las variaciones de 𝑋 podrían explicar
de las variaciones de 𝑌.
Con base en estas definiciones, podemos evaluar el ajuste de un modelo econométrico

estimado a través de qué fracción de la varianza de 𝑌 ha sido explicada por el regresor
del modelo. Definimos el coeficiente de determinación R-cuadrado o simplemente R2
como
𝑆𝐶𝑅 𝑆𝐶𝐸
𝑅2 = 1 − =
𝑆𝐶𝑇 𝑆𝐶𝑇
El R-cuadrado es una medida de bondad de ajuste. Toma los valores entre 0 y 1, en

donde se acerca a cero cuando el ajuste es bajo (SCE tiende a cero), y tiende a uno
cuando el ajuste es alto, en el sentido que las variaciones de 𝑋 se relacionan fuertemente
con las variaciones observadas de Y (SCR tiende a cero).
En el caso extremo donde el R-cuadrado es igual a 1, la relación entre 𝑋 e 𝑌 es

determinística, y todos los puntos de la muestra caen en la recta de la regresión, así la
variable 𝑋 explica perfectamente a 𝑌. En econometría no esperamos obtener un R-
cuadrado igual a 1. En caso que ocurra así, debemos pensar que es posible que haya
49
algún error en nuestros datos, o que estamos analizando una relación determinística (por
ejemplo, alguna identidad contable) que no necesita análisis estadístico ni econométrico.
En el otro extremo tenemos el caso de un R-cuadrado igual a 0. Esto ocurrirá si no

existe ninguna relación estadística entre las variables bajo estudio. Existen diversos
patrones de dispersión que podrían generar un R-cuadrado igual a 0, por ejemplo, si el
diagrama de dispersión toma la forma de un círculo, una circunferencia, un aspa, un
cuadrado, un rombo equiángulo, un disco, etc. En todos los casos la recta estimada por
𝑀𝐶𝑂, la cual es completamente horizontal. Esto ocurre pues a partir de (2.19), la SCE
es cero si 𝛽̂2 = 0.
Lo más común es tener valores de R-cuadrado entre 0 y 1. En la figura 2.4 mostramos

dos conjuntos de datos con una recta estimada por 𝑀𝐶𝑂, y el R-cuadrado respectivo. En
la figura superior se observa una dispersión mayor de las observaciones alrededor de la
recta que en la figura inferior. Correspondientemente, el R-cuadrado de la figura
superior es apenas de 0.5767 mientras que en el gráfico inferior es de 0.9429. Por esa
razón los datos del panel inferior muestran un mejor ajuste en el sentido que un mayor
porcentaje de variabilidad de Y coincide con variaciones en 𝑋.
Cabe mencionar que no existe un mínimo valor de R-cuadrado como para juzgar si los
resultados de una estimación son “buenos” o “malos”. De hecho, en la práctica se suele
observar ciertas regularidades de los valores de R-cuadrado según el tipo de datos. Con
frecuencia se observa que con datos de corte transversal –especialmente si son datos
microeconómicos a nivel de personas o familias– el R-cuadrado se encuentra por debajo
de 0.30. Una posible explicación a este fenómeno radica en que en los modelos que
explican la conducta de los individuos existen innumerables factores que afectan los
resultados de la variable endógena 𝑌. En un modelo con un solo regresor, la
perturbación u incorpora a todos estos factores, y por lo tanto es de esperar que 𝑋
explique solo una fracción pequeña de la variabilidad de 𝑌. Esto no quiere decir que 𝑋
sea un mal regresor. Por ejemplo, en la relación entre la educación y los salarios, tal
como se ve en la figura 1.2 del capítulo anterior, no se puede dudar que más educación
(variaciones en la educación) se relaciona con más ingresos (variaciones en los
salarios). No obstante, se aprecia en el gráfico que con mucha frecuencia existen puntos
que se alejan verticalmente de la recta. Tales alejamientos se deben a los demás factores
incluidos en 𝑢. Por ejemplo, si un trabajador tiene más experiencia laboral que otro
50
pueda ganar un poco más pese a tener ambos la misma educación; o si algún otro sufre
problemas de salud, esto puede provocar que gane menos, etc.5 Sin embargo, el modelo
de dos variables nos muestra que sí se puede esperar que con mayores niveles de
educación se espere un salario mayor.
En el caso de los datos de series de tiempo, como por ejemplo los datos
macroeconómicos, las regresiones entre estas variables suelen arrojar valores de R-
cuadrado relativamente altos, muchos por encima de 0.7. Por ejemplo, una regresión
bivariada del Consumo Privado contra el Producto Bruto Interno como variable
explicativa puede arrojar valores de R-cuadrado cercanos a 0.99. Esto se debe tomar con
cuidado pues muchas series de tiempo se comportan siguiendo patrones crecientes en el
tiempo o tendencias. El R-cuadrado puede estar reflejando esta tendencia común de
ambas series, sobreestimando entonces la fortaleza de la relación entre estas series
macroeconómicas. En estos casos puede ser mejor transformar los datos a tasas de
crecimiento, las cuales limpian el efecto de las tendencias.
Adicionalmente, se puede comprobar que en el modelo de regresión bivariado, el R-

cuadrado es exactamente igual al cuadrado del coeficiente de correlación muestral
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)

𝑟𝑋𝑌 = 𝑛−1
̅ 2 ̅ 2
√∑(𝑋𝑖 − 𝑋) √∑(𝑌𝑖 − 𝑌)
𝑛−1 𝑛−1
Luego, 𝑅2 = (𝑟𝑋𝑌 )2. Se deja al lector esta demostración.
Por último, se debe tener en cuenta que el R-cuadrado solamente es una medida
estadística acerca de la asociación entre las variables 𝑋 e 𝑌, pero no se le debe tomar
como un indicador que valide algún tipo de causalidad entre las variables. Es posible
que una regresión entre dos variables no unidas causalmente muestre un R-cuadrado
muy alto.
5
En el capítulo 4 se extiende el modelo de regresión lineal agregando más regresores. Pese a ello el R-
.cuadrado en corte transversal con datos microeconómicos sigue siendo “bajo”, pues la cantidad de
variables disponibles suele ser limitada en comparación con los miles de factores que afectan a 𝑌.
51
Figura 2.4
Dos conjuntos de datos y sus R2
2.9 Ejemplos de una estimación por 𝑴𝑪𝑶 en Stata
En el apéndice de este capítulo se presenta una breve introducción al programa Stata. Es

recomendable leer primero este apéndice. En esta sección mostramos un ejemplo
numérico de una estimación por 𝑀𝐶𝑂 usando esta herramienta.
Ejemplo 2.5: Estimación 𝑀𝐶𝑂 en Stata
Utilizaremos los datos hipotéticos del ejemplo 2.1 para hacer una estimación por
mínimos cuadrados ordinarios en Stata. Véase el apéndice en donde se indica cómo
trasladar estos datos desde un archivo MS Excel a Stata.
52
Una vez que ya tenemos los datos en Stata, se escribe en la línea de comandos lo
siguiente:
regress y x
Tras ello aparecerá la siguiente tabla de resultados de la estimación por mínimos

cuadrados ordinarios que se presenta en la tabla 2.3. En primer lugar, ubicamos a los
coeficientes de la estimación 𝑀𝐶𝑂 en la columna llamada Coef., la cual muestra que el
coeficiente de la variable X es 53.644 y el coeficiente de la constante es 98.542, siendo
los mismos números que calculamos manualmente en el ejemplo 2.1.
Tabla 2.3
Tabla de resultados de Stata
Source SS df MS Number of obs = 12

F( 1, 10) = 9.40
Model 474581.87 1 474581.87 Prob > F = 0.0119
Residual 504737.797 10 50473.7797 R-squared = 0.4846
Adj R-squared = 0.4331
Total 979319.667 11 89029.0606 Root MSE = 224.66
y Coef. Std. Err. t P>|t| [95% Conf. Interval]
x 53.64426 17.49446 3.07 0.012 14.66417 92.62436

_cons 98.54219 155.5762 0.63 0.541 -248.1032 445.1875
En la columna Std. Err. se muestra las desviaciones estándar estimadas de los

parámetros, que vienen a ser las raíces cuadradas de las varianzas estimadas del ejemplo
2.3.
En la parte superior izquierda de la tabla de resultados de Stata tenemos la

descomposición de la suma de cuadrados, que se ven en la columna titulada SS. El
valor correspondiente a Total es la suma de cuadrados totales, es decir SCT =
979319.667. La suma de cuadrados explicada es la que aparece con la etiqueta Model,
SCE = 474581.87. Se deja al lector el cálculo de estas sumas. La suma de cuadrados de
los residuos figura como Residual, es SCR = 504737.797, y es igual al valor que se
calculó en la tabla 2.2.
Por último, en la parte superior derecha hay algunos indicadores de la regresión. En

primer lugar, está el número de observaciones, que aparece como Number of obs.
También se observa al R-cuadrado que se presenta como R-squared = 0.4846, y más
53
abajo figura Root MSE, que no es otra cosa que la raíz cuadrada de 𝑠 2 , es decir la
desviación estándar de la regresión.
En la tabla también aparecen otros indicadores y estadísticos, que se irán explicando

poco a poco en los siguientes capítulos.
Ejemplo 2.6: Estimación del modelo de salarios
Ahora mostraremos los resultados de la estimación por 𝑀𝐶𝑂 usando datos reales de la
relación entre los años de educación de una persona (llamada aquí escolaridad) y el
logaritmo de la remuneración promedio por hora (llamada aquí salario). Usaremos los
datos del ejemplo 1.1 del capítulo 1, en donde hemos restringido la muestra a personas
que viven en zonas urbanas y con una edad en el rango de 14 a 65 años inclusive6. El
modelo a ser estimado es
ln(𝑆𝑎𝑙𝑎𝑟𝑖𝑜𝑖 ) = 𝛽1 + 𝛽2 𝐸𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑖 + 𝑢𝑖
A este modelo en donde la variable endógena se encuentra en logaritmo mientras que el

regresor no se le se suele llamar el “modelo semi-logarítmico” o “semi-log”,
ln(𝑌𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 .
Una particularidad de este modelo es que el coeficiente 𝛽2 mide el cambio porcentual

𝑑𝑙𝑛𝑌
del Y ante un cambio discreto en 𝑋. Esto es así pues 𝛽2 = ≈ 𝑙𝑛𝑌|𝑋+1 − 𝑙𝑛𝑌|𝑋 , lo
𝑑𝑋
cual multiplicado por 100% es aproximadamente el cambio porcentual. En el ejemplo

de salarios y escolaridad, 𝛽2 × 100% es el cambio porcentual en los salarios por tener
un año más de educación.
El resultado de la estimación se puede observar en la tabla 2.4,
6
En el Perú la edad de jubilación es 65 años.
54
Tabla 2.4
Estimación de la relación entre la educación y los salarios
. reg lnsalario escolaridad
Source SS df MS Number of obs = 22,091

F(1, 22089) = 4918.91
Model 2067.27484 1 2067.27484 Prob > F = 0.0000
Residual 9283.35662 22,089 .42027057 R-squared = 0.1821
Total 11350.6315 22,090 .513835739 Root MSE = .64828
lnsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]
escolaridad .0808554 .0011529 70.13 0.000 .0785957 .0831151

_cons .8138182 .0144849 56.18 0.000 .7854268 .8422097
Podemos ver que el signo del intercepto estimado es positivo, siendo 𝛽̂1 = 0.8138182.
Tomando el exponencial a este valor se obtiene el valor 2.2565, lo que indica que para
las personas que no tienen educación el salario por hora es apenas de 2.25 soles. A partir
de ahí, por cada año adicional de educación el salario por hora se incrementa en
promedio aproximadamente en 8%.
Por otro lado, el R-cuadrado en esta estimación es 0.1821, lo cual indica que la
variabilidad de la educación explica el 18.2% de la variabilidad de los salarios. Aunque
este indicador pueda parecer bajo, para ser una estimación por corte transversal se puede
considerar como aceptable.
Apéndice 2.1
𝟐
̂ 𝟐 ) = − 𝑿̅𝝈 𝟐 .
̂ 𝟏, 𝜷
Demostración de que 𝑪𝒐𝒗(𝜷 ∑𝒙 𝒊
De la definición de covarianza,
𝐶𝑜𝑣(𝛽̂1 , 𝛽̂2 ) = 𝐸[(𝛽̂1 − 𝐸[𝛽̂1 ])(𝛽̂2 − 𝐸[𝛽̂2 ])]
Utilizando (2.11)
= 𝐸[(−𝑋̅(𝛽̂2 − 𝛽2 ) + 𝑢̅)(𝛽̂2 − 𝛽2 )]
2
= −𝑋̅𝐸 [(𝛽̂2 − 𝛽2 ) ] + 𝐸[𝑢̅(𝛽̂2 − 𝛽2 )]
55
De (2.12) y (2.10),
𝑋̅𝜎 2 ∑ 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖
=− + 𝐸 [ ∙ ]
∑ 𝑥𝑖2 𝑛 ∑ 𝑥𝑖2
Como se demostró, el último término es igual a cero, con lo cual se completa la prueba.
Apéndice 2.2
Introducción a Stata
Stata es un programa estadístico que nos permite realizar cálculos y estimaciones

econométricas con mucha facilidad y flexibilidad. En este apéndice haremos una
pequeña introducción a una sesión típica en Stata y veremos algunos comandos básicos.
(a) La pantalla principal de Stata
Es importante reconocer los componentes de esta pantalla de inicio.
Historial de comandos Pantalla de resultados Lista de variables
Descripción de
Línea de comandos variables y archivo
Cuando se inicia el programa, estas pantallas se encuentran vacías. Una vez que se
ha abierto un archivo de datos de Stata (con extensión .dta), en la ventana superior
derecha aparecerán los nombres de las variables. Seleccionando alguna de ellas, en
la ventana inferior derecha se obtendrá información del formato de esa variable (por
ejemplo, si es una variable numérica o de texto), y también se tiene información del
número de observaciones y variables en el archivo.
56
En la parte inferior central de la pantalla se encuentra la línea de comandos. En esa
ventana podemos escribir comandos o instrucciones al programa. Como
consecuencia de un comando tendremos un resultado, que se mostrará en la pantalla
central.7Si hemos cometido algún error en la escritura de un comando, obtendremos
un mensaje de error en color rojo. Por último, cada comando que empleemos
quedará registrado en la ventana izquierda de historial de comandos.
En la misma pantalla se encuentran en la parte superior los íconos principales que

se usarán con mucha frecuencia.
Abrir archivo Abrir editor Abrir el Abrir el visor

*.dta de archivos editor de de datos
guardado en Do datos (Data
la PC (do files) (Data Editor) Browser)
(b) Importación de datos
Para poder trabajar en Stata, lo primero que necesitamos son los datos. Hay varias
formas de importar datos a Stata. Aquí tenemos tres formas:
i. Abriendo una base de datos que viene incorporada en el software: El programa

incluye algunas bases de datos de ejemplo que pueden usarse libremente para
practicar. Para acceder a ellas se usan los comandos sysuse o webuse. Por
ejemplo, en la línea de comando escriba
sysuse auto
Luego presione la tecla Enter. Esto abre el archivo “auto.dta” que contiene
información sobre autos de diversas marcas. La lista completa de archivos de
7
En el caso de los gráficos se suele abrir automáticamente una ventana aparte.
57
datos que vienen con el software puede ser visualizada escribiendo en la línea
de comandos sysuse dir.
En la red de Stata hay más bases que pueden ser llamadas si se tiene una
conexión a internet. Por ejemplo, escriba en la línea de comandos
webuse klein
Obtendrá un archivo con datos macroeconómicos de EEUU.
ii. Abriendo un archivo de Stata que tengamos guardada en nuestra computadora

(archivo con extensión *.dta): Damos click en el ícono para abrir datos y los
buscamos en los directorios de la computadora.
iii. Copiando y pegando los datos desde MS Excel: Supongamos que tenemos
nuestros datos en Excel, tal como se muestra en la siguiente imagen:
Seleccione con el mouse las tres variables desde la celda A1 hasta la D13 y
presione las teclas CTRL+C. Luego abra el programa Stata, y dé click en el
ícono Editor de Datos (cuadrícula con un lápiz). Aparecerá una cuadrícula.
Ubique el mouse en la esquina superior derecha y presione CTRL+V. El
programa preguntará si desea que la primera fila copiada sea tomada como los
nombres de las variables. Elija esta opción. Obtendrá la siguiente pantalla.
58
Nótese que los nombres en Excel se encontraban en mayúscula, pero al
copiarlos a Stata ahora se encuentran en minúscula.
Finalmente cierre la pantalla y ya tendrá los datos listos para ser usados. Por
ejemplo si escribe en la línea de comandos:
regress y x
Obtendrá los mismos resultados de la tabla 2.3.
(c) Observación de los datos
En cualquier momento podemos ver los datos haciendo click en el ícono del visor
de datos (cuadrícula con una lupa), o escribiendo en la línea de comandos browse.
Esta pantalla es idéntica a la del data editor, con la diferencia que no se puede
modificar los datos.
Es importante notar que los datos pueden ser numéricos o alfanuméricos. Los
primeros se presentan en color negro o azul, mientras que los alfanuméricos
(palabras, códigos, etc.) se presentan en color rojo. En la pantalla anterior las
variables X e Y son numéricas mientras que las variables Z y 𝑊 son alfanuméricas.
Solo se pueden hacer operaciones matemáticas con datos numéricos, sin embargo,
se pueden obtener algunas estadísticas también con los alfanuméricos. En el
capítulo 6 trabajaremos con datos que no son numéricos.
(d) Estadísticas y gráficos básicos
59
i. Diagrama de dispersión: Escriba en la línea de comandos scatter y x.
Obtendrá un gráfico similar a los mostrados en este capítulo. Si desea que se
agregue la línea de estimación por 𝑀𝐶𝑂 escriba
scatter y x || lfit y x
1200
1000
800
600
400
200
0 5 10 15
X
Y Fitted values
ii. Estadísticas básicas: Se puede usar el comando summarize, o simplemente

sum pues los comandos de Stata pueden escribirse en su mayoría en forma
abreviada. Por ejemplo, sum x y calcula la media, desviación estándar, y los
valores mínimos y máximos de 𝑋 e 𝑌. Se suele usar este comando para variables
que expresen cantidades, tal como los años de educación y los salarios.
. sum x y
Variable Obs Mean Std. Dev. Min Max
x 12 8.083333 3.872005 2 14
y 12 532.1667 298.3774 120 1150
iii. Tablas de frecuencias: Son tablas que muestran la frecuencia absoluta (cantidad
de observaciones) y relativa (porcentaje) de los valores o categorías de alguna
variable. Típicamente se usa para variables no numéricas, aunque en ocasiones
también se puede usar para variables numéricas si sus valores no son muy
numerosos. Se obtiene con el comando tabulate o simplemente tab.
60
. tab z
Z Freq. Percent Cum.
Hombre 7 58.33 58.33

Mujer 5 41.67 100.00
Total 12 100.00
iv. Tablas cruzadas: Son tablas de doble entrada. Se consiguen con el mismo
comando tabulate, solo que indicando dos variables. Por ejemplo tab z w
nos muestra la tabla cruzada de individuos por género y región.
. tab z w
W
Z Centro Norte Sur Total
Hombre 2 2 3 7
Mujer 1 3 1 5
Total 3 5 4 12
Los números en cada celda son el número de casos que cumplen las dos
condiciones. Por ejemplo, hay tres mujeres que son del norte. Se puede
conseguir porcentajes por filas o columnas agregando las opciones col o row.
En Stata las opciones específicas de algún comando se escriben después de una
coma.
tab z w, col
tab z w, row
(e) Generando nuevas variables
Hay diversas formas de generar nuevas variables a partir de las existentes. A lo

largo del libro veremos algunas, pero por ahora veamos el comando generate, el
cual en forma abreviada se invoca simplemente con gen, ge o g, según el gusto
del usuario. Por ejemplo:
generate x2=x*x Se ha generado el cuadrado de X, llamado “x2”
gen d=2*x+y Se genera la combinación de X e Y.
g ly=ln(y) Se genera el logaritmo natural de Y, llamado “ly”
61
(f) Otros comandos básicos
drop x borra la variable X.
keep x borra todas variables menos X.
rename x X cambia el nombre de una variable, en este ejemplo la cambia a

mayúscula.
browse x y nos muestra las variables X e Y.
clear all borra todas las variables, comandos y datos en memoria de la

sesión. Se utiliza antes de abrir un nuevo archivo *.dta.
help rename nos muestra ayuda sobre el comando rename.
use “C:\Mi Carpeta\misdatos.dta”, clear Abre el archivo

misdatos.dta que se encuentra en “C:\Mi Carpeta”.
save “C:\Mi Carpeta\misdatos.dta”, replace Sobrescribe el

archivo misdatos.dta con los cambios que hemos realizado.
(g) Uso de archivos Do (do files)
Como el lector puede haber notado, en esta sesión introductoria hemos utilizado
varios comandos, que quizás desearíamos utilizar en otra ocasión. Para ello es muy
recomendable utilizar los archivos Do (más conocidos como do-files). En estos
archivos podemos escribir muchos comandos en varias líneas y guardarlos para el
futuro. Lo usual es que uno prepare sus do-files y con el tiempo los edite y extienda
según nuestras necesidades.
Para crear un archivo Do, damos click al ícono del editor de archivo Do. Ahí se
pueden escribir los comandos (si desea puede copiarlos del historial de comandos).
62
Este do-file puede ser guardado como un archivo con extensión *.do, y si deseamos
recuperarlo en otra sesión, desde esta misma ventana podemos abrirlo. Para correr
todos los comandos o una parte de ellos, se puede seleccionar las líneas y luego dar
click en el ícono encerrado en un óvalo.
En el do-file se pueden agregar comentarios. Cuando una línea empieza con

asterisco (*) el programa no toma en cuenta lo escrito en esa línea. También se
pueden agregar comentarios en la misma línea escribiendo “//”. El programa no
leerá lo que escribamos a la derecha de “//”.
Ejercicios
2.1 Demuestre que cuando usted regresiona a una variable 𝑌𝑖 contra una constante y
nada más, es decir se estima el modelo 𝑌𝑖 = 𝛽1 + 𝑢𝑖 , el estimador 𝑀𝐶𝑂 𝛽̂1 es
igual al promedio simple de los 𝑌𝑖 y que los residuos son iguales a la variable en
desviaciones. (Ayuda: Plantee la SCR y derive respecto al único estimador).
2.2 En el modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 , demuestre que 𝑌̅̂ = 𝑌̅.
2.3 Suponga que en el modelo bivariado, 𝐸[𝑢𝑖 ] = 𝑐, donde c es una constante,

manteniéndose los demás supuestos del modelo. ¿A qué será igual 𝐸[𝛽̂1 ] y 𝐸[𝛽̂2 ]?
2.4 En el modelo bivariado sin intercepto, 𝑌𝑖 = 𝛽𝑋𝑖 + 𝑢𝑖 , obtenga el estimador 𝑀𝐶𝑂

de su parámetros, verifique la insesgadez y calcule su varianza.
63
2.5 Si en el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 los datos de 𝑋 e 𝑌 son multiplicados por una
constante M. ¿Qué diferencia habrá entre los parámetros estimados del nuevo
modelo 𝛽̂1∗ y 𝛽̂2∗ respecto a los parámetros estimados con los datos originales, 𝛽̂1 y
𝛽̂2?
2.6 Contamos con datos de producción para 22 firmas en cierta industria, donde
𝑌 = ln(𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛) y 𝑋 = ln(𝑡𝑟𝑎𝑏𝑎𝑗𝑜) medido en horas: 𝑌̅ = 20, 𝑋̅ = 10,
∑(𝑌𝑖 − 𝑌̅)2 = 100, ∑(𝑋𝑖 − 𝑋̅)2 = 60 y ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) = 30. Calcule los
estimadores mínimos cuadráticos del modelo bivariado.
2.7 En el contexto del modelo de regresión lineal clásico con dos variables, evalúe en
función de la esperanza y la varianza cuál es el mejor estimador de los siguientes
estimadores de la pendiente 𝛽2:
∑𝑌 ∑ 𝑋𝑖 𝑌𝑖 1 𝑌
𝑏1 = ∑ 𝑋𝑖 𝑏2 = ∑ 𝑋𝑖2
𝑏3 = 𝑛 ∑ (𝑋𝑖 )
𝑖 𝑖
2.8 Suponga que las variables 𝑋 e 𝑌 están relacionadas de acuerdo con la función de
regresión poblacional 𝑌𝑖 = 𝛽2 𝑋𝑖 + 𝑢𝑖 , la cual no tiene intercepto. Suponga que
equivocadamente usted regresiona el modelo con intercepto por 𝑀𝐶𝑂 obteniendo
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 . Calcule la esperanza de los estimadores y la varianza 𝑉𝑎𝑟(𝛽̂2 ).
2.9 Si en el modelo 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 los datos de 𝑋 e 𝑌 son transformados de la

siguiente manera: 𝑌𝑖∗ = 𝑚 + 𝑞𝑌𝑖 , 𝑋𝑖∗ = 𝑐 + 𝑑𝑋𝑖 . ¿Qué ocurrirá con los
parámetros estimados del nuevo modelo 𝑌𝑖∗ = 𝛽1 + 𝛽2 𝑋𝑖∗ + 𝑣𝑖 , respecto a los
parámetros estimados con los datos originales? Muestre que el R-cuadrado no
cambia.
2.10 Se sabe que 𝑅 2 = 0.08, 𝑠 2 = 9.8 y 𝑛 = 100. Calcule la SCE y la SCT.
2.11 Teniendo en cuenta la siguiente tabla:
Año 1 2 3 4 5 6 7 8 9 10 11 12
Consumo (C) 15.6 6.4 9.2 14.9 7.2 7.6 7.2 7.2 7.9 8.8 4.1 11.1
Ingreso (I) 16.3 6.8 8.6 15.3 8.7 7.8 8.7 8.3 9.4 10.8 5.1 11.6
Estime el modelo 𝐶𝑖 = 𝛽1 + 𝛽2 𝐼𝑖 + 𝑢𝑖 . Halle las varianzas de los estimadores y el

coeficiente de determinación R-cuadrado.
64
2.12 Supongamos un modelo bivariado 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 en donde se obtienen
estimaciones por 𝑀𝐶𝑂 𝛽̂1 y 𝛽̂2. Ahora, suponga que se define la variable 𝑍𝑖 =
𝐶 − 𝑋𝑖 , en donde 𝐶 es una constante. Si regresiona el modelo 𝑌𝑖 = 𝛼1 + 𝛼2 𝑍𝑖 +
𝑢𝑖 por 𝑀𝐶𝑂, ¿Qué relación hay entre 𝛼̂2 y 𝛽̂2?
2.13 La siguiente tabla muestra datos del precio y antigüedad de autos usados de una
marca y modelo conocidos en la ciudad de Lima en el año 2016. El precio está
medido en dólares y la antigüedad en años transcurridos desde su fabricación
hasta el año 2016.
Observación Antigüedad Precio (en

(Años) miles de $)
1 24 5
2 23 3.6
3 21 5.2
4 17 6
5 15 5.5
6 13 7.65
7 9 6.2
8 6 11.5
9 5 11.5
10 3 15
11 3 13.5
12 1 16.5
13 1 19.5
(a) Estime por 𝑀𝐶𝑂 el modelo 𝑃𝑟𝑒𝑐𝑖𝑜𝑖 = 𝛽1 + 𝛽2 𝐴𝑛𝑡𝑖𝑔ü𝑒𝑑𝑎𝑑𝑖 + 𝑢𝑖 .
(b) Según la estimación, ¿en cuánto se reduce cada año el precio de los autos? Si
tengo un auto de esa marca y modelo del año 1997, ¿cuánto esperaría obtener por
ese auto?
2.14 Compruebe usted mismo la insesgadez de los estimadores 𝑀𝐶𝑂. Vamos a simular
datos de 𝑋 e 𝑌 de acuerdo al modelo poblacional 𝑌𝑖 = 50 + 3𝑋𝑖 + 𝑢𝑖 para luego
estimarlos por 𝑀𝐶𝑂. Las estimaciones deberían estar cerca de los valores
poblacionales 𝛽1 = 50 y 𝛽2 = 3. Para hacer esto abrimos una nueva venta de
archivo do-file. Luego, escriba lo siguiente:
65
La estrategia es crear la perturbación aleatoria 𝑢 usando números aleatorios
normales. Para esto se usa el comando drawnorm que crea una base de datos de
30 observaciones. En la segunda línea se genera los valores de la variable exógena
𝑋, los cuales son números aleatorios normales con media 20 y desviación estándar
igual a 4. Se usa la función “rnormal” para generar los números aleatorios. No
es necesario usar drawnorm nuevamente pues ya se ha creado la base con
𝑛 = 30 en la línea anterior. En la tercera línea se genera la variable endógena, en
función de 𝑋 y 𝑢. Por último, en la cuarta línea se hace la estimación 𝑀𝐶𝑂, y en
la quinta se limpia completamente la sesión.
Para que corra el programa se debe seleccionar todo el texto y hacer click en el
ícono que está marcado con un óvalo en la figura de arriba. Se obtiene la siguiente
tabla:
Source SS df MS Number of obs = 30

F(1, 28) = 35.24
Model 3524.19792 1 3524.19792 Prob > F = 0.0000
Residual 2799.93088 28 99.9975314 R-squared = 0.5573
Total 6324.1288 29 218.073407 Root MSE = 9.9999
y Coef. Std. Err. t P>|t| [95% Conf. Interval]
x 2.71301 .4569996 5.94 0.000 1.776889 3.649131

_cons 53.14907 9.139938 5.82 0.000 34.42675 71.87138
Obtenemos 𝛽̂1 = 53.14907 y 𝛽̂2 = 2.71301, los cuales son valores cercanos a los
valores poblacionales (si usted ha realizado el ejercicio en Stata, no hay problema
66
si obtiene otros valores). Para observar que la estimación 𝑀𝐶𝑂 entrega valores
insesgados, vuelva a correr el programa. Obtendrá nuevas estimaciones. Repita
esto muchas veces y observará que los valores estimados se encuentran alrededor
de los parámetros poblacionales, 𝛽1 = 50 y 𝛽2 = 3.
67

Estimación MCO y sus propiedades en regresión lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación MCO y sus propiedades en regresión lineal

Cargado por

Copyright:

Formatos disponibles

CAPÍTULO 2

ESTIMACIÓN DEL MODELO POR MÍNIMOS CUADRADOS ORDINARIOS Y

En este capítulo presentaremos los temas concernientes a la estimación del modelo de

2.1 La Función de Regresión Muestral

La función de regresión poblacional 𝐸[𝑌|𝑋] presentada en el supuesto 1 no es

Definimos la Función de Regresión Muestral (FRM) como:

𝑌̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 (2.1)

Gráficamente, en el ejemplo de remuneraciones y años de educación, continuando con

En la figura 2.1 se muestran las distancias entre dos puntos de observaciones y lo

𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 = 𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖

Alternativamente, la ecuación de residuos puede escribirse como

𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 (2.2)

2.2 Estimación por Mínimos Cuadrados Ordinarios

𝑆𝐶𝑅 = ∑𝑛𝑖=1 𝑒𝑖 2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 )2 (2.3)

∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) = 0

Desarrollando el paréntesis se obtiene ∑ 𝑌𝑖 = 𝑛𝛽̂1 + 𝛽̂2 ∑ 𝑋𝑖 . Dividiendo ambos lados

𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋̅ (2.4𝑏)

De la ecuación (2.5), ∑𝑛𝑖=1(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 ) . 𝑋𝑖 = 0

Desarrollando el paréntesis, aplicando la sumatoria, omitiendo los límites de la

∑ 𝑋𝑖 𝑌𝑖 = (𝑌̅ − 𝛽̂2 𝑋̅) ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2

Luego, el estimador de mínimos cuadrados de la pendiente es

Después de algunas manipulaciones algebraicas se puede comprobar que la última

∑(𝑋𝑖 − 𝑋̅) (𝑌𝑖 − 𝑌̅)

2.3 Algunas características de la estimación por 𝑴𝑪𝑶

a) Los estimadores puntuales 𝛽̂1 y 𝛽̂2 están expresados en términos de las

De la misma forma que el anterior, la ecuación (2.5) muestra este resultado. En

Esta propiedad puede deducirse de las dos anteriores.

∑ 𝑒𝑖 𝑌̂𝑖 = ∑ 𝑒𝑖 (𝛽̂1 + 𝛽̂2 𝑋𝑖 ) = 𝛽̂1 ∑ 𝑒𝑖 + 𝛽̂2 ∑ 𝑒𝑖 𝑋𝑖 = 0

2.4 El modelo en desviaciones respecto a las medias

Estas desviaciones cumplen las siguientes propiedades3:

El modelo econométrico a estimar se puede presentar en términos de las desviaciones

Partiendo del modelo estimado 𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 , si lo promediamos obtenemos

𝑌𝑖 − 𝑌̅ = 𝛽̂1 + 𝛽̂2 𝑋𝑖 − 𝛽̂1 − 𝛽̂2 𝑋̅ + 𝑒𝑖 − 𝑒̅

𝑌𝑖 − 𝑌̅ = 𝛽̂2 (𝑋𝑖 − 𝑋̅) + 𝑒𝑖 − 𝑒̅

La ecuación (2.7) es el modelo estimado en desviaciones respecto a la media. Nótese

en el modelo estimado en niveles 𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋𝑖 + 𝑒𝑖 , donde también se cumple que

Vamos a estimar el modelo en desviaciones por mínimos cuadrados ordinarios. La suma

𝑆𝐶𝑅 = ∑ 𝑒𝑖 2 = ∑(𝑦𝑖 − 𝛽̂2 𝑥𝑖 )2

Derivando respecto al único parámetro se obtiene

De la ecuación (2.8) despejamos a 𝛽̂2:

Suma 97 6386 0.00 0.00 164.92 8846.83

La cuarta y quinta columna corresponden a los cálculos de las variables en desviaciones

𝛽̂1 = 532.1667 − 53.6443 × 8.0833 = 98.5422

Para este cálculo es necesario calcular ∑ 𝑋𝑌, y ∑ 𝑋 2 a partir de la información de la

𝑌̂𝑖 = 98.5422 + 53.6443 ∙ 𝑋𝑖

La tabla 2.2 complementa la información de la tabla 2.1, incluyendo a 𝑌̂𝑖 , a 𝑒𝑖 y al

Suma 97 6386 6386.00 0.00 504737.80

2.5 Propiedades estadísticas de los estimadores de 𝑴𝑪𝑶

Empezaremos con la media de la pendiente 𝛽̂2 . Partiendo de la ecuación (2.9) y

Reemplazando la expresión de Yi del modelo econométrico se tiene

Dado que ∑ 𝑥𝑖 = 0 y que ∑ 𝑥𝑖 𝑋𝑖 = ∑ 𝑥𝑖2 , la expresión se reduce a:

Ejemplo 2.2: Para ilustrar la insesgadez consideremos un ejemplo hipotético similar al

= 𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅ (2.11)

Tomando el valor esperado a (2.11)

𝐸[𝛽̂1 ] = 𝐸[𝛽1 + 𝑋̅(𝛽2 − 𝛽̂2 ) + 𝑢̅] = 𝛽1 + 𝑋̅(𝛽2 − 𝐸[𝛽̂2 ]) + 𝐸[𝑢̅]

0. Por lo tanto el estimador 𝛽̂1 también es insesgado.

A continuación, vamos a calcular las varianzas de estos estimadores. Empezaremos con

Dado que 𝛽̂2 es insesgado y utilizando la ecuación (2.10) se obtiene que

Bajo el supuesto de perturbaciones esféricas y 𝑋 fijo, se cumple que 𝑉𝑎𝑟(𝑢𝑖 ) =

De la ecuación (2.11), la varianza de 𝛽̂1 es,

Dado que 𝑉𝑎𝑟(𝑢̅) = 𝐸[𝑢̅2 ] − 𝐸[𝑢̅]2 , entonces reemplazando términos,

El último término de esta ecuación es cero pues

pues ∑ 𝑥i = 0 y 𝐶𝑜𝑣(𝑢𝑖 𝑢𝑗 ) = 0. Luego,