Está en la página 1de 25

Capítulo 2

Estimación del Modelo por Mínimos Cuadrados Ordinarios y sus Propiedades

Una parte importante del análisis econométrico es la obtención de una versión muestral
de la regresión a partir de los datos disponibles para el investigador. Como se vio, la
recta de regresión queda completamente caracterizada mediante sus parámetros, por lo
que la primera tarea consiste en la estimación de estos parámetros utilizando inferencia
estadística. En esta parte la econometría se apoya en los métodos de estimación
provenientes de la estadística, como por ejemplo el método de mínimos cuadrados, el de
máxima verosimilitud o el método de los momentos.

En este capítulo presentaremos los temas concernientes a la estimación del modelo de


regresión clásico bivariado por el ampliamente conocido método de mínimos cuadrados
ordinarios. No solamente se obtendrán los estimadores sino que se discutirá con
bastante detalle las principales propiedades numéricas y estadísticas de estas
estimaciones. Hacia la parte final del capítulo se presentará una primera forma de
evaluar el ajuste del modelo a los datos a través del coeficiente de determinación R-
cuadrado.

2.1 La Función de Regresión Muestral

La función de regresión poblacional 𝐸[Y|X] presentada en el supuesto 1 no es


observable, lo cual representa un problema para poder responder a la pregunta
cuantitativa sobre el efecto de X sobre Y. Lo único que vemos es un conjunto de
observaciones de las variables, presentados en forma de puntos o pares ordenados
(Xi , Yi ). Nuestro objetivo entonces será encontrar una aproximación a la FRP utilizando
esta muestra de observaciones y aplicando técnicas de inferencia estadística.

Definimos la Función de Regresión Muestral (FRM) como:

̂i = β̂1+β̂2 Xi
Y (2.1)

̂i es un estimador de 𝐸[Yi |Xi ], β̂1 es un estimador del parámetro poblacional β1 y


donde Y
β̂2 es un estimador del parámetro poblacional β2 . En ocasiones llamamos a la ecuación
(2.1) simplemente como recta estimada.

24
Gráficamente, en el ejemplo de remuneraciones y años de educación, continuando con
lo mostrado en la Figura 1.3, en la Figura 2.1 volvemos a dibujar a la FRP como la línea
continua y agregamos a la recta estimada o FRM como la línea punteada. Digamos que
si nuestra estimación de la recta es “buena”, ambas rectas deberían ser muy parecidas,
aunque no hay nada que diga que deban ser exactamente iguales o que alguna tenga una
pendiente mayor o menor que la otra. No obstante, el investigador no tiene cómo saber
qué tan parecidas son las rectas pues la FRP es invisible mientras que la FRM es
calculada por el econometrísta. Adicionalmente, aunque existe una sola relación
poblacional FRP, pueden existir infinidad de regresiones muestrales FRM, pues
dependerán cada una de ellas de la muestra con que se trabaje.

Figura 2.1
Rectas de regresión poblacional y muestral

En la Figura 2.1 se muestran las distancias entre dos puntos de observaciones y lo


estimado por la recta. Estas distancias son los residuos, definidos como

̂i = Yi − β̂1 − β̂2 Xi
ei = Yi − Y

En comparación con los términos de perturbación, no hay nada que diga que los
residuos ei sean más grandes o más pequeños que las perturbaciones ui . Inclusive para
un mismo individuo ei y ui podrían tener signos distintos.

Alternativamente, la ecuación de residuos puede escribirse como

25
Yi = β̂1 + β̂2 Xi + ei (2.2)

Llamaremos a la ecuación (2.2) el modelo estimado, el cual viene a ser una versión
estimada de la ecuación (1.1) del capítulo anterior.

Antes de proseguir vale la pena aclarar algunos términos para evitar confusiones.
Fundamentalmente tenemos dos grupos de ecuaciones: las poblacionales y las
muestrales. Llamamos modelo econométrico a la expresión Yi = β1 + β2 Xi + ui , de la
cual la regresión o función de regresión poblacional es 𝐸[Yi |Xi ] = β1 + β2 Xi . Existen
también sus contrapartidas muestrales, vamos a llamar el modelo estimado a Yi = β̂1 +
β̂2 Xi + ei , de la cual la recta estimada o función de regresión muestral es ̂
Yi = β̂1 +
β̂2 Xi .

2.2 Estimación por Mínimos Cuadrados Ordinarios

Existen métodos para calcular la FRM, siendo el más popular el de Mínimos Cuadrados
Ordinarios (MCO). Intuitivamente, este método busca trazar una recta estimada que
pase entre los puntos de las observaciones de tal manera que las distancias de cada
punto respecto a la recta estimada (es decir, los residuos) sean las más pequeñas
posibles. Para evaluar que estas distancias sean pequeñas, una forma podría ser
minimizar la suma de todos los residuos. No obstante, debido a que algunos residuos
son positivos y otros negativos, no tendría mucho sentido hacer una suma simple de
ellos. Por el contrario, elevando los residuos al cuadrado y sumándolos tendríamos una
mejor manera de evaluar la recta de regresión estimada propuesta en comparación con
otras rectas alternativas. La recta que mejor se ajuste a los datos será aquella que
presente la menor suma de cuadrados de los residuos.

No es necesario probar diferentes rectas estimadas, pues matemáticamente es posible


encontrar la mejor recta utilizando cálculo. Para ello se define a la sumatoria de
cuadrados de los residuos (SCR) como:

SCR = ∑ni=1 ei 2 = ∑ni=1(Yi − β̂1 − β̂2 Xi )2 (2.3)

26
El método de mínimos cuadrados ordinarios consiste en escoger los valores de β̂1 y β̂2 ,
tal que se minimice la SCR. Derivando la ecuación (2.3) respecto a los parámetros se
obtienen las condiciones necesarias de 1er orden de esta minimización:

∂SCR
̂1 = −2 ∑ni=1(Yi − β̂1 − β̂2 Xi ) = 0 (2.4)
∂β

∂SCR
̂2 = −2 ∑ni=1(Yi − β̂1 − β̂2 Xi ) . Xi = 0 (2.5)
∂β

Estas dos ecuaciones son conocidas como las “ecuaciones normales” de la estimación
MCO, y de las cuales se desprenden algunas propiedades que se verán más adelante. En
sí son dos ecuaciones con dos incógnitas (β̂1 y β̂2 ) que debemos resolver. Omitiendo los
subíndices de las sumatorias, de la ecuación (2.4) se cumple que

∑ni=1(Yi − β̂1 − β̂2 X i ) = 0

y desarrollando el paréntesis, ∑ Yi = 𝑛β̂1 + β̂2 ∑ X i . Dividiendo ambos lados de la


ecuación por n, se obtiene

Y = β̂1 + β̂2 ̅
̅ X (2.4b)

La ecuación (2.4b) nos dice que la recta estimada pasa necesariamente por la
̅, ̅
combinación de valores (X Y) pues esos puntos satisfacen la ecuación. Podemos
despejar el valor de β̂1 y obtener
β̂1 = Y
̅ − β̂2 X
̅ (2.4c)

De la ecuación (2.5), ∑ni=1(Yi − β̂1 − β̂2 Xi ) . Xi = 0

Desarrollando el paréntesis, aplicando la sumatoria y despejando se obtiene:

∑ Xi Yi = β̂1 ∑ Xi + β̂2 ∑ Xi 2

Reemplazando (2.4c) en la última expresión,

̅) ∑ Xi + β̂2 ∑ Xi 2
̅ − β̂2 X
∑ Xi Yi = (Y

2
Y ∑ Xi = β̂2 (∑ Xi − ̅
∑ Xi Yi − ̅ X ∑ Xi )

Luego, el estimador de mínimos cuadrados de la pendiente es

27
̅ ∑ Xi
∑ Xi Yi − Y
β̂2 = 2
∑ Xi − ̅ X ∑ Xi

Después de algunas manipulaciones algebraicas se puede comprobar que la última


expresión es igual a

∑(Xi − ̅
X) (Yi − ̅
Y)
β̂2 = 2 (2.6)
∑(Xi − ̅
X)

Una vez calculado, se puede obtener el valor estimado de β̂1 de la ecuación (2.4c).

2.3 Algunas características de la estimación por MCO

Los estimadores de los parámetros por MCO, expresados en las ecuaciones (2.4c) y
(2.6) generan algunas propiedades numéricas muy importantes para la estimación. Estas
propiedades son:

a) Los estimadores puntuales β̂1 y β̂2 están expresados en términos de las


observaciones únicamente.

Tal propiedad resalta el hecho que, para obtener los valores estimados, lo único
que se necesita es reemplazar los valores de las variables de la muestra en las
fórmulas (2.4c) y (2.6). No es necesario hacer ningún supuesto adicional ni
calcular otros parámetros para obtener estas estimaciones. Un detalle adicional
es que, al depender íntegramente de las muestras aleatorias, estos estimadores
son en sí mismos variables aleatorias.

b) ∑ ei = 0

El hecho que la suma de los residuos sea exactamente igual a cero es un


resultado que se deduce directamente de las ecuaciones normales. La ecuación
(2.4) dice explícitamente que esta suma es igual a cero recordando que el residuo
se define como ei = Yi − β̂1 − β̂2 Xi . De esta característica se desprende

28
directamente que el promedio de los residuos es igual a cero, e̅ = 0.1 Es
importante no confundir esta propiedad numérica de la estimación MCO con el
supuesto 2 sobre la nulidad del valor esperado del término de perturbación,
E[ui ] = 0. Esto último es un supuesto, mientras que la propiedad que estamos
explicando es un producto del proceso de minimización.

c) ∑ ei Xi = 0

De la misma forma que el anterior, la ecuación (2.5) muestra este resultado. En


palabras quiere decir que los residuos de la estimación MCO y la variable
explicativa son ortogonales.

d) ∑ ei ̂
Yi = 0

Esta propiedad puede deducirse de las dos anteriores.

̂i = ∑ ei (β̂1 + β̂2 Xi ) = β̂1 ∑ ei + β̂2 ∑ ei Xi = 0


∑ ei Y

̅, Y
e) La recta de regresión estimada pasa por el punto de los promedios (X ̅).

̅=̅
f) ̂
Y Y

Este resultado quiere decir que promediando los valores de ̂


Yi se obtiene ̅Y.2

2.4 El modelo en desviaciones respecto a las medias

Para las variables X e Y, definimos las desviaciones (en minúscula y cursiva) respecto a
sus promedios como:

̅
𝑦i = Yi − Y

𝑥i = Xi − ̅
X

Estas desviaciones cumplen las siguientes propiedades3:

1
El lector puede notar que si el modelo econométrico no incluyera al intercepto, es decir si en el modelo
β1 = 0, entonces en el proceso de estimación no habría minimizar la SCR respecto a β̂1 . Luego, no
existiría la ecuación (2.4) y por lo tanto ya no se cumpliría esta característica.
2
Se deja al lector esta demostración.

29
1. ∑ 𝑥i = 0, ∑ 𝑦i = 0

2. ∑ 𝑥i Xi = ∑ 𝑥i2 , ∑ 𝑦i Yi = ∑ 𝑦i2

3. ∑ 𝑥i 𝑦i = ∑ 𝑥i Yi = ∑ Xi 𝑦i

El modelo econométrico a estimar se puede presentar en términos de las desviaciones


respecto a las medias de las variables. Esta nueva presentación tiene ciertas ventajas en
términos de claridad expositiva de algunos conceptos que veremos más adelante,
aunque en la econometría aplicada no tiene mayor uso.

Partiendo del modelo estimado Yi = β̂1 + β̂2 Xi + ei , si lo promediamos obtenemos


Y = β̂1 + β̂2 ̅
̅ X + e̅. Restando una expresión de la otra obtenemos

Y = β̂1 + β̂2 Xi − β̂1 − β̂2 ̅


Yi − ̅ X + ei − e̅

Y = β̂2 (Xi − ̅
Yi − ̅ X) + ei − e̅
yi = β̂2 𝑥i + ei − e̅
Asumamos que e̅ = 0 , luego
𝑦i = β̂2 𝑥i + ei (2.7)

La ecuación (2.7) es el modelo estimado en desviaciones respecto a la media. Nótese


que esta ecuación solo tiene un parámetro, β̂2 , habiendo desaparecido el parámetro β̂1.
También puede notarse que el residuo e i es exactamente el mismo que el que aparece

en el modelo estimado en niveles Yi = β̂1 + β̂2 X i + ei , donde también se cumple que


e̅ = 0.

En términos gráficos, trabajar con las variables en desviaciones respecto a las medias
equivale a desplazar las observaciones hacia el origen, haciendo que el punto de los
promedios de las variables sea el (0, 0). Esto puede observarse en la Figura 2.2, en
donde los puntos negros corresponden a los datos en sus niveles originales y los puntos
grises son los datos en desviaciones respecto a las medias. Puesto que se trata de un
simple desplazamiento, la pendiente de una regresión que pase por esos puntos será la
misma, es decir tal pendiente β̂2 no se ve alterada por el desplazamiento. En cambio en

3
Se dejan estas demostraciones como ejercicio.

30
el modelo en desviaciones la estimación de β̂1 es igual a cero pues se fuerza a que la
recta pase por el origen.

Figura 2.2
Estimación del modelo en niveles y en desviaciones respecto a las medias

Vamos a estimar el modelo en desviaciones por mínimos cuadrados ordinarios. La suma


de cuadrados de los residuos es en este caso

n n

SCR = ∑ ei = ∑(𝑦i − β̂2 𝑥i )2


2

i=1 i=1

Derivando respecto al único parámetro se obtiene

𝜕SCR
̂2 = −2(𝑦i − β̂2 𝑥i )𝑥i = 0 (2.8)
𝜕β

De la ecuación (2.8) despejamos a β̂2 :

∑(𝑥i 𝑦i − β̂2 𝑥i 2 ) = 0

∑ 𝑥i 𝑦i = β̂2 ∑ 𝑥i 2

∑ 𝑥i 𝑦i
β̂2 = (2.9)
∑ 𝑥i 2

31
Este resultado de la ecuación (2.9) es exactamente el mismo que la ecuación (2.6), por
lo que ambas expresiones se pueden usar en forma alternativa.

Ejemplo 2.1: Supongamos que contamos con datos de 12 personas sobre sus años de
educación (X) y sus salarios (Y), y queremos estimar el modelo de regresión lineal (1.1)
por mínimos cuadrados ordinarios utilizando estos datos. Vamos a computar en primer
lugar las variables en desviaciones respecto a sus promedios, para luego hacer el cálculo
de los valores estimados. En la Tabla 2.1 las columnas X e Y muestran los datos
hipotéticos con los que vamos a hacer el ejercicio. En la parte inferior de las columnas
X e Y se han calculado las sumas y los promedios de estas columnas.

Tabla 2.1
Cálculo de las variables del modelo en desviaciones
Obs. X Y x y x2 xy
1 4 225 -4.08 -307.17 16.67 1254.26
2 6 155 -2.08 -377.17 4.34 785.76
3 3 700 -5.08 167.83 25.84 -853.15
4 10 600 1.92 67.83 3.67 130.01
5 8 675 -0.08 142.83 0.01 -11.90
6 8 350 -0.08 -182.17 0.01 15.18
7 7 456 -1.08 -76.17 1.17 82.51
8 11 485 2.92 -47.17 8.51 -137.57
9 13 650 4.92 117.83 24.17 579.35
10 11 820 2.92 287.83 8.51 839.51
11 14 1150 5.92 617.83 35.01 3655.51
12 2 120 -6.08 -412.17 37.01 2507.35

Suma 97 6386 0.00 0.00 164.92 8846.83


Promedio 8.0833 532.1667

La cuarta y quinta columna corresponden a los cálculos de las variables en desviaciones


respecto a sus promedios. En la sexta columna tenemos las desviaciones de X al
cuadrado y en la última columna tenemos al producto de las desviaciones de X y las
desviaciones de Y. En la parte inferior tenemos las sumas de estas desviaciones.

Para hacer el cálculo del estimador de la pendiente, β̂2 , nos apoyamos en la ecuación
(2.9) (que es lo mismo que (2.6), y obtenemos

32
8846.83
β̂2 =  53.6443
164.92

El estimador del intercepto, β̂1, se obtiene de la ecuación (2.4c), que sería en este caso

β̂1 = 532.1667  53.6443  8.0833  98.5422

El lector no debería tener problemas en realizar por su cuenta estos cálculos. Asimismo,
el parámetro β̂2 se puede obtener de expresiones equivalentes a (2.6). Estas son:

∑ Xi Yi − ̅
Y ∑ Xi 60467 − 6386 × 97
β̂2 = 2 = = 53.6443
∑ Xi − ̅ X ∑ Xi 949 − 8.0833 × 97

Para este cálculo es necesario calcular ∑ XY, y ∑ X 2 a partir de la información de la


Tabla 2.1. En este mismo ejemplo, vamos a calcular a Ŷi , y a los residuos del modelo. El
cálculo de Ŷi responde a la fórmula

Ŷi = 98.5422 + 53.6443. Xi

La Tabla 2.2 complementa la información de la Tabla 2.1, incluyendo a Ŷi , a ei y al


cuadrado de estos residuos. Comparando los valores de Y contra los de ̂
Y, estos últimos
son la predicción lineal o lo que el modelo dice que serán los salarios para cada nivel de
salario X, y evidentemente no coincidirán con los verdaderos salarios Y. La diferencia
son los residuos, que capturan un componente de variabilidad de Y que no ha sido
explicado por X. La última columna muestra los residuos al cuadrado, siendo la
sumatoria de residuos al cuadrado igual a 504737.8. No hay ningún otro par de valores
para β̂1 y β̂2 que produzcan una SCR de menor valor.

Tabla 2.2

Calculo de ̂
Y y de los residuos
Obs. X Y ̂
Y e e2
1 4 225 313.12 -88.12 7765.00
2 6 155 420.41 -265.41 70441.29
3 3 700 259.47 440.53 194062.29
4 10 600 634.98 -34.98 1223.94
5 8 675 527.70 147.30 21698.38
6 8 350 527.70 -177.70 31575.98
7 7 456 474.05 -18.05 325.88

33
8 11 485 688.63 -203.63 41464.81
9 13 650 795.92 -145.92 21291.96
10 11 820 688.63 131.37 17258.31
11 14 1150 849.56 300.44 90263.05
12 2 120 205.83 -85.83 7366.91

Suma 97 6386 6386.00 0.00 504737.80


Promedio 8.0833 532.1667 532.1667

2.5 Propiedades estadísticas de los estimadores de MCO

Como bien sabemos los estimadores obtenidos β̂1 y β̂2 son variables aleatorias pues sus
resultados varían según las muestras aleatorias tomadas. En esta sección vamos a ver
cuáles serán sus valores esperados y varianzas, y discutiremos sus propiedades.

Empezaremos con la media de la pendiente β̂2 . Partiendo de la ecuación (2.9) y


recordando las propiedades de las desviaciones, podemos reescribir esta ecuación como

∑ 𝑥i 𝑦i ∑ 𝑥i (Yi − ̅
Y) ∑ 𝑥i Yi − ̅Y ∑ 𝑥i ∑ 𝑥i Yi
β̂2 = = = =
∑ 𝑥i 2 ∑ 𝑥i 2 ∑ 𝑥i 2 ∑ 𝑥i 2

Reemplazando la expresión de Yi del modelo econométrico se tiene

∑ 𝑥i (β1 + β2 Xi + ui ) β1 ∑ 𝑥i β2 ∑ 𝑥i Xi ∑ 𝑥i ui
β̂2 = = + +
∑ 𝑥i 2 ∑ 𝑥i 2 ∑ 𝑥i 2 ∑ 𝑥i 2

Dado que ∑ 𝑥i = 0 y que ∑ 𝑥i Xi = ∑ 𝑥i2 , la expresión se reduce a:

∑ 𝑥i ui
β̂2 = β2 + (2.10)
∑ 𝑥i 2
Tomando valor esperado a la expresión en (2.10) obtenemos

∑ 𝑥i ui ∑ 𝑥i ui
E[β̂2 ] = E [β2 + ] = β2 + E [ ]
∑ 𝑥i 2 ∑ 𝑥i 2

Bajo el supuesto 4,

1
E[β̂2 ] = β2 + ∑ 𝑥i E[ui ]
∑ 𝑥i 2

34
Dado el supuesto 2, el valor esperado del término de perturbación es cero, con ello
resulta que β̂2 es un estimador insesgado.

E[β̂2 ] = β2

Esto quiere decir que aunque β̂2 pueda tomar valores en forma aleatoria, en promedio
esperaremos que este estimador de MCO entregue un valor que sea igual al poblacional,
siempre y cuando se cumplan los supuestos aludidos del modelo econométrico. No debe
pensarse que la propiedad de insesgadez asegura que β̂2 = β2 , pues debido a las
variabilidades muestrales eso ocurrirá solo por cuestión de suerte. Lo que si ocurrirá es
que si se tomaran infinitas muestras y si se calculara en cada una de ellas el valor de β̂2 ,
el promedio de todos esos valores calculados sí coincidirá con el verdadero valor
poblacional.

Ejemplo 2.2: Para ilustrar la insesgadez consideremos un ejemplo hipotético similar al


Ejemplo 2.1. En este ejercicio se construye una función de regresión poblacional con
valores FRP = 80 + 65Xi , y se generan cuatro muestras aleatorias sumando a la FRP un
término de perturbación aleatorio con media cero. Las cuatro muestras aleatorias quedan
dibujadas en la Figura 2.3 mediante los puntos negros, y sobre ellas se realizan
estimaciones de la FRM por mínimos cuadrados ordinarios. Para cada muestra aleatoria
hay una FRM representada por la línea punteada, las cuales son aproximaciones de la
única y verdadera función poblacional representada por la línea sólida. Obsérvese que
las pendientes estimadas β̂2 no coincidirán con el parámetro poblacional (en este caso
β2 = 65), aunque siempre tomarán valores cercanos. Si se pudiera repetir este
experimento miles de veces, el promedio de todos los β̂2 debería ser igual al valor
poblacional.

35
Figura 2.3
Cuatro muestras aleatorias y las estimaciones MCO

Calculemos ahora el valor esperado del estimador del intercepto, β̂1. Partiendo del
modelo econométrico Yi = β1 + β2 Xi + ui , lo podemos promediar aplicándole
sumatoria y dividiéndolo entre el número de observaciones de la muestra obteniendo
̅ = β1 + β2 X
Y ̅ + u̅. Reemplazando esta expresión en la ecuación (2.4c) se obtiene

β̂1 = β1 + β2 X
̅ + u̅ − β̂2 X
̅

̅(β2 − β̂2 ) + u̅
= β1 + X (2.11)

Tomando el valor esperado a (2.11)

E[β̂1 ] = E[β1 + X
̅(β2 − β̂2 ) + u̅] = β1 + X
̅(β2 − E[β̂2 ]) + E[u̅]

∑u ∑ E[u ]
Dado que E[β̂2 ] = β2, queda E[β̂1 ] = β1 + E[u̅] = β1 pues E[u̅] = E [ n i ] = n i =

0. Por lo tanto el estimador β̂1 también es insesgado.

A continuación, vamos a calcular las varianzas de estos estimadores. Empezaremos con


la varianza de β̂2 . Por la definición de varianza,

36
2
Var(β̂2 ) = E [β̂2 − E[β̂2 ]]

Dado que β̂2 es insesgado y utilizando la ecuación (2.10) se obtiene que

2
∑ 𝑥i ui 1 2
Var(β̂2 ) = E [ ] = E [(∑ 𝑥i i ]
u )
∑ 𝑥i 2 (∑ 𝑥i 2 )2

1
= E [∑ 𝑥i 2 ui 2 + 2 ∑ ∑ 𝑥i 𝑥j ui uj ]
(∑ 𝑥i 2 )2
i<j

1
= [∑ 𝑥i 2 E[ui 2 ] + 2 ∑ ∑ 𝑥i 𝑥j E[ui uj ]]
(∑ 𝑥i 2 )2
i<j

Bajo el supuesto de perturbaciones esféricas y X fijo, se cumple que Var(ui ) =


2
E[ui − E[ui ]] = E[ui 2 ] = σ2 y también se cumple bajo dicho supuesto que
Cov(ui uj ) = E[(ui − E[ui ])(uj − E[uj ])] = E[ui uj ] = 0, entonces

1 σ2
Var(β̂2 ) = [∑ 𝑥i
2 2
σ ] = ∑ 𝑥i 2
(∑ 𝑥i 2 )2 (∑ 𝑥i 2 )2

σ2
Var(β̂2 ) = (2.12)
∑ 𝑥i 2
Obsérvese en (2.12) que la variabilidad de β̂2 es directamente proporcional a la varianza
del término de perturbación e inversamente proporcional a la variabilidad de X respecto
a su media. Es decir, la estimación de β̂2 será más imprecisa mientras más grande sea la
varianza σ2 , que es a su vez la varianza de la variable endógena Y. Por otro lado, si la
variable X muestra una gran amplitud de valores, esto brindará más información para
poder calcular el efecto de X sobre Y. Si X presenta una mínima variabilidad alrededor
de su promedio, la varianza de la estimación aumentará4.

De la ecuación (2.11), la varianza de β̂1 es,


2 2
Var(β̂1 ) = E [β̂1 − E[β̂1 ]] = E[β̂1 − β1 ]
2 2
̅(β2 − β̂2 ) + u̅] = E[−X
= E[X ̅(β̂2 − β2 ) + u̅]

4
Se sugiere al lector trazar diagramas de dispersión considerando variaciones en X e Y grandes y
pequeñas, con el fin de observar estas propiedades.

37
̅ 2 (β̂2 − β2 )2 + u̅2 − 2X
= E [X ̅(β̂2 − β2 )u̅]
̅ 2 Var(β̂2 ) + E[u̅2 ] − 2X
=X ̅E(β̂2 − β2 )u̅

Dado que Var(u̅) = E[u̅2 ] − E[u̅]2 , entonces reemplazando términos,


σ2
=̅ X2 ̅E(β̂2 − β2 )u̅
+ Var(u̅) + E[u̅]2 − 2X
∑ 𝑥i 2
σ2
Como E[u̅] = 0 y Var(u̅) = , y usando (2.10) en la última expresión, entonces,
n

σ2 σ2 ∑ 𝑥 u ∑ ui

X2 + ̅E [ i i .
− 2X ]
∑ 𝑥i 2 n ∑ 𝑥i 2 n

El último término de esta ecuación es cero pues

∑ 𝑥i ui ∑ ui 1
E[ . ]= E [∑ 𝑥i ui ∑ ui ]
∑ 𝑥i 2 n n ∑ 𝑥i 2

1
= E [∑ 𝑥i ui 2 ∑ ∑ ui uj (𝑥i + 𝑥j )]
n ∑ 𝑥i 2

1
= [σ2 ∑ 𝑥i + ∑ ∑ Cov(ui uj )(𝑥i + 𝑥j )] = 0

n 𝑥i 2

pues ∑ 𝑥i = 0 y Cov(ui uj ) = 0. Luego,


1 ̅2
X
̂ 2
Var(β1 ) = σ ( + ) (2.13)
n ∑ 𝑥i 2

2.6 Estimación de 𝛔𝟐

Las varianzas de los parámetros calculadas en la sección anterior se encuentran


expresadas en términos de los datos y del parámetro σ2 . Para tener una estimación
numérica de estas varianzas, es necesario tener una estimación del parámetro σ2 .

̅ = β1 + β2 X
Si a la ecuación (1.1) le restamos Y ̅ + u̅ se obtiene

𝑦i = β2 𝑥i + (ui − u̅) (2.14)

De la ecuación (2.7) se pueden escribir a los residuos como

ei = 𝑦i − β̂2 𝑥i (2.15)

Remplazando la ecuación (2.14) en (2.15) y reordenando términos tenemos

38
ei = −(β̂2 − β2 )𝑥i + (ui − u̅)

Elevando al cuadrado esta expresión, y aplicando sumatoria

ei 2 = (β̂2 − β2 )2 𝑥i2 + (ui − u̅)2 − 2(β̂2 − β2 )𝑥i (ui − u̅)

∑ ei 2 = (β̂2 − β2 )2 ∑ 𝑥i2 + ∑(ui − u̅)2 − 2(β̂2 − β2 ) ∑ 𝑥i (ui − u̅)

y tomando el valor esperado,

E [∑ ei 2 ] = E(β̂2 − β2 )2 ∑ 𝑥i2 + E [∑(ui − u̅)2 ] − 2E [(β̂2 − β2 ) ∑ 𝑥i (ui − u̅)]

Multiplicamos y dividimos el segundo término del lado derecho por n − 1 (para darle la
forma de la varianza muestral de ui , esto es ∑(ui − u̅)2 /(n − 1), aplicando las
propiedades de las desviaciones en el tercer término del lado derecho, y utilizando la
ecuación (2.10) obtenemos

∑(ui − u̅)2 ∑ 𝑥i ui
E [∑ ei 2 ] = Var(β̂2 ) ∑ 𝑥i2 + (n − 1)E [ ] − 2E [ ∑ 𝑥i ui ]
n−1 ∑ 𝑥i 2

2
∑ 𝑥i ui
= Var(β̂2 ) ∑ 𝑥i2 + (n − 1)Var(ui ) − 2 ∑ xi2 𝐸 [( ) ]
∑ 𝑥i 2

= Var(β̂2 ) ∑ 𝑥i2 + (n − 1)Var(ui ) − 2 ∑ 𝑥i2 Var(β̂2 )

Reemplazando las respectivas varianzas se obtiene,

E [∑ ei 2 ] = σ2 + (n − 1)σ2 − 2σ2 = (n − 2)σ2

Luego proponemos un estimador de σ2 llamado s2

∑ ei 2
2
s = (2.16)
n−2

Este es un estimador insesgado pues

2)
∑ ei 2 1
E(s = E[ ]= E [∑ ei 2 ]
n−2 n−2

39
[n − 2] 2
= σ = σ2
[n − 2]

Ejemplo 2.3: Continuando con el Ejemplo 2.1, calculemos el estimador de σ2 y las


varianzas de los parámetros. A partir de la ecuación (2.14) y de la Tabla 2.1, como la
504737.80
SCR es igual a 504737.80, y como n = 12, luego s 2 = = 50473.78. Para
10

calcular las varianzas de los parámetros, nótese que estas varianzas dependen del
parámetro poblacional no observable σ2 . Entonces utilizaremos al estimador s2 en su
lugar en las ecuaciones (2.12) y (2.13), teniendo entonces a las varianzas estimadas
siguientes:
1 ̅2
X 1 (8.0833)2
̂ 2
Var(β1 ) = s ( + ) = 50473.78 ( + ) = 24203.9499
n ∑ 𝑥i 2 12 164.92
s2 50473.78
Var(β̂2 ) = = = 306.0536
∑ 𝑥i 2 164.92

2.7 El teorema de Gauss-Markov

Los estimadores de mínimos cuadrados ordinarios son combinaciones lineales de la


variable estocástica Yi , por ello se dice que son estimadores lineales. Por ejemplo, en el

caso de β̂2 ,
∑ 𝑥i 𝑦i 1 𝑥i
β̂2 = = ∑ 𝑥i Yi = ∑ ( ) Y = ∑ wi Yi (2.17)
∑ 𝑥i 2 ∑ 𝑥i 2 ∑ 𝑥i 2 i

La ecuación (2.17) nos dice que β̂2 es igual a la suma ponderada de Yi , en donde los
𝑥
ponderadores son las expresiones wi = ∑ 𝑥i 2. Además, como se comprobó que estos
i

estimadores son insesgados, se afirma que los estimadores MCO pertenecen a la clase
de estimadores lineales e insesgados.

El teorema de Gauss-Markov dice que los estimadores de MCO tienen la menor


varianza dentro de la clase de los estimadores lineales e insesgados. Por ello se dice que
el estimador MCO es el mejor estimador lineal insesgado (MELI).

40
Para probar este teorema, planteamos otro estimador lineal que sea insesgado.
Definamos este estimador como b2 = ∑ ci Yi , en donde los valores ci son ponderadores
no aleatorios, que podrían ser cualquier número. Reemplazando la expresión del modelo
econométrico en b2 se obtiene

b2 = ∑ ci (β1 + β2 Xi + ui ) = β1 ∑ ci + β2 ∑ ci Xi + ∑ ci ui

Tomando el valor esperado a esta expresión nos queda

E[b2 ] = β1 ∑ ci + β2 ∑ ci Xi + ∑ ci E[ui ] = β1 ∑ ci + β2 ∑ ci X i

Para que b2 sea insesgado se requiere que ∑ ci = 0 , ∑ ci Xi = 1. Luego,

b2 = β2 + ∑ ci ui

La varianza de este estimador insesgado es,

Var(b2 ) = E[(b2 − β2 )2 ] = E [(∑ ci ui )2 ] = E [∑ ci 2 ui 2 + 2 ∑ ∑ ci cj ui uj ]


i<j

= ∑ ci 2 E[ui 2 ] + 2 ∑ ∑ ci cj E[ui uj ] = σ2 ∑ ci 2
i<j

Formulemos, ci = wi + (ci − wi ) donde wi es el mismo de (2.17). Elevando al


cuadrado y aplicando sumatorias,

ci 2 = wi 2 + (ci − wi )2 + 2wi (ci − wi )

∑ ci 2 = ∑ wi 2 + ∑(ci − wi )2 + 2 ∑ wi (ci − wi ) (2.18)

El último término en (2.18) es cero pues

∑ 𝑥i ci 𝑥i 2
∑ wi (ci − wi ) = ∑ wi ci − ∑ wi 2 = − ∑ ( )
∑ 𝑥i 2 ∑ 𝑥i 2

1 ∑ 𝑥i 2
= − =0
∑ 𝑥i 2 (∑ 𝑥i 2 )2

41
Esto es cierto dado que ∑ ci 𝑥i = 1. Volviendo a la expresión (2.18), multiplicamos todo
por σ2 y tenemos

σ2 ∑ ci 2 = σ2 ∑ wi 2 + σ2 ∑(ci − wi )2

σ 2
No es difícil comprobar que Var(β̂2 ) = ∑ 𝑥 2 = σ2 ∑ wi 2 . Luego,
i

Var(b2 ) = 𝑉𝑎𝑟(β̂2 ) + σ2 ∑(ci − wi )2

Al ser el último término mayor o igual a cero, resulta que Var(b2 ) ≥ Var(β̂2 ).

2.8 Descomposición de la suma de cuadrados

Recordemos que el objetivo del análisis de regresión es explicar las variaciones de la


variable endógena Y. Una forma de estudiar la variabilidad de Y es a través de su
varianza. La varianza muestral de Y se calcula respecto a desviaciones respecto al
promedio, cuya fórmula de cálculo es

̅)2
∑(Yi − Y
SY2 =
n−1

En esta ecuación, el denominador es una constante por lo que para estudiar la


variabilidad de Y basta con ver la dispersión que se observa en el numerador, que son
las desviaciones al cuadrado respecto a la media de Y. Llamemos sumatoria de
̅)2 = ∑ 𝑦i2 .
cuadrados totales de la endógena (SCT) a la expresión ∑(Yi − Y

Para relacionar a la SCT con la recta estimada, elevamos al cuadrado a (2.7) y aplicando
sumatorias resulta en

∑ 𝑦i2 = β̂22 ∑ 𝑥i2 + ∑ e2i + 2β̂2 ∑ 𝑥i ei

El último término del lado derecho es igual a cero pues en el modelo en desviaciones,
∑ 𝑥i ei = 0. Luego,

∑ 𝑦i2 = β̂22 ∑ 𝑥i2 + ∑ e2i (2.19)

El término a la izquierda en (2.19) es la SCT que acabamos de definir, y el último de la


derecha del igual es la SCR. El término intermedio es β̂22 ∑ 𝑥i2 es la sumatoria de
cuadrados explicada por la regresión, SCE. Es decir (2.19) es

42
SCT = SCE + SCR.

La SCE depende de la variabilidad de X respecto a su media y del cuadrado del


estimador β̂2 . Mediante el método de mínimos cuadrados ordinarios, al minimizarse la
SCR se está maximizando la SCE, es decir lo que las variaciones de X podrían explicar
de las variaciones de Y.

Con base en estas definiciones, podemos evaluar el ajuste de un modelo econométrico


estimado a través de qué fracción de la varianza de Y ha sido explicada por el regresor
del modelo. Definimos el coeficiente de determinación R-cuadrado o simplemente R2
como

SCR SCE
R2 = 1 − =
SCT SCT

El R-cuadrado es una medida de bondad de ajuste. Toma los valores entre 0 y 1, en


donde se acerca a cero cuando el ajuste es bajo (SCE tiende a cero), y tiende a uno
cuando el ajuste es alto, en el sentido que las variaciones de X explican a Y (SCR tiende
a cero). En el caso extremo donde el R-cuadrado es igual a 1, la relación entre X e Y es
determinística, y todos los puntos de la muestra caen en la recta de la regresión, así la
variable X explica perfectamente a Y.

En la Figura 2.4 mostramos dos conjuntos de datos con una recta estimada por MCO, y
el R-cuadrado respectivo. En la figura superior se observa una dispersión mayor de las
observaciones alrededor de la recta que en la figura inferior. Correspondientemente, el
R-cuadrado de la figura superior es apenas de 0.5767 mientras que en el gráfico inferior
es de 0.9429. Por esa razón los datos del panel inferior muestran un mejor ajuste.

Se puede comprobar que en el modelo de regresión bivariado, el R-cuadrado es


exactamente igual al cuadrado del coeficiente de correlación muestral

∑(Xi − ̅ X)(Yi − ̅
Y)
rXY = n − 1
̅ 2 ̅ 2
√∑(Xi − X) √∑(Yi − Y)
n−1 n−1

con lo cual R 2 = (rXY )2. Se deja al lector esta demostración.

43
Por último, se debe tener en cuenta que el R-cuadrado solamente es una medida
estadística acerca de la asociación entre las variables X e Y, pero no se le debe tomar
como un indicador que valide algún tipo de causalidad entre las variables. Es posible
que una regresión entre dos variables no unidas causalmente muestre un R-cuadrado
muy alto.

Figura 2.4
Dos conjuntos de datos y sus R2

2.9 Ejemplo de una estimación en Stata

Utilizaremos los datos hipotéticos del Ejemplo 2.1 para hacer una estimación por
mínimos cuadrados ordinarios en Stata. Como primer paso, luego de abrir el programa
podríamos introducir los datos de las columnas X e Y de la Tabla 2.1 en el editor de

44
datos. Para acceder a este editor, se selecciona el menú Data, luego la opción Data
Editor, y luego Data Editor (Edit), o directamente haciendo click en el ícono de Data
Editor.

Luego de introducir los datos manualmente, las columnas aparecen con títulos var1 y
var2. Estos títulos son los nombres de las variables, y pueden ser cambiados haciendo
doble click en los encabezados de las columnas. Llamemos a la primera columna “x”, y
a la segunda “y”. Finalmente se cierra la ventana del Data Editor.

Inmediatamente después se escribe en la línea de comandos lo siguiente:

regress y x

tras lo cual aparecerá la siguiente tabla de resultados de la estimación por mínimos


cuadrados ordinarios que se presenta en la Tabla 2.3. En primer lugar, ubicamos a los
coeficientes de la estimación MCO en la columna llamada Coef., la cual muestra que
el coeficiente de la variable X es 53.644 y el coeficiente de la constante es 98.542,
siendo los mismos números que calculamos manualmente en el Ejemplo 2.1.

Tabla 2.3
Tabla de resultados de Stata

Source SS df MS Number of obs = 12


F( 1, 10) = 9.40
Model 474581.87 1 474581.87 Prob > F = 0.0119
Residual 504737.797 10 50473.7797 R-squared = 0.4846
Adj R-squared = 0.4331
Total 979319.667 11 89029.0606 Root MSE = 224.66

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x 53.64426 17.49446 3.07 0.012 14.66417 92.62436


_cons 98.54219 155.5762 0.63 0.541 -248.1032 445.1875

En la columna Std. Err. se muestra las desviaciones estándar estimadas de los


parámetros, que vienen a ser las raíces cuadradas de las varianzas estimadas del ejemplo
2.3.

En la parte superior izquierda de la tabla de resultados de Stata tenemos la


descomposición de la suma de cuadrados, que se ven en la columna titulada SS. El
valor correspondiente a Total es la suma de cuadrados totales, es decir SCT =
979319.667. La suma de cuadrados explicada es la que aparece con la etiqueta Model,
SCE = 474581.87. Se deja al lector el cálculo de estas sumas. La suma de cuadrados de

45
los residuos figura como Residual, es SCR = 504737.797, y es igual al valor que se
calculó en la Tabla 2.2.

Por último, en la parte superior derecha hay algunos indicadores de la regresión. En


primer lugar, está el número de observaciones, que aparece como Number of obs.
También se observa al R-cuadrado que se presenta como R-squared = 0.4846, y más
abajo figura Root MSE, que no es otra cosa que la raíz cuadrada de s 2 , es decir la
desviación estándar de la regresión.

En la tabla también aparecen otros indicadores y estadísticos, que se irán explicando


poco a poco en los siguientes capítulos.

Ejercicios
2.1 Demuestre que cuando usted regresiona a una variable Yi contra una constante y

nada más, es decir se estima el modelo Yi = β1 + ui , el estimador MCO β̂1 es igual


al promedio simple de los Yi y que los residuos son iguales a la variable en
desviaciones. (Ayuda: Plantee la SCR y derive respecto al único parámetro).
2.2 En el modelo bivariado Yi = β1 + β2 Xi + ui , demuestre que ̅
̂=Y
Y ̅.

2.3 Suponga que en el modelo bivariado, E[ui ] = c, donde c es una constante,


manteniéndose los demás supuestos del modelo. ¿A qué será igual 𝐸[β̂1 ] y 𝐸[β̂2 ]?
2.4 En el modelo bivariado sin intercepto, Yi = βX i + ui , obtenga el estimador MCO de
su parámetros, verifique la insesgadez y calcule su varianza.
2.5 Si en el modelo Yi = β1 + β2 Xi + ui los datos de X e Y son multiplicados por una
constante M. ¿Qué diferencia habrá entre los parámetros estimados del nuevo
modelo β̂1∗ y β̂∗2 respecto a los parámetros estimados con los datos originales, β̂1 y
β̂2 ?
2.6 Contamos con datos de producción para 22 firmas en cierta industria, donde
Y = ln(producción) y X = ln(trabajo) medido en horas: ̅
Y = 20, ̅
X = 10,
̅)2 = 100, ∑(Xi − X
∑(Yi − Y ̅)2 = 60 y ∑(Xi − X
̅)(Yi − Y
̅) = 30. Calcule los
estimadores mínimos cuadráticos del modelo bivariado.
2.7 En el contexto del modelo de regresión lineal clásico con dos variables, evalúe en
función de la esperanza y la varianza cuál es el mejor estimador de los siguientes
estimadores de la pendiente β2 :

46
𝑌 𝑦
∑ Yi ∑ Xi Y i ∑( 𝑖 ) ∑( 𝑖 )
Xi 𝑥𝑖
b1 = ∑ X b2 = ∑ X2i
b3 = b4 =
i n 𝑛

2.8 Suponga que las variables X e Y están relacionadas de acuerdo con la función de
regresión poblacional Yi = β2 Xi + ui , la cual no tiene intercepto. Suponga que
equivocadamente usted regresiona el modelo con intercepto por MCO obteniendo
Yi = β̂1 + β̂2 Xi . Calcule la esperanza de los estimadores y la varianza Var(β̂2 ).
2.9 Se comete un error al introducir los datos de la variable Y, sumando c unidades a la
n-ésima observación, tal como se muestra en el siguiente gráfico

Y
El punto blanco
muestra el valor
incorrecto. La altura
de la flecha es c.

Con este error, las observaciones quedan descritas por:


Yi = β1 + β2 Xi + ui , i = 1, … , n − 1
Yn = c + β1 + β2 X n + un
Muestre que el estimador MCO de β2
∑ni=1 𝑥i 𝑦i ∑ni=1 𝑥i Yi ∑n−1
i=1 𝑥i Yi + 𝑥n Yn
β̂2 = n 2 = n 2 =
∑i=1 𝑥i ∑i=1 𝑥i ∑ni=1 𝑥i2
es sesgado y que el sesgo es igual a 𝑥𝑛 𝑐/ ∑ni=1 𝑥i2 .

2.10 Si en el modelo Yi = β1 + β2 Xi + ui los datos de X e Y son transformados de la


siguiente manera: Yi∗ = m + qYi, Xi∗ = c + dXi . ¿Qué ocurrirá con los parámetros
estimados del nuevo modelo Yi∗ = β1 + β2 Xi∗ + vi , respecto a los parámetros
estimados con los datos originales? Muestre que el R-cuadrado no cambia.
2.11 Se sabe que R2 = 0.08, s 2 = 9.8 y n = 100. Calcule la SCE y la SCT.
2.12 Teniendo en cuenta la siguiente tabla

Año 1 2 3 4 5 6 7 8 9 10 11 12
Consumo (C) 15.6 6.4 9.2 14.9 7.2 7.6 7.2 7.2 7.9 8.8 4.1 11.1
Ingreso (I) 16.3 6.8 8.6 15.3 8.7 7.8 8.7 8.3 9.4 10.8 5.1 11.6

47
Estime el modelo Ci = β1 + β2 Ii + ui . Halle las varianzas de los estimadores y el
coeficiente de determinación R-cuadrado.

48

También podría gustarte