Está en la página 1de 32

Econometría

Claudio A. Navarro González


21 de Agosto, 2019
Semana 4.1

u Unidad I: Regresión Lineal Simple


u Obtención de las estimaciones de Mínimos Cuadrados
Ordinarios (MCO)
u Propiedades de MCO en cualquier muestra de datos
u Valores ajustados y residuales
u Propiedades algebraicas de los estadísticos de MCO
u Bondad de ajuste
u Valores esperados y varianzas de los estimadores de MCO
Unidad I: Regresión Lineal Simple

u Obtención de las estimaciones de Mínimos Cuadrados Ordinarios (MCO)


Una vez que se han analizado los ingredientes básicos del modelo de
regresión simple, se abordará el tema de cómo estimar los parámetros 𝛽" y
𝛽# de la ecuación 𝑦 = 𝛽" + 𝛽# 𝑥 + 𝑢 . Para esto se necesita tomar una
muestra de la población. Sea { 𝑥* , 𝑦* ; 𝑖 = 1,2, … , 𝑛} una muestra aleatoria
de tamaño 𝑛 tomada de la población. Como estos datos provienen de la
ecuación 𝑦 = 𝛽" + 𝛽# 𝑥 + 𝑢, para toda 𝑖 puede escribirse:

Aquí 𝑢* es el término del error de la observación 𝑖 porque contiene todos los


demás factores distintos de 𝑥* que afectan a 𝑦*
Unidad I: Regresión Lineal Simple

u Obtención de las estimaciones de Mínimos Cuadrados Ordinarios (MCO)


Este es el valor que se predice para 𝑦 cuando 𝑥 = 𝑥* con el intercepto y la
pendiente dada. Para cada observación de la muestra hay un valor
ajustado. El residual de la observación 𝑖 es la diferencia entre el verdadero
valor 𝑦* y su valor ajustado:

También hay 𝑛 residuales. (Los residuales no son lo mismo que los errores
en la ecuación 𝑦* = 𝛽" + 𝛽# 𝑥* + 𝑢* )
Unidad I: Regresión Lineal Simple

u Obtención de las estimaciones de Mínimos Cuadrados Ordinarios (MCO)


El nombre “Mínimos Cuadrados Ordinarios” proviene del hecho de que estas
estimaciones minimizan la suma de los residuales cuadrados. Por lo tanto,
𝛽3" y 𝛽3# se eligen de manera que la suma de residuales cuadrados, sea tan
pequeña como sea posible
Unidad I: Regresión Lineal Simple

u Obtención de las estimaciones de Mínimos Cuadrados Ordinarios (MCO)


Con MCO se podrá obtener insesgamiento, consistencia y otras propiedades
estadísticas de una manera relativamente sencilla. Además, el método de
MCO es adecuado para estimar los parámetros que aparecen en la función
de la media condicional E 𝑦 𝑥 = 𝛽" + 𝛽# 𝑥
Ahora, una vez que se han determinado las estimaciones por MCO del
intercepto y de la pendiente, se obtiene la línea de regresión de MCO:

Donde se entiende que 𝛽3" y 𝛽3# han sido obtenidas empleando las
ecuaciones:
Unidad I: Regresión Lineal Simple

u Obtención de las estimaciones de Mínimos Cuadrados Ordinarios (MCO)


La notación 𝑦,
5 que se lee “y gorro” indica que los valores predichos por la
ecuación 𝑦5 = 𝛽3" + 𝛽3# 𝑥 son estimaciones. El intercepto, 𝛽3" , es el valor
predicho de 𝑦 cuando 𝑥 = 0, aunque en algunos casos no tiene sentido
hacer 𝑥 = 0. En estas situaciones, 𝛽3" no tiene gran interés por sí misma
Cuando se emplea la ecuación 𝑦5 = 𝛽3" + 𝛽3# 𝑥 para calcular valores predichos
de 𝑦 para diversos valores de 𝑥, al hacer los cálculos hay que tomar en
cuenta el intercepto. A la ecuación 𝑦5 = 𝛽3" + 𝛽3# 𝑥 también se le llama
función de regresión muestral (FRM) debido a que es la versión estimada
de la función de regresión poblacional E 𝑦 𝑥 = 𝛽" + 𝛽# 𝑥
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


A continuación veremos algunas otras propiedades algebraicas de la línea de
regresión ajustada de MCO. Hay que recordar que estas propiedades, por
construcción, son válidas para cualquier muestra de datos
Varias de las propiedades algebraicas que se van a deducir pueden parecer
muy simples. Sin embargo, entenderlas ayudará a comprender lo que pasa
con las estimaciones de MCO y con los estadísticos con ellos relacionados al
manipular los datos de ciertas maneras, por ejemplo, cuando se modifican
las unidades de medición de las variables dependiente o independiente
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Valores ajustados y residuales:
Se supone que las estimaciones del intercepto y de la pendiente, 𝛽3" y 𝛽3# , han
sido obtenidas para los datos muestrales dados. Una vez que se tienen 𝛽3" y 𝛽3# ,
se puede obtener el valor ajustado 𝑦5* correspondiente a cada observación
Por definición, todos los valores ajustados 𝑦5* se encuentran sobre la línea de
regresión de MCO. El residual de MCO correspondiente a la observación 𝑖, 𝑢5 * , es
la diferencia entre 𝑦* y su valor ajustado, como vimos ante. Si 𝑢5 * es positivo, la
línea predice un valor inferior al de 𝑦* ; si 𝑢5 * es negativo, la línea predice un
valor superior al de 𝑦*
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Valores ajustados y residuales:
Lo ideal para la observación 𝑖 es cuando 𝑢5 * = 0, pero en la mayoría de los casos,
todos los residuales son distintos de cero. En otras palabras, no es necesario que
ninguno de los puntos de los datos se encuentre exactamente sobre la línea de
MCO
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Condiciones de primer orden de MCO:
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Las estimaciones de MCO y sus correspondientes estadísticos tienen varias
propiedades útiles. A continuación se verán las tres más importantes
1. La suma, y por tanto el promedio muestral de los residuales de MCO, es
cero. Matemáticamente,

Esta propiedad no necesita ser probada; es consecuencia inmediata de la


condición de primer orden de MCO, si se recuerda que los residuales están
definidos por 𝑢5 * = 𝑦* − 𝛽3" − 𝛽3# 𝑥* . En otras palabras, las estimaciones de MCO 𝛽3"
y 𝛽3# se eligen de manera que la suma de los residuales sea cero (para cualquier
base de datos). Esto no dice nada acerca del residual de una determinada
observación 𝑖
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
2. La covarianza muestral entre los regresores y los residuales de MCO es cero.
Esto es consecuencia de la condición de primer orden, que en términos de
los residuales puede expresarse como:

El promedio muestral de los residuales de MCO es cero, por lo que el lado


izquierdo de la ecuación es proporcional a la covarianza entre las 𝑥* y los 𝑢5 *
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
3. El punto (𝑥,̅ 𝑦)
: se encuentra siempre sobre la línea de regresión de MCO. En
otras palabras, si en la ecuación:

Se sustituye 𝑥̅ por 𝑥, el valor predicho es 𝑦.


: Esto es exactamente lo que dice la
ecuación:
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Ahora, escribiendo cada 𝑦* como su valor ajustado, más su residual, se obtiene
otra manera de interpretar la regresión de MCO. Para cada 𝑖 se tiene:

De acuerdo con la propiedad (1), el promedio de los residuales es cero; lo que


es equivalente a que el promedio muestral de los valores ajustados, 𝑦5* , es igual
al promedio muestral de las 𝑦* , es decir 𝑦:5 = 𝑦: . Además, con base en las
propiedades (1) y (2) se puede mostrar que la covarianza muestral entre 𝑦5* y 𝑢5 *
es cero. Por tanto, se puede considerar que el método de MCO descompone
cada 𝑦* en dos partes, un valor ajustado y un residual. Los valores ajustados y
los residuales no están correlacionados en la muestra
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Se definen la suma total de cuadrados (STC), la suma explicada de cuadrados
(SEC) y la suma residual de cuadrados (SRC) (conocida también como suma de
residuales cuadrados), como sigue:
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
La STC es una medida de la variación muestral total en las 𝑦* ; es decir, mide qué
tan dispersos están las 𝑦* en la muestra. Si se divide la STC entre 𝑛 − 1, se
obtiene la varianza muestral de 𝑦. De manera similar, la SEC mide la variación
muestral de las 𝑦5* (donde se usa el hecho de que 𝑦:5 = 𝑦), : y la SRC mide la
variación muestral de los 𝑢5 * . La variación total de 𝑦 puede expresarse como la
suma de la variación explicada más la variación no explicada SRC. Por tanto,
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Probar la ecuación STC = SEC + SRC no es difícil, pero se requiere el uso de las
propiedades de la sumatoria. Al escribir:
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Ahora, la ecuación STC = SEC + SRC es verdadera si se muestra que:

Pero ya se ha dicho que la covarianza muestral entre los residuales y los valores
ajustados es cero y esta covarianza es precisamente la ecuación en cuestión
dividida entre 𝑛 − 1. Por tanto, STC = SEC + SRC queda probada
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Sólo una advertencia acerca de STC, SEC y SRC. No hay un acuerdo general para
los nombres y las siglas que se emplean para las tres cantidades definidas en las
ecuaciones anteriores. Para la suma total de cuadrados se usa STC o SCT, de
manera que hay un poco de confusión. Desafortunadamente, a la suma
explicada de cuadrados suele llamársele también “suma de cuadrados de la
regresión”. Si se emplea su abreviación natural para este término, con facilidad
puede confundirse con el término “suma residual de cuadrados”. En algunos
paquetes para regresión a la suma explicada de cuadrados se le llama “suma de
cuadrados del modelo”
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Para complicar las cosas, a la suma residual de cuadrados se le suele llamar
“suma de cuadrados de los errores”. Esto es en especial desafortunado ya que,
los errores y los residuales son cantidades diferentes. Por tanto, aquí a SRC se le
llamará la suma residual de cuadrados o la suma de residuales cuadrados. Es
preferible emplear la abreviación SRC para denotar la suma de residuales
cuadrados, debido a que ésta es más común en los paquetes para econometría
(SSR en los paquetes en inglés)
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Propiedades algebraicas de los estadísticos de MCO:
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Bondad de ajuste:
Hasta ahora, no se tiene una manera de medir qué tan bien la variable
explicativa o independiente, 𝑥, explica a la variable dependiente, 𝑦. Suele ser
útil calcular un número que resuma qué tan bien se ajusta la línea de regresión
de MCO a los datos. En el siguiente análisis hay que recordar que se supone que
se estiman la pendiente y el intercepto
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Bondad de ajuste:
Suponiendo que la suma total de cuadrados, STC, no sea igual a cero —lo que
siempre es así, salvo en el muy remoto caso de que todas las 𝑦* tengan el
mismo valor— puede dividirse STC = SEC + SRC entre la STC para obtener
1 = ABC⁄ADC + AEC⁄ADC . La R-cuadrada de la regresión, también llamada
coeficiente de determinación, se define como:
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Bondad de ajuste:
𝑅 G es el cociente de la variación explicada entre la variación total; por
tanto, se interpreta como la proporción de la variación muestral de 𝑦 que es
explicada por 𝑥
Claramente, la segunda igualdad en la ecuación
proporciona otra manera de calcular 𝑅 G
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Bondad de ajuste:
De acuerdo con la ecuación STC = SEC + SRC, el valor de 𝑅 G está siempre entre
cero y uno, ya que SEC no puede ser mayor a STC. Al interpretar 𝑅 G , se
acostumbra multiplicarla por 100 para transformarla en un porcentaje: 100 H 𝑅 G
es el porcentaje de la variación muestral de 𝑦 que es explicada por 𝑥
Unidad I: Regresión Lineal Simple

u Propiedades de MCO en cualquier muestra de datos


Bondad de ajuste:
Si todos los puntos de los datos se encuentran sobre una misma línea, los
MCO proporcionan un ajuste perfecto a los datos. En este caso, 𝑅G = 1. Si
el valor de 𝑅 G es casi igual a cero, esto indica un ajuste pobre de la línea
de MCO: muy poco de la variación de las 𝑦* es captado por la variación de
las 𝑦5* (que se encuentran, todas, sobre la línea de regresión de MCO)
Se puede mostrar que 𝑅 G es igual al cuadrado del coeficiente de
correlación muestral entre 𝑦* e 𝑦5* . Es de aquí de donde proviene el término
“R-cuadrada”. (La letra R ha sido tradicionalmente empleada para denotar
la estimación del coeficiente de correlación poblacional y su uso ha pasado
al análisis de regresión)
Unidad I: Regresión Lineal Simple

u Valores esperados y varianzas de los estimadores de MCO


Anteriormente se definió el modelo poblacional 𝑦 = 𝛽" + 𝛽# 𝑥 + 𝑢, y se dijo
que el principal supuesto para que el análisis de regresión simple sea útil
es que el valor esperado de 𝑢 dado cualquier valor de 𝑥 sea cero. Recién
revisamos las propiedades algebraicas de las estimaciones de MCO. Ahora
se vuelve al modelo poblacional para estudiar las propiedades estadísticas
de MCO. En otras palabras, ahora 𝛽3" y 𝛽3# se considerarán como
estimadores de los parámetros 𝛽" y 𝛽# que aparecen en el modelo
poblacional. Esto significa que se estudiarán las propiedades de las
distribuciones de los 𝛽3" y 𝛽3# que resultan de las diversas muestras
aleatorias que es posible obtener de la población
Unidad I: Regresión Lineal Simple

u Valores esperados y varianzas de los estimadores de MCO


Insesgamiento de los estimadores MCO:
Comenzaremos por demostrar el insesgamiento de los estimadores de MCO
bajo un conjunto sencillo de supuestos. Para referencias futuras, estos
supuestos se enumeran empleando el prefijo “RLS” como siglas de
regresión lineal simple. El primer supuesto define el modelo poblacional
Unidad I: Regresión Lineal Simple

u Valores esperados y varianzas de los estimadores de MCO


Insesgamiento de los estimadores MCO:
Unidad I: Regresión Lineal Simple

u Valores esperados y varianzas de los estimadores de MCO


Insesgamiento de los estimadores MCO:
Para ser realistas, al plantear el modelo poblacional, 𝑦 , 𝑥 , y 𝑢 son
consideradas como variables aleatorias. Además, acabamos de ver que la
ecuación 𝑦 = 𝛽" + 𝛽# 𝑥 + 𝑢 no es tan restrictiva como a primera vista
pareciera; eligiendo 𝑦 y 𝑥 de manera adecuada, se pueden obtener
interesantes relaciones no lineales (por ejemplo, modelos de elasticidad
constante).
La idea es usar los datos de 𝑦 y de 𝑥 para estimar los parámetros 𝛽" y, en
especial, 𝛽# . Se supone que los datos se obtienen de una muestra aleatoria

También podría gustarte