Clase - 1 - ECONOMETRÍA - INTENSIVO

Regresión simple
Nota de clase 1 - Econometrı́a (551-6)
M. Luján Puchot*
1 de febrero de 2024
1 Modelo de regresión simple

Comenzaremos introduciendo el análisis de relaciones meramente lineales: evaluar si existe,
cuantificar esas relaciones y observar su dirección.
X y Y son dos variables aleatorias que van a representar un fenómeno económico.
{(yi , xi )}ni=1 es una muestra aleatoria de tamaño n para cada una de las variables
mencionadas.
y = β0 + β1 x + u (1)
Donde y es la variable explicada y x es la variable explicativa. Asimismo, la variable

aleatoria u representa el error, aquellos factores no observables. En el modelo se plantea
la relación de x sobre y. β0 y β1 son parámetros.1
A su vez, todo esto implica
∆y = β1 ∆x (2)
si ∆u = 0 (más adelante trabajaremos sobre esto).

Es decir, esto representa el efecto lineal de x sobre y. En otras palabras, el cambio en
*
Agradecemos la colaboración de Luján Puchot en la confección de la presente nota. Cualquier suge-
rencia o comentario es bienvenido en lujanpuchot1@gmail.com.
1
Recordemos que un parámetro es una medida numérica que describe alguna caracterı́stica de la
población.
1
y es el cambio en x multiplicado por la la magnitud del efecto, β1 . Éste último es un
parámetro y da cuenta de la manera en la que varı́a y dado un cambio de una unidad
en x. La relación lineal puede ser negativa o positiva dependiendo del signo de β1 . La
linealidad de la ecuación (1) implica que una unidad tiene siempre el mismo efecto sobre
y, sin importar el valor inicial de x. Esto se da porque lo que se busca en el modelo es
una misma relación lineal para todos los datos y su pendiente es β1 . Esto es representado
gráficamente en la Figura 1.
Algo a considerar en el modelo simple, pero que se hará más visible cuando agreguemos
más variables explicativas al modelo, es la interpretación que tienen los parámetros que
acompañan a las variables explicativas. Esto es, β1 se interpreta como el efecto que tiene x
sobre y, manteniendo todo lo demás constante (efecto ceteris paribus). Volveremos sobre
esto más adelante.
y = β0 + β1 x
∆y
∆x
= β1
∆y
∆x
β0
Figura 1: Modelo de regresión simple
Por otro lado, el intercepto representa la ordenada al origen del modelo, es decir, el valor
cuando cuando xi = 0. Veamos un ejemplo:
Supongamos ahora que se quiere plantear un modelo para ver la incidencia de los años de
educación sobre el salario. Esto es,
y = salario
x = educación (años)
El modelo planteado serı́a igual al que se presentó en la ecuación (1)
y = β0 + β1 x + u
2
Con esto estamos diciendo que
Se cree que existe una relación lineal entre la cantidad de años de educación y
los salarios. Esta es la hipótesis con la que se parte y que influye directamente en
la confección del modelo. Si partiéramos de que la relación que existe puede ser
cuadrática o cúbica, entonces el modelo serı́a otro.
Se cree que el factor principal que incide sobre los salarios son los años de educación.
Los años de educación afectan en los salarios en una proporción de β1 %.2
Cuando la persona tiene cero años de educación, entonces el salario es β0
Ahora bien, el modelo es necesario para estipular la relación que vamos a querer analizar.
A su vez, esta relación va a estar dada primordialmente por aquello que materializa
en una cuantı́a este vı́nculo de variables, esto es, los parámetros. Dado que rara vez se
pueden obtener todos los datos de una población es que se utilizan los estimadores de los
parámetros para el modelo. De esta forma, se hace una distinción clave entre el modelo
verdadero o teórico que no se puede conocer y un modelo estimado. El objetivo primero va
a estar puesto en estimar los parámetros para conocer aquellas relaciones entre variables
explicativas y variable explicada. Una vez que esto haya sido posible, mediante métodos y
procedimientos adecuados, es posible predecir un valor para la variable explicada dado un
valor de una o más variables explicativas. En el caso del salario y los años de educación,
una vez que los estimadores se obtuvieron, es posible predecir un salario promedio para
una cantidad de años de educación dada. Lı́neas más abajo trataremos esto.
2 Estimación del modelo
Antes de mencionar propiamente el método de estimación para los modelos de regresión

cabe recordar dos caracterı́sticas importantes de los estimadores. Éstas servirán para
utilizarlos adecuadamente.
1. Los estimadores dependen de la muestra que se tiene a disposición. Es decir, son

función directa de los yi y los xi , donde i = {1, 2, ..., n}.
2
Un año más de educación genera un aumento del salario de la magnitud β1 %.
3
2. Los estimadores son variables aleatorias, por lo que se cumplen todas sus propiedades
estadı́sticas.
Dado un modelo poblacional como el que fue definido en la Ecuación (1), el modelo
estimado serı́a
ŷi = βˆ0 + βˆ1 xi + ûi (3)
Donde se indica que βˆ0 y βˆ1 son estimadores de los parámetros poblacionales. A su vez, û es
el estimador del error, el residuo. La variable explicativa xi representa un dato observable
i. Ésta última, junto con los estimadores de los parámetros, dan como resultado un valor
de ŷi que fue obtenido trabajando con la muestra.
Es deseable encontrar un estimador que sea lo más parecido al parámetro poblacional.
Para esto, hay que elegir un método de estimación que pueda asegurar alguna propiedad
virtuosa de los estimadores. Asimismo, cuando tratamos con muestras de la población,
es necesario asegurar aleatoriedad en su composición. En otras palabras, se busca que no
haya observaciones que sean más probable de aparecer. Esto puede sesgar el resultado
en el sentido de arrojar un resultado significativamente diferente al resultado poblacional.
Dado que la comparación con los resultados poblacionales no se puede llevar a cabo por la
imposibilidad de trabajar con toda la población, es que se deben hacer varias evaluaciones
en las estimaciones que se obtienen.
3 Método de mı́nimos cuadrados ordinarios (MCO)
El método de mı́nimos cuadrados ordinarios es ampliamente utilizado en la obtención

de estimadores para plantear relaciones entre variables. Utilizar MCO tiene algunas pro-
piedades deseables que vamos a tratar en la próxima clase, ası́ como ciertas ventajas en
términos de álgebra. Sin embargo, no es el único método de estimación posible de ser
utilizado en este caso.
Sobre el error
El método parte de la noción de minimizar el error : este término es el que contiene

factores no observables en la predicción y que influyen en el output (variable explicada)
por elementos que no se encuentran explicitados. Para el modelo teórico no es posible
conocer el error, pero es posible obtener el residuo para el modelo estimado. Si se tienen
4
todos los componentes del modelo estimado y se desean predecir valores de ŷi , el error va a
incidir en que el valor predicho sea diferente al valor del modelo teórico o verdadero. Dado
que no conocemos a la población, pero se pudo obtener una muestra lo suficientemente
representativa, el residuo se define de la siguiente manera:
ûi = yi − ŷi (4)
Donde yi es el valor de la variable explicada para la observación i en la muestra.

Gráficamente,
Observaciones
de la muestra
y
ŷ = βˆ0 + β̂1 x
yi
uˆ1 ûi
yˆi
β0 yi
yˆi
Figura 2: Residuos
Véase que los valores predichos de la variable explicada, ŷi , se encuentran en la recta de
mejor ajuste puesto que salen directamente de ŷ = βˆ0 + β̂1 x.
Suponga que para el caso de salarios y años de educación, de las n observaciones que se
tienen, hay dos individuos que tienen la misma cantidad de años de educación, 20. El
salario predicho para estas personas deberı́a ser el mismo, dado que los estimadores de β̂0
y β̂1 se mantienen para todos las observaciones i.
ŷi = β̂0 + β̂1 (20)
Sin embargo, se contrasta esto con las observaciones de la muestra y esto no es ası́. En
los datos se observa que dos personas que tienen 20 años de educación no ganan lo que el
modelo predice ni tampoco ganan lo mismo entre sı́. El motivo por el que esto sucede se
5
debe al término residual en el modelo estimado. Existen factores que tienen que ver con las
habilidades de cada persona, el entorno socioeconómico, el sexo, e incluso las habilidades
de las personas para hacer contactos en ciertos ámbitos. Todo esto se contempla dentro
del término residual. Lo que arroja la recta estimada es un promedio de todo lo
que es explicado por el modelo.3
Ası́, se hace notable la bondad de tener la menor cantidad posible del término de error
explicando las predicciones, con el objetivo de dotar al modelo de precisión. Consecuen-
temente, los resultados acerca de las relaciones entre variables serı́a más parecida a la
relación que existe en el modelo verdadero en dicho caso. Esto es lo que va a hacer el
método de mı́nimos cuadrados ordinarios.
Minimización de errores cuadráticos
n
X
mı́n û2i (5)
β̂0 ,β̂1
i=1
n
X
mı́n (yi − ŷi )2
β̂0 ,β̂1
i=1
n
X
mı́n (yi − β̂0 − β̂1 xi )2
β̂0 ,β̂1
i=1
Para pensar: ¿Cuál es la función de utilizar errores cuadráticos?
n
∂ û X
= −2 (yi − β̂0 − β̂1 xi ) = 0 (6)
∂ β̂0 i=1
n
∂ û X
= −2 xi (yi − β̂0 − β̂1 xi ) = 0 (7)
∂ β̂1 i=1
Pn Pn
i=1 (xi − x̄)(yi − ȳ) (xi − x̄)yi
β̂1 = Pn 2
= Pi=1
n 2
(8)
i=1 (xi − x̄) i=1 (xi − x̄)
Pn
(x − x̄)(yi − ȳ)
Pn i
β̂0 = ȳ − x̄ i=1 2
(9)
i=1 (xi − x̄)
¡Demostrar con las propiedades vistas! Las Ecuaciones (8) y (9) son los esti-
madores obtenidos con el método de MCO para los parámetros del modelo de regresión
3
Véase que en la Figura 2 la recta estimada no tiene en sus términos a ûi
6
simple presentado anteriormente. Tal como se mencionó anteriormente, β̂0 y β̂1 son varia-
bles aleatorias y dependen de la muestra.
Además, de la Ecuación (8) debe notarse lo siguiente:
El numerador de la primera expresión de β̂1 representa la covarianza muestral.

Cuando esta covarianza es cero, se sigue directamente que β̂1 = 0. Y esto indica que
no existe relación entre variables, hecho que se sustenta en la muestra disponible.
El denominador de las expresiones de β̂1 representa la suma de los cuadrados de

las desviaciones de cada valor de x respecto a la media muestral de x, es decir, la
varianza muestral de x. El hecho de que ésta sea distinta de cero es para evitar
la indeterminación matemática y para garantizar que la estimación sea posible. Si
la varianza de x fuese cero, significarı́a que todos los valores xi son iguales, ası́
como que la relación entre la variable explicativa y la variable explicada no podrı́a
ser estimada de manera confiable porque no hay variabilidad en x. En ese caso, la
regresión no tendrı́a capacidad para modelar la relación entre x e y.
Si queremos ver la relación entre x y y, y esto es dado por la covarianza, ¿por qué
no usar únicamente el númerador? Esto es, ¿qué rol cumple la varianza muestral
dividiendo? La razón de dividir por la varianza de x no es más que para normalizar
la covarianza. Es decir, para tener una medida relativa de la relación entre x e y
que no dependa de la escala de x.
4 Breve introducción al problema de endogeneidad

El problema más difı́cil de abordar es si el modelo dado por la Ecuación (1) nos permite
efectivamente formular conclusiones ceteris paribus acerca de cómo afecta x a y. βˆ1 mide
el efecto de x sobre y, cuando los demás factores (en u) permanecen constantes. Para
esto, debemos hacer una suposición que restrinja la manera en la que la variable no
observable u está relacionada con la variable explicativa x. Sin esta restricción, no es
posible estimar el efecto ceteris paribus de x sobre y. El motivo es que cuando hay una
relación entre x y u, entonces los resultados se encuentran sesgados. En otras palabras, si
x y u están correlacionados, entonces puede que haya una variable que se haya omitido
que sea relevante para el modelo, y que se encuentre dentro del factor del error. En otras
palabras, ya no se le puede adjudicar el efecto únicamente a la variable explicativa que
propone en el modelo. Esto será analizado con más detalle en próximas clases.
7
5 Bibliografı́a
Wooldridge, J. M. (2014). Econometrı́a Introductoria: Un Enfoque Moderno (5ta

ed.). Capı́tulo 2: La Naturaleza de la Econometrı́a y los Datos Económicos. South-
Western CENGAGE Learning.

Clase - 1 - ECONOMETRÍA - INTENSIVO

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase - 1 - ECONOMETRÍA - INTENSIVO

Cargado por

Copyright:

Formatos disponibles

Regresión simple

Nota de clase 1 - Econometrı́a (551-6)

1 Modelo de regresión simple

X y Y son dos variables aleatorias que van a representar un fenómeno económico.

Donde y es la variable explicada y x es la variable explicativa. Asimismo, la variable

si ∆u = 0 (más adelante trabajaremos sobre esto).

Figura 1: Modelo de regresión simple

El modelo planteado serı́a igual al que se presentó en la ecuación (1)

Los años de educación afectan en los salarios en una proporción de β1 %.2

Cuando la persona tiene cero años de educación, entonces el salario es β0

2 Estimación del modelo

Antes de mencionar propiamente el método de estimación para los modelos de regresión

1. Los estimadores dependen de la muestra que se tiene a disposición. Es decir, son

3 Método de mı́nimos cuadrados ordinarios (MCO)

El método de mı́nimos cuadrados ordinarios es ampliamente utilizado en la obtención

El método parte de la noción de minimizar el error : este término es el que contiene

ûi = yi − ŷi (4)

Donde yi es el valor de la variable explicada para la observación i en la muestra.

ŷi = β̂0 + β̂1 (20)

Minimización de errores cuadráticos

El numerador de la primera expresión de β̂1 representa la covarianza muestral.

El denominador de las expresiones de β̂1 representa la suma de los cuadrados de

4 Breve introducción al problema de endogeneidad

Wooldridge, J. M. (2014). Econometrı́a Introductoria: Un Enfoque Moderno (5ta

También podría gustarte