Econometría - 02 - 2022 - 1

Econometrı́a Para la Toma de Decisiones
Modelo de Regresión Lineal: Introducción
Profesor: Mauricio Leiva del Campo

e-mail: m.leiva@udd.cl
Ingenierı́a Comercial
Universidad del Desarrollo
Primer Semestre 2022
Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 1 / 38

Modelo de Regresión Lineal
¿Qué es una Regresión?
• El análisis de regresión trata del estudio de la dependencia de una variable (variable

dependiente) respecto de una o más variables (variables explicativas).
• El objetivo es estimar o predecir la media o valor promedio poblacional de la variable
dependiente en términos de los valores conocidos o fijos (en muestras repetidas) de las
variables explicativas.

¿Qué es una Regresión?
• Estudiaremos uno de los modelos más utilizados para la estimación econométrica,

conocido como el Modelo de Regresión Lineal.
• En su versión sencilla, este modelo solo tiene dos variables, una dependiente y una
explicativa.
• En su forma general, este modelo puede incluir tantas variables explicativas como sea
necesario.

Ejemplo 1: Modelos de Regresión Uniecuacionales
Figura 1 : Distribución hipotética de las estaturas de hijos correspondientes a la de los padres.

Ejemplo 2: Modelos de Regresión Uniecuacionales
Figura 2 : Distribución hipotética de estaturas correspondientes a edades seleccionadas.

Regresión y Causalidad
• A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable
respecto de otras variables, esto no implica causalidad necesariamente.
• Una relación estadı́stica, por más fuerte y sugerente que sea, nunca podrá establecer una
conexión causal por si misma.
• Las ideas de causalidad deben provenir de estadı́sticas externas y de alguna teorı́a.
• En definitiva: una relación estadı́stica por sı́ misma no puede implicar causalidad.

Terminologı́a

Regresión con dos variables
• Comenzaremos revisando el modelo de Regresión Lineal en su versión más simple, en la

cual nos encontramos con sólo dos variables, una dependiente y una explicativa.
• Como señalamos anteriormente, el concepto de regresión se relaciona en gran medida con
la estimación o predicción de la media (de la población).
• Dicho de otra forma, buscamos el valor promedio de la variable dependiente, en base a los
valores conocidos de las variables explicativas.
• Veamos el siguiente ejemplo...

Ejemplo: Ingreso familiar X, $

Ingreso familiar semanal (X, $)
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
Consumo familiar 65 74 90 95 110 120 140 140 155 175
semanal ( Y, $) 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1 043 966 1 211
Media condicional
65 77 89 101 113 125 137 149 161 173
de Y, E (Y |X )

Ejemplo: Distribución condicional del gasto en varios niveles de ingreso.

Ejemplo: Distribución condicional del gasto en varios niveles de ingreso.

Función de Regresión Poblacional (FRP)
• Del ejemplo visto anteriormente, es claro que cada media condicional E [Y |Xi ] es función
de Xi , donde Xi es un valor dado de X.
E [Y |Xi ] = f (Xi ) (1)

• Donde f (Xi ) denota alguna función de la variable explicativa.
• La ecuación (1) se conoce como Función de Regresión Poblacional (FRP).

¿Qué forma adopta la función f (Xi )?

• Esto es importante, ya que en una situación real no disponemos de toda la población para
realizar algún análisis.
• Esta ecuación debiese reflejar lo que la teorı́a económica sugiere sobre algún modelo.
• La FRP expresa la relación que existe entre la variable dependiente (Y ) y la variable
independiente (X ), dado un conjunto de información con respecto al total de la población.
Yi = β0 + β1 Xi (2)
• donde:
Yi = E [Y |Xi ]

Y = β0 + β1 X
• Componente Sistemático o determinı́stico del modelo:

Captura el efecto de las variables incluidas en el modelo, donde:
• Y : Variable dependiente o explicada.

• X : Variable independiente o explicada.
• E [Y |Xi ]: Medio condicional de Y dados los valores de X .
• β0 : Intecepto de la ecuación de regresión.
• β1 : Pendiente de la ecuación de regresión.

Significado del término lineal
• Dado que estamos estudiando el Modelo de Regresión lineal, es esencial que entendamos
este término (lineal).
• Se puede interpretar de dos formas:
• Linealidad en las Variables.
• Linealidad en los Parámetros.

Linealidad en las Variables:

• Se refiere a que la esperanza condicional de Y es una función lineal de Xi .
• Como por ejemplo: E [Y |X ] = β0 + β1 Xi ó Y = β0 + β1 Xi
• Por lo que la curva de regresión en este caso serı́a una recta.
• Una función Y = β0 + β1 Xi2 no serı́a lineal en las variables, ya que X está elevada a una
potencia de 2.
• Si suponemos que X = 3, por lo tanto:
E [Y |X = 3] = β0 + 9β1

Linealidad en los Parámetros:

• Si tenemos Y = β0 + β1 Xi2 , está es una regresión lineal en los parámetros, dado que
“solo” la variable X no es lineal.
• El caso anterior era una ecuación lineal cuando X tomaba el valor igual a 3.
• Consideremos ahora el siguiente modelo:
Y = β0 + β12 Xi
• Supongamos igualmente que X = 3, tenemos:
Y = β0 + 3β12
• Este es un ejemplo de un modelo de regresión no lineal (en los parámetros).

• Realizada la definición de linealidad entre las variables y los parámetros podemos decir:
• Al usar el término “lineal” siempre nos referiremos a una regresión lineal en los
parámetros.
• Esto son los betas (β) los cuales solo se elevan a la primera potencia.
• En el Modelo de regresión lineal pueden o no ser lineales las variables explicativas, pero
no ası́ los parámetros.

Ejemplo: Funciones Lineales en los parámetros:



Especificación Aleatoria de la FRP
• Notar que hasta el momento todos los componentes del modelo que hemos visto son
determinı́sticos.
• Ahora incorporaremos el concepto de componente aleatorio o término de error.
• En términos simples el componente aleatorio captura el efecto de aquellas variables que si
bien explican a la variable dependiente, no están incluidas en el modelo ya que no se
conocen o no se pueden medir.
• Volvamos al ejemplo anterior...

Ejemplo: Ingreso familiar X, $

Ingreso familiar semanal (X, $)
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
Consumo familiar 65 74 90 95 110 120 140 140 155 175
semanal ( Y, $) 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1 043 966 1 211
Media condicional
65 77 89 101 113 125 137 149 161 173
de Y, E (Y |X )

• Del ejemplo anterior:

• ¿Qué podemos decir sobre la relación entre el consumo de una familia y un nivel de
ingresos determinados?
• Podemos apreciar que con el nivel de ingresos de Xi , el consumo de una familia en
particular se agrupa alrededor del consumo promedio de todas las familias en ese nivel de
Xi , es decir, alrededor de su esperanza condicional.

• De manera formal, podemos expresar la “desviación” de un Yi en particular alrededor de

su valor esperado de la siguiente forma:
ui = Yi − E [Y |Xi ]
ó
Yi = E [Y |Xi ] + ui (3)
• Donde la desviación ui es una variable aleatoria no observables que adopta valores
positivos o negativos.
• Se conoce como perturbación estocástica ó término de error estocástico.

¿Cómo interpretamos la ecuación (1)?

• Si volvemos al ejemplo anterior, podemos decir que el gasto (consumo) de una familia en
particular, según su nivel de ingreso, se expresa como la suma de 2 componentes:
1 E [Y |Xi ] que es la media del consumo de todas las familias con el mismo nivel de ingresos.
• Esto se conoce como el componente Sistemático ó Determinı́stico.
2 ui representa el componente aleatorio o no sistemático
• Por ahora asumiremos que el componente aleatorio representa a las variables omitidas o
ignoradas que pueden afectar a Y pero que no se incluyen (o no pueden incluirse) pero
afectan a la regresión.

• Si suponemos que E [Y |Xi ] es lineal en Xi , entonces podemos reescribir la ecuación (1)

como:
Yi = E [Y |Xi ] + ui
Yi = β0 + β1 Xi + ui (4)
• Considerando el ejemplo, la ecuación (2) plantea que el consumo de una familia se
relaciona linealmente con su ingreso más el término de perturbación (aleatorio).
• ¿Cómo podrı́amos expresar el consumo individual con un ingreso semanal por familia de
80 Dólares (X = 80)?

• Si a la Ecuación Yi = E [Y |Xi ] + ui le aplicamos el valor esperado en ambos lados,

tendremos que:
E [ui |Xi ] = 0 (5)
• El supuesto de que la lı́nea de regresión pasa a través de las medias condicionales de Y ,
implica que los valores de la media condicional de ui son cero (condicionado al valor dado
de X ).
• Esto implica que los valores positivos y/o negativos que puede adoptar ui se cancelan de
manera que su efecto promedio sobre Y es cero.

• Como mencionamos anteriormente, el término ui es un sustituto de las variables que se

omiten en el modelo, pero que en conjunto, afectan a Y .
• Entonces... ¿Por qué no se agregan al modelo?
• Existen varias razones, entre ellas nos encontramos con: Falta de datos disponibles, Falta
de precisión de la teorı́a, Aleatoriedad intrı́nsica del comportamiento humano, Variables
proxys inadecuadas, entre otras.

Función de Regresión Muestral (FRM)
• Hasta ahora nos hemos limitado a a población de los valores de Y que corresponden a los
valores fijos de X .
• En la práctica, rara vez se tiene información para el total de la población, o es muy
costosa obtenerla.
• Por esto estimaremos la FRP con base en información muestral.
• Retomemos nuestro ejemplo. Esta vez supongamos que no tenemos toda la información
de la población, sino que se toma una muestra al azar en el cual se tiene un solo valor de
Y correspondiente a los valores de X dados.

• Con base a una muestra del ejemplo anterior, ¿Será posible predecir el consumo semanal
promedio Y de la población en su conjunto correspondiente a los valores de X
seleccionados?
• ¿Se puede estimar la FRP a partir de la muestra?
• ¿Qué tan precisa será nuestra estimación?
• ¿Cuál de las dos lı́neas de regresión representa a la lı́nea de regresión poblacional
“verdadera”?

Tabla: Muestra Aleatoria
Muestra Aleatoria 1 Muestra Aleatoria 2

de la población de la población
Y X Y X
70 80 55 80
65 100 88 100
90 120 90 120
95 140 80 140
110 160 118 160
115 180 120 180
120 200 145 200
140 220 135 220
155 240 145 240
150 260 175 260
Lineas de regresión basadas en dos muestras diferentes

• Las lı́neas de regresión muestral representan la lı́nea de regresión poblacional.

• Sin embargo, debido a fluctuaciones muestrales, son solo una aproximación de la
verdadera Regresión Poblacional (en el mejor de los casos).
• En general se obtendrán N FRM diferentes para N muestras diferentes y estas FRM no
necesariamente serán iguales.

La Función de Regresión Muestral se puede representar de la siguiente forma:
Ybi = βb0 + βb1 Xi (6)
Donde:
• Ybi : Estimador de E [Y |Xi ].
• βb0 : Estimador de β0
• βb1 : Estimador de β1

• Un estimador es una regla, fórmula o método para estimar el parámetro poblacional a

partir de una muestra.
• Un valor numérico particular obtenido por el estimador en un análisis se conoce como
estimación.
• ¿Qué pasa con el componente aleatorio en la FRM?
• Incorporando el término estocástico (residuos)
Yi = βb0 + βb1 Xi + ubi (7)
• Donde ubi denota el término residual (muestral).

En resumen, el objetivo principal del análisis de regresión es estimar la FRP:
Yi = β0 + β1 Xi + ui
Con base en la FRM:
Yi = βb0 + βb1 Xi + ubi

Lı́neas de regresión muestral y poblacional

Econometría - 02 - 2022 - 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Econometría - 02 - 2022 - 1

Cargado por

Copyright:

Formatos disponibles

Econometrı́a Para la Toma de Decisiones

Modelo de Regresión Lineal: Introducción

Profesor: Mauricio Leiva del Campo

Primer Semestre 2022

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 1 / 38

• El análisis de regresión trata del estudio de la dependencia de una variable (variable

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 2 / 38

• Estudiaremos uno de los modelos más utilizados para la estimación econométrica,

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 3 / 38

Figura 1 : Distribución hipotética de las estaturas de hijos correspondientes a la de los padres.

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 4 / 38

Figura 2 : Distribución hipotética de estaturas correspondientes a edades seleccionadas.

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 5 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 6 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 7 / 38

• Comenzaremos revisando el modelo de Regresión Lineal en su versión más simple, en la

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 8 / 38

Ejemplo: Ingreso familiar X, $

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 9 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 10 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 11 / 38

E [Y |Xi ] = f (Xi ) (1)

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 12 / 38

¿Qué forma adopta la función f (Xi )?

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 13 / 38

• Componente Sistemático o determinı́stico del modelo:

• Y : Variable dependiente o explicada.

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 14 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 15 / 38

Linealidad en las Variables:

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 16 / 38

Linealidad en los Parámetros:

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 17 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 18 / 38

Ejemplo: Funciones Lineales en los parámetros:

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 19 / 38

Ejemplo: Funciones Lineales en los parámetros:

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 20 / 38

Ejemplo: Funciones Lineales en los parámetros:

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 21 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 22 / 38

Ejemplo: Ingreso familiar X, $

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 23 / 38

• Del ejemplo anterior:

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 24 / 38

• De manera formal, podemos expresar la “desviación” de un Yi en particular alrededor de

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 25 / 38

¿Cómo interpretamos la ecuación (1)?

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 26 / 38

• Si suponemos que E [Y |Xi ] es lineal en Xi , entonces podemos reescribir la ecuación (1)

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 27 / 38

• Si a la Ecuación Yi = E [Y |Xi ] + ui le aplicamos el valor esperado en ambos lados,

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 28 / 38

• Como mencionamos anteriormente, el término ui es un sustituto de las variables que se

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 29 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 30 / 38

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 31 / 38

Muestra Aleatoria 1 Muestra Aleatoria 2

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 33 / 38

• Las lı́neas de regresión muestral representan la lı́nea de regresión poblacional.

Universidad del Desarrollo Econometrı́a 02 Primer Semestre 2022 34 / 38

La Función de Regresión Muestral se puede representar de la siguiente forma:

Ybi = βb0 + βb1 Xi (6)