Está en la página 1de 3

MODELO DE REGRESIÓN LINEAL SIMPLE

La Estadística siempre se ha destacado por el análisis de la relación o dependencia entre


variables. Despierta el interés por conocer el efecto que una o varias variables pueden causar
sobre otra, e incluso predecir en mayor o menor grado valores en una variable a partir de otra. Por
ejemplo, supongamos que la altura de los padres influye significativamente en la de los hijos.
Podríamos estar interesados en estimar la altura media de los hijos cuyos padres presentan una
determinada estatura.

Los métodos de regresión estudian la construcción de modelos para explicar o representar la


dependencia entre una variable respuesta o dependiente (Y) y la(s) variable(s) explicativa(s) o
dependiente(s), X.

En este Tema abordaremos el modelo de regresión lineal, que tiene lugar cuando la dependencia
es de tipo lineal, y daremos respuesta a dos cuestiones básicas: ¿Es significativo el efecto que una
variable X causa sobre otra Y? ¿Es significativa la dependencia lineal entre esas dos variables?
De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir la variable
dependiente (Y) a partir de valores observados en la independiente (X).

Es así que el Modelo de Regresión Lineal Simple nos permite explicar Y en términos de X. Sea

Y = β0 + β1x + u, donde

Y: variable dependiente, endógena, explicada o regresando...

X: variable independiente, exógena, explicativa, de control, regresor...

β0 y β1: parámetros poblacionales.

u: término de error o perturbación no observable

β1: parámetro de pendiente. Mide la relación entre x e y, es decir, cómo cambia y cuando se
producen modificaciones en x.

β0: término constante. Es el valor de y cuando x y u son cero.

Si todos los demás factores contenidos en u se mantienen constantes (∆u = 0), x tiene un efecto
lineal sobre y, es decir, ∆y = β1∆x si ∆u = 0.

Algunos ejemplos para ilustrar tenemos:

Y= β0 + β1x + u.

Cultivo de soja y fertilizante: Si y =cosecha y x = cantidad de fertilizante, el término de error (u)


recoge factores como:

 calidad de la tierra.
 lluvia.
Ecuación salarial simple: Si Y =salario y X=años de estudio, el término de error (u) recoge
factores no observables como:

 experiencia laboral.
 capacidad o habilidad.
 antigüedad en la empresa.

Dentro del modelo de Regresión Lineal Simple se dan algunos supuestos tales como:

Linealidad en los parámetros: y = β0 + β1x + u, es decir, un cambio unitario en x tiene el mismo


efecto sobre y con independencia del valor inicial de x, i.e.

∆x = 1 =⇒ ∆y = β1, ∀x, ∆u = 0.

Media condicional cero: E(u|x) = 0 ∀x. Para cualquier valor de x, la media del término de error no
observable es siempre la misma e igual a cero.

E(u|x) = E(u) = 0.

Función de Regresión Poblacional Lineal

El supuesto E(u|x) = E(u) = 0 nos lleva a E(y|x) = β0 + β1x. Esta expresión nos proporciona el
valor de la función de regresión poblacional. En este caso es lineal.

Nos indica cómo varía el valor medio de y ante cambios en x, es decir, ∂E(y|x)/∂x= β1

Así, E(y|x) = β0 + β1x es la parte explicada por X y U es la parte no explicada por X

La identificación o ajuste de un modelo de regresión supone obtener los coeficientes que


caracterizan al mismo, en el caso del modelo de regresión lineal simple, β0 y β1.

Ello supone aplicar un procedimiento de cálculo (método de estimación) que permita, a partir de los
datos disponibles, obtener los coeficientes de la ecuación de la línea recta que represente
óptimamente la distribución conjunta de las variables modeladas. Ahora bien, ¿cuál es la línea
recta que representa óptimamente a una nube de puntos?, en definitiva, ¿cuál es la que ofrece una
mayor bondad de ajuste?

La bondad de ajuste de un modelo de regresión se refiere al grado en que éste es conveniente


como modelo que representa a las variables implicadas en el mismo. Al ajustar un modelo de
regresión lineal simple a la distribución conjunta de 2 variables obtendremos la mejor recta de
regresión de entre todas las posibles que se pueden ajustar a esa distribución, ahora bien, ello no
significa que sea buena como modelo que represente a ambas variables. Así, puede ocurrir que la
distribución conjunta de 2 variables sea difícil de modelar debido a la inexistencia de relación entre
las variables o bien, que el modelo de regresión lineal no sea el más adecuado para ese propósito.

El coeficiente de determinación (R2) representa la proporción de varianza de Y explicada por las


variables implicadas en el modelo de regresión ajustado a los datos (X en el modelo de regresión
lineal simple). En cuanto que una razón, este coeficiente oscilará siempre entre 0 y 1, de modo que
cuanto más próximo sea R2 a 1, indicará mejor bondad de ajuste del modelo de regresión a la
distribución conjunta de las variables. Si R2 es igual a 1, el ajuste será perfecto.

Otra propuesta de índice de bondad de ajuste complementaria a la anterior, aunque mucho menos
utilizada en la práctica, es el conocido como coeficiente de alienación, el cual también oscila entre
0 y 1, si bien, en este caso valores próximos a 1 indican peor bondad de ajuste del modelo a los
datos.

En síntesis, el modelo de regresión lineal es el más utilizado a la hora de predecir los valores de
una variable cuantitativa a partir de los valores de otra variable explicativa también cuantitativa
(modelo de regresión lineal simple). Una generalización de este modelo, el de regresión lineal
múltiple, permite considerar más de una variable explicativa cuantitativa. Por otra parte, tal como se
verá en un tema posterior, es también posible incluir variables explicativas categóricas en un
modelo de regresión lineal si se sigue una determinada estrategia en la codificación de los datos
conocida como codificación ficticia.

En concreto, según el modelo de regresión lineal simple, las puntuaciones de los sujetos en 2
variables -una de ellas considerada como variable predictora (X) y la otra como variable de
respuesta (Y)- vienen representadas (modeladas) por la ecuación de una línea recta.

Cuando hay más de una variable explicativa (modelo de regresión lineal múltiple), se utiliza un
subíndice para cada una de ellas, por ejemplo, para el caso de dos variables explicativas:

Yˆ = β0 β1 + ⋅ X 1+ β2 X2

También podría gustarte