Está en la página 1de 7

Regresi�n lineal

Ir a la navegaci�nIr a la b�squeda
Para otros usos de este t�rmino, v�ase Funci�n lineal (desambiguaci�n).

Ejemplo de una regresi�n lineal con una variable dependiente y una variable
independiente.
En estad�stica la regresi�n lineal o ajuste lineal es un modelo matem�tico usado
para aproximar la relaci�n de dependencia entre una variable dependiente Y, las
variables independientes Xi y un t�rmino aleatorio e. Este modelo puede ser
expresado como:

{\displaystyle Y_{t}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta


_{p}X_{p}+\varepsilon }{\displaystyle Y_{t}=\beta _{0}+\beta _{1}X_{1}+\beta
_{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon }

donde:

{\displaystyle Y_{t}}{\displaystyle Y_{t}}: variable dependiente, explicada o


regresando.
{\displaystyle X_{1},X_{2},\cdots ,X_{p}}{\displaystyle X_{1},X_{2},\cdots ,X_{p}}:
variables explicativas, independientes o regresores.
{\displaystyle \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p}}
{\displaystyle \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p}}: par�metros,
miden la influencia que las variables explicativas tienen sobre el regrediendo.
donde {\displaystyle \beta _{0}}\beta_0 es la intersecci�n o t�rmino "constante",
las {\displaystyle \beta _{i}\ (i>0)}{\displaystyle \beta _{i}\ (i>0)} son los
par�metros respectivos a cada variable independiente, y {\displaystyle p}p es el
n�mero de par�metros independientes a tener en cuenta en la regresi�n. La regresi�n
lineal puede ser contrastada con la regresi�n no lineal.

�ndice
1 Historia
2 El modelo de regresi�n lineal
2.1 Hip�tesis del modelo de regresi�n lineal cl�sico
2.2 Supuestos del modelo de regresi�n lineal
3 Tipos de modelos de regresi�n lineal
3.1 Regresi�n lineal simple
3.2 Regresi�n lineal m�ltiple
3.3 Rectas de regresi�n
4 Aplicaciones de la regresi�n lineal
4.1 L�neas de tendencia
4.2 Medicina
4.3 Inform�tica
5 V�ase tambi�n
6 Referencias
6.1 Bibliograf�a
6.2 Enlaces externos
Historia
La primera forma de regresi�n lineal documentada fue el m�todo de los m�nimos
cuadrados que fue publicada por Legendre en 1805, Gauss public� un trabajo en donde
desarrollaba de manera m�s profunda el m�todo de los m�nimos cuadrados,1? y en
d�nde se inclu�a una versi�n del teorema de Gauss-M�rkov.

El t�rmino regresi�n se utiliz� por primera vez en el estudio de variables


antropom�tricas: al comparar la estatura de padres e hijos, donde result� que los
hijos cuyos padres ten�an una estatura muy superior al valor medio, tend�an a
igualarse a �ste, mientras que aquellos cuyos padres eran muy bajos tend�an a
reducir su diferencia respecto a la estatura media; es decir, "regresaban" al
promedio.2? La constataci�n emp�rica de esta propiedad se vio reforzada m�s tarde
con la justificaci�n te�rica de ese fen�meno.

El t�rmino lineal se emplea para distinguirlo del resto de t�cnicas de regresi�n,


que emplean modelos basados en cualquier clase de funci�n matem�tica. Los modelos
lineales son una explicaci�n simplificada de la realidad, mucho m�s �giles y con un
soporte te�rico mucho m�s extenso por parte de la matem�tica y la estad�stica.

Pero bien, como se ha dicho, se puede usar el t�rmino lineal para distinguir
modelos basados en cualquier clase de aplicaci�n.

El modelo de regresi�n lineal


El modelo lineal relaciona la variable dependiente Y con K variables expl�citas
{\displaystyle X_{k}}{\displaystyle X_{k}} (k = 1,...K), o cualquier transformaci�n
de �stas que generen un hiperplano de par�metros {\displaystyle \beta _{k}}
{\displaystyle \beta _{k}} desconocidos:

(2){\displaystyle Y=\sum \beta _{k}X_{k}+\varepsilon }{\displaystyle Y=\sum \beta


_{k}X_{k}+\varepsilon }

donde {\displaystyle \varepsilon }{\displaystyle \varepsilon } es la perturbaci�n


aleatoria que recoge todos aquellos factores de la realidad no controlables u
observables y que por tanto se asocian con el azar, y es la que confiere al modelo
su car�cter estoc�stico. En el caso m�s sencillo, con una sola variable expl�cita,
el hiperplano es una recta:

(3){\displaystyle Y=\beta _{1}+\beta _{2}X_{2}+\varepsilon }{\displaystyle Y=\beta


_{1}+\beta _{2}X_{2}+\varepsilon }

El problema de la regresi�n consiste en elegir unos valores determinados para los


par�metros desconocidos {\displaystyle \beta _{k}}{\displaystyle \beta _{k}}, de
modo que la ecuaci�n quede completamente especificada. Para ello se necesita un
conjunto de observaciones. En una observaci�n i-�sima (i= 1,... I) cualquiera, se
registra el comportamiento simult�neo de la variable dependiente y las variables
expl�citas (las perturbaciones aleatorias se suponen no observables).

(4){\displaystyle Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}}{\displaystyle


Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}}

Los valores escogidos como estimadores de los par�metros {\displaystyle {\hat


{\beta _{k}}}}{\displaystyle {\hat {\beta _{k}}}}, son los coeficientes de
regresi�n sin que se pueda garantizar que coincidan con par�metros reales del
proceso generador. Por tanto, en

(5){\displaystyle Y_{i}=\sum {\hat {\beta _{k}}}X_{ki}+{\hat {\varepsilon _{i}}}}


{\displaystyle Y_{i}=\sum {\hat {\beta _{k}}}X_{ki}+{\hat {\varepsilon _{i}}}}

Los valores {\displaystyle {\hat {\varepsilon _{i}}}}{\displaystyle {\hat


{\varepsilon _{i}}}} son por su parte estimaciones o errores de la perturbaci�n
aleatoria.

Hip�tesis del modelo de regresi�n lineal cl�sico


Esperanza matem�tica nula: {\displaystyle \mathbb {E} (\varepsilon _{i})=0}
{\displaystyle \mathbb {E} (\varepsilon _{i})=0}. Para cada valor de X la
perturbaci�n tomar� distintos valores de forma aleatoria, pero no tomar�
sistem�ticamente valores positivos o negativos, sino que se supone tomar� algunos
valores mayores que cero y otros menores que cero, de tal forma que su valor
esperado sea cero.
Homocedasticidad: {\displaystyle {\text{Var}}(\varepsilon _{t})=\mathbb {E}
(\varepsilon _{t}-\mathbb {E} \varepsilon _{t})^{2}=\mathbb {E} \varepsilon
_{t}^{2}=\sigma ^{2}}{\displaystyle {\text{Var}}(\varepsilon _{t})=\mathbb {E}
(\varepsilon _{t}-\mathbb {E} \varepsilon _{t})^{2}=\mathbb {E} \varepsilon
_{t}^{2}=\sigma ^{2}} para todo t. Todos los t�rminos de la perturbaci�n tienen la
misma varianza que es desconocida. La dispersi�n de cada {\displaystyle \varepsilon
_{t}}{\displaystyle \varepsilon _{t}} en torno a su valor esperado es siempre la
misma.
Incorrelaci�n o independencia: {\displaystyle {\text{Cov}}(\varepsilon
_{t},\varepsilon _{s})=\mathbb {E} (\varepsilon _{t}-\mathbb {E} \varepsilon _{t})
(\varepsilon _{s}-\mathbb {E} \varepsilon _{s})=\mathbb {E} \varepsilon
_{t}\varepsilon _{s}=0}{\displaystyle {\text{Cov}}(\varepsilon _{t},\varepsilon
_{s})=\mathbb {E} (\varepsilon _{t}-\mathbb {E} \varepsilon _{t})(\varepsilon
_{s}-\mathbb {E} \varepsilon _{s})=\mathbb {E} \varepsilon _{t}\varepsilon _{s}=0}
para todo t,s con t distinto de s. Las covarianzas entre las distintas
pertubaciones son nulas, lo que quiere decir que no est�n correlacionadas. Esto
implica que el valor de la perturbaci�n para cualquier observaci�n muestral no
viene influenciado por los valores de las perturbaciones correspondientes a otras
observaciones muestrales.
Regresores estoc�sticos.
Independencia lineal. No existen relaciones lineales exactas entre los regresores.
{\displaystyle T>k+1}{\displaystyle T>k+1}. Suponemos que no existen errores de
especificaci�n en el modelo, ni errores de medida en las variables explicativas.
Normalidad de las perturbaciones: {\displaystyle \varepsilon \sim N(0,\sigma ^{2})}
{\displaystyle \varepsilon \sim N(0,\sigma ^{2})}
Supuestos del modelo de regresi�n lineal
Para poder crear un modelo de regresi�n lineal es necesario que se cumpla con los
siguientes supuestos:3?

Que la relaci�n entre las variables sea lineal.


Que los errores en la medici�n de las variables explicativas sean independientes
entre s�.
Que los errores tengan varianza constante. (Homocedasticidad)
Que los errores tengan una esperanza matem�tica igual a cero (los errores de una
misma magnitud y distinto signo son equiprobables).
Que el error total sea la suma de todos los errores.
Tipos de modelos de regresi�n lineal
Existen diferentes tipos de regresi�n lineal que se clasifican de acuerdo a sus
par�metros:

Regresi�n lineal simple


S�lo se maneja una variable independiente, por lo que s�lo cuenta con dos
par�metros. Son de la forma:4?

(6){\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i}}{\displaystyle


Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i}}

donde {\displaystyle \varepsilon _{i}}{\displaystyle \varepsilon _{i}} es el error


asociado a la medici�n del valor {\displaystyle X_{i}}X_i y siguen los supuestos de
modo que {\displaystyle \varepsilon _{i}\sim N(0,\sigma ^{2})}{\displaystyle
\varepsilon _{i}\sim N(0,\sigma ^{2})} (media cero, varianza constante e igual a un
{\displaystyle \sigma }\sigma y {\displaystyle \varepsilon _{i}\perp \varepsilon
_{j}}{\displaystyle \varepsilon _{i}\perp \varepsilon _{j}} con {\displaystyle
i\neq j}{\displaystyle i\neq j}).

Dado el modelo de regresi�n simple anterior, si se calcula la esperanza (valor


esperado) del valor Y, se obtiene:5?

(7){\displaystyle E(y_{i})={\hat {y_{i}}}=E(\beta _{0})+E(\beta _{1}x_{i})


+E(\varepsilon _{i})}{\displaystyle E(y_{i})={\hat {y_{i}}}=E(\beta _{0})+E(\beta
_{1}x_{i})+E(\varepsilon _{i})}

Derivando respecto a {\displaystyle {\hat {\beta }}_{0}}{\displaystyle {\hat {\beta


}}_{0}} y {\displaystyle {\hat {\beta }}_{1}}{\displaystyle {\hat {\beta }}_{1}} e
igualando a cero, se obtiene:5?

(9){\displaystyle {\frac {\partial \sum (y_{i}-{\hat {y_{i}}})^{2}}{\partial {\hat


{\beta }}_{0}}}=0}{\displaystyle {\frac {\partial \sum (y_{i}-{\hat {y_{i}}})^{2}}
{\partial {\hat {\beta }}_{0}}}=0}

(10){\displaystyle {\frac {\partial \sum (y_{i}-{\hat {y_{i}}})^{2}}{\partial {\hat


{\beta }}_{1}}}=0}{\displaystyle {\frac {\partial \sum (y_{i}-{\hat {y_{i}}})^{2}}
{\partial {\hat {\beta }}_{1}}}=0}

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente


soluci�n para ambos par�metros:4?

(11){\displaystyle {\hat {\beta _{1}}}={\frac {\sum x\sum y-n\sum xy}{\left(\sum


x\right)^{2}-n\sum x^{2}}}={\frac {\sum (x-{\bar {x}})(y-{\bar {y}})}{\sum (x-{\bar
{x}})^{2}}}}{\displaystyle {\hat {\beta _{1}}}={\frac {\sum x\sum y-n\sum xy}
{\left(\sum x\right)^{2}-n\sum x^{2}}}={\frac {\sum (x-{\bar {x}})(y-{\bar {y}})}
{\sum (x-{\bar {x}})^{2}}}}

(12){\displaystyle {\hat {\beta _{0}}}={\frac {\sum y-{\hat {\beta }}_{1}\sum x}


{n}}={\bar {y}}-{\hat {\beta _{1}}}{\bar {x}}}{\displaystyle {\hat {\beta
_{0}}}={\frac {\sum y-{\hat {\beta }}_{1}\sum x}{n}}={\bar {y}}-{\hat {\beta _{1}}}
{\bar {x}}}

La interpretaci�n del par�metro medio {\displaystyle {\beta _{1}}}{\displaystyle


{\beta _{1}}} es que un incremento en Xi de una unidad, Yi incrementar� en
{\displaystyle {\beta _{1}}}{\displaystyle {\beta _{1}}}

Regresi�n lineal m�ltiple


La regresi�n lineal permite trabajar con una variable a nivel de intervalo o raz�n.
De la misma manera, es posible analizar la relaci�n entre dos o m�s variables a
trav�s de ecuaciones, lo que se denomina regresi�n m�ltiple o regresi�n lineal
m�ltiple.

Constantemente en la pr�ctica de la investigaci�n estad�stica, se encuentran


variables que de alguna manera est�n relacionadas entre s�, por lo que es posible
que una de las variables puedan relacionarse matem�ticamente en funci�n de otra u
otras variables.

Maneja varias variables independientes. Cuenta con varios par�metros. Se expresan


de la forma:6?

(13){\displaystyle Y_{i}=\beta _{0}+\sum \beta _{p}X_{pi}+\varepsilon _{i}}


{\displaystyle Y_{i}=\beta _{0}+\sum \beta _{p}X_{pi}+\varepsilon _{i}}

donde {\displaystyle \varepsilon _{i}}{\displaystyle \varepsilon _{i}} es el error


asociado a la medici�n {\displaystyle i}i del valor {\displaystyle X_{pi}}
{\displaystyle X_{pi}} y siguen los supuestos de modo que {\displaystyle
\varepsilon _{i}\sim N(0,\sigma ^{2})}{\displaystyle \varepsilon _{i}\sim
N(0,\sigma ^{2})} (media cero, varianza constante e igual a un {\displaystyle
\sigma }\sigma y {\displaystyle \varepsilon _{i}\perp \varepsilon _{j}}
{\displaystyle \varepsilon _{i}\perp \varepsilon _{j}} con {\displaystyle i\neq j}
{\displaystyle i\neq j}).

Rectas de regresi�n
Las rectas de regresi�n son las rectas que mejor se ajustan a la nube de puntos (o
tambi�n llamado diagrama de dispersi�n) generada por una distribuci�n binomial.
Matem�ticamente, son posibles dos rectas de m�ximo ajuste:7?

La recta de regresi�n de Y sobre X:


(14){\displaystyle y={\bar {y}}+{\frac {\sigma _{xy}}{\sigma _{x}^{2}}}(x-{\bar
{x}})}{\displaystyle y={\bar {y}}+{\frac {\sigma _{xy}}{\sigma _{x}^{2}}}(x-{\bar
{x}})}

La recta de regresi�n de X sobre Y:


(15){\displaystyle x={\bar {x}}+{\frac {\sigma _{xy}}{\sigma _{y}^{2}}}(y-{\bar
{y}})}{\displaystyle x={\bar {x}}+{\frac {\sigma _{xy}}{\sigma _{y}^{2}}}(y-{\bar
{y}})}

La correlaci�n ("r") de las rectas determinar� la calidad del ajuste. Si r es


cercano o igual a 1, el ajuste ser� bueno y las predicciones realizadas a partir
del modelo obtenido ser�n muy fiables (el modelo obtenido resulta verdaderamente
representativo); si r es cercano o igual a 0, se tratar� de un ajuste malo en el
que las predicciones que se realicen a partir del modelo obtenido no ser�n fiables
(el modelo obtenido no resulta representativo de la realidad). Ambas rectas de
regresi�n se intersecan en un punto llamado centro de gravedad de la distribuci�n.

Aplicaciones de la regresi�n lineal


L�neas de tendencia
V�ase tambi�n: Tendencia
Una l�nea de tendencia representa una tendencia en una serie de datos obtenidos a
trav�s de un largo per�odo. Este tipo de l�neas puede decirnos si un conjunto de
datos en particular (como por ejemplo, el PIB, el precio del petr�leo o el valor de
las acciones) han aumentado o decrementado en un determinado per�odo.8? Se puede
dibujar una l�nea de tendencia a simple vista f�cilmente a partir de un grupo de
puntos, pero su posici�n y pendiente se calcula de manera m�s precisa utilizando
t�cnicas estad�sticas como las regresiones lineales. Las l�neas de tendencia son
generalmente l�neas rectas, aunque algunas variaciones utilizan polinomios de mayor
grado dependiendo de la curvatura deseada en la l�nea.

Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el fumar
tabaco9? vinieron de estudios que utilizaban la regresi�n lineal. Los
investigadores incluyen una gran cantidad de variables en su an�lisis de regresi�n
en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias.

En el caso del tabaquismo, los investigadores incluyeron el estado socio-econ�mico


para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de
su educaci�n o posici�n econ�mica. No obstante, es imposible incluir todas las
variables posibles en un estudio de regresi�n.10?11? En el ejemplo del tabaquismo,
un hipot�tico gen podr�a aumentar la mortalidad y aumentar la propensi�n a adquirir
enfermedades relacionadas con el consumo de tabaco. Por esta raz�n, en la
actualidad las pruebas controladas aleatorias son consideradas mucho m�s confiables
que los an�lisis de regresi�n.

Inform�tica
Ejemplo en JavaScript para regresi�n lineal:

{\displaystyle {\begin{Bmatrix}y=a+bx&\Rightarrow &x={\cfrac {y-a}


{b}}\\Encontrar\quad b&\Rightarrow &b={\cfrac {(cantidad*xy)-(x*y)}{(cantidad*xx)-
(x*x)}}\\Encontrar\quad a&\Rightarrow &a={\cfrac {y-(b*x)}
{cantidad}}\end{Bmatrix}}}{\displaystyle {\begin{Bmatrix}y=a+bx&\Rightarrow
&x={\cfrac {y-a}{b}}\\Encontrar\quad b&\Rightarrow &b={\cfrac {(cantidad*xy)-(x*y)}
{(cantidad*xx)-(x*x)}}\\Encontrar\quad a&\Rightarrow &a={\cfrac {y-(b*x)}
{cantidad}}\end{Bmatrix}}}
/**
* Linear regression in Javascript
* (c) 2016, Antonio Villamarin
* License GPL
*/

var
xarray = [
1, 2, 3, 4, 5
],
yarray = [
5, 5, 5, 6.8, 9
],
x = y = xy = xx = a = b = resultado = 0,
cantidad = xarray.length,
futuro = 100;

for (i = 0; i < cantidad; i++) {


console.log('Dado ' + xarray[i] + ' => ' + yarray[i]);
x += xarray[i];
y += yarray[i];
xy += xarray[i]*yarray[i];
xx += xarray[i]*xarray[i];
}

b = ((cantidad * xy) - (x * y)) / ((cantidad * xx) - (x * x));

a = (y - (b * x)) / cantidad;

if(b != 0) {
console.log('Dado ' + futuro + ' => ' + Math.round(a + (b * futuro)));
} else {
console.log('Dado ' + futuro + ' => Infinito');
}
Ejemplo de una rutina que utiliza una recta de regresi�n lineal para proyectar un
valor futuro: C�digo escrito en PHP

<?php
//Licencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 ); //Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion
$pm=100; //Valor futuro
$x2=0;
$y=0;
$x=0;
$xy=0;
$cantidad=count($xarray);
for($i=0;$i<$cantidad;$i++){
//Tabla de datos
print ($xarray[$i]." ---- ".$yarray[$i]."<br>");
//Calculo de terminos
$x2 += $xarray[$i]*$xarray[$i];
$y += $yarray[$i];
$x += $xarray[$i];
$xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x);
//Calculo del intercepto
$a=($y-$b*$x)/$cantidad;
//Recta tendencial
//y=a+bx
//Proyeccion en dias para un 100% de la ejecucion:
if ($b!=0) $dias_proyectados=($pm-$a)/$b;
else $dias_proyectados=999999; //Infinitos

También podría gustarte