Está en la página 1de 12

MODELO DE REGRESIN LINEAL SIMPLE

Los Modelos de Regresin estudian la relacin entre una variable de inters y


un conjunto de variables explicativas.
Cuando se estudia la relacin entre una variable de inters, variable respuesta o
variable dependiente Y, y un conunto de variables regresoras !e"plicativas#
independientes) (X
1
, X
2
, X
p
) puede darse las siguientes situaciones:
Existe una relacin funcional entre ellas, en el sentido de que el
conociiento de las variables regresoras deterina copletaente el valor que
toa la variable respuesta, esto es,
Y ! "X
1
, X
2
, X
p
#
Ejeplo: la relacin que existe entre el tiepo "Y) que tarda un vil en
recorrer una distancia y dic$a distancia "X# a velocidad constante
%o exista ninguna relacin entre la variable respuesta y las variables
regresoras, en el sentido de que el conociiento de stas no proporciona ninguna
inforacin sobre el coportaiento de la otra.
Ejeplo: la relacin que existe entre el dinero "Y) que gana una persona adulta
ensualente y su altura "X#.
El caso interedio, existe una relacin estoc$stica entre la variable
respuesta y las variables regresoras, en el sentido de que el conociiento de
stas perite predecir con ayor o enor exactitud el valor de la variable
respuesta. &or tanto siguen un odelo de la fora,
Y ! "X
1
, X
2
, X
p
# '
(iendo la funcin de regresin desconocida y ) una variable aleatoria de
edia cero "el error de observacin#.
El objetivo b*sico en el estudio de un odelo de regresin es el de estiar la
funcin de regresin, m, y la distribucin que sigue el error aleatorio
RE%&A DE REGRESIN
El odelo de regresin *s sencillo es el Modelo de Regresin Lineal Si'ple
que estudia la relacin lineal entre la variable respuesta Y y la variable regresora +, a
partir de una uestra "+i , Yi#
i ! ,,-,n
que sigue el siguiente odelo:
Y ! a ' b +,
a se denoina la ordenada en el origen y b la pendiente de la recta.
.e anera que el odelo a ajustar es
Y
i
! a ' b+
i
' )
i
i ! ,,/,-,n.
En fora atricial Y ! a, ' b+ ' e
donde Y` ! "y
,
, y
/
, -, y
n
#, ,0 !",,,,-,,#,

+0 !"x
,
, x
/
, -, x
n
#, )`! ")
,
, )
/
,- )
n
#
(e supone que se verifican las siguientes $iptesis:
,. La funcin de regresin es lineal,
"x
i
# ! a ' bx
i
nos da la edia de la variable dependiente para un valor
de la variable independiente
1, equivalenteente, E")
i
# ! 2, i = ,,...,n.
/. La varian3a es constante "(o'ocedasticidad#,
V ar"e
i
#!
/
, i ! ,,...,n.
4. La distribucin es noral,
Y5+!x
i
6 %"a ' bx
i
, 7
/
#
1, equivalenteente, )
i
6 N"2,7
/
#, i ! ,,...,n.
8. Las observaciones Yi son independientes. 9ajo las $iptesis de
noralidad, esto equivale a que la Cov"Y
i
Y
j
# ! 2, si i : j.
Esta $iptesis en funcin de los errores ser;a <los )i son independientes=,
que bajo noralidad, equivale a que Cov")
i
, )
j
# ! 2, si i : j.
En el odelo de regresin lineal siple $ay tres par*etros que se deben
estiar: los coeficientes de la recta de regresin, a y b y la varian3a de la distribucin
noral, 7

/
.
El c*lculo de estiadores para estos par*etros puede $acerse por diferentes
todos, nosotros utili3aos el todo de ;nios cuadrados.
.ado un valor de +, x
i
, teneos los dos valores de Y, el observado, y
i
, y el
terico o predic$o,
i
y>
! a 'bx
i
Los residuos se definen e
i
! y
i
?
i
y>
@s; pues, $eos de inii3ar:

( ) ( ) ( )


+
n
i
i i
n
i
i i
bx a y bx a y
,
/ /
,
Aue derivando respecto a a y a b e igualando a cero:

( )
( )

2 /
2 /
i
i
i i
i
i i
x bx a y
b
bx a y
a

Aue nos dar* un sistea de dos ecuaciones norales y dos incgnitas "a, b#.
Besolviendo el sistea:

()
/
/
/ /
/
/
/
>
>
>
x
xy
x xy
i
i
i
i i
i i
i i
i
i
i
i i
i i
i i
i
i i
i
i
i
i
i i
i i
i
i i
i i i
i i
S
S
b bS S
x n x b x n y y x
x b x n x b x
n
y
y x
x b x x b y y x
x b y a x b y na
x b x a y x
x b a y

,
_


+
+
+

+
+

Y obteneos que la recta de regresin de Y sobre + es y ! a ' bx con los


valores a y b anteriorente calculados, o bien la siguiente expresin:
( )
y y
S
S
x x
xy
x

2
Aue ser;a la isa recta pero expresada en punto pendiente. @ la pendiente b de
la recta de regresin de Y sobre + se le denoina coe)iciente de regresin de Y sobre
+.
RECTA DE REGRESIN DE X SOBRE Y
@plicando el iso ra3onaiento llegar;aos a la expresin de la recta de
regresin de + sobre Y x ! aC ' bCy con

( )
b
S
S
y a x b y
o bien
x x
S
S
y y
xy
y
xy
y
' ' '
:


2
2
Dgualente a la pendiente bC de la recta de regresin de + sobre Y se le
denoina coeficiente de regresin de + sobre Y.
%1E@: Fay que tener en cuenta que la recta de regresin de + sobre Y no se
obtiene despejando + de la recta de regresin de Y sobre +.
PROPIEDADES*
,. Estas dos rectas se cortan en el punto "x,y# que se denoina centro de
gravedad de la distribucin conjunta.
/. Eanto el signo de b coo el de bC ser* el signo de la covarian3a "pues las
varian3as son siepre positivas#. Gna covarian3a positiva nos dar* dos coeficientes de
regresin positivos y sus correspondientes rectas de regresin crecientes. (i la
covarian3a es negativa, las dos rectas de regresin ser*n decrecientes al ser negativas
sus pendientes. En caso de que la covarian3a valga cero, las rectas de regresin ser*n
paralelas a los ejes coordenados y perpendiculares entre s;.
MEDIDAS DE +ONDAD DE A,-S&E* An$lisis de la varian.a
VARIACIN RESIDUAL
&ara cada valor x
i
de +, obten;aos una diferencia "el residuo# entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido en la
funcin. (i todos los puntos de la nube est*n en la funcin, la dependencia ser*
funcionalH el grado de dependencia ser* el *xio posible. Cuanto *s se alejen los
puntos observados de la funcin "ayores sean los residuos# ireos perdiendo
intensidad en la dependencia.
(e define la variacin residual o variacin no explicada por la regresin coo
la sua de los cuadrados de los residuos.

( ) ( ) ( )


i
i
i
i i
i
i i
e x b a y y y VNE
/
/
/
>
> >
(i la variacin residual es grande los residuos ser*n grandes y la dependencia
ser* pequeIa, el ajuste ser* alo.
(i la variacin residual es pequeIa "cerca de cero#, la dependencia ser* grande,
el ajuste ser* bueno.
(e define la varian.a residual coo la variacin residual dividida entre sus
grados de libertad n?/H este cantidad se denota por
/

S y es la estiacin de la
varian3a de la varian3a de los residuos.

S se denoina error est$ndar de la regresin


VARIACIN DEBIDA A LA REGRESIN
%os sirve para ver en qu edida ejora la descripcin de una variable a travs
de la otra. Llaareos variacin debida a la regresin o variacin explicada a la
sua de los cuadrados de las desviaciones de los valores tericos a la edia.

( )


i
i
y y VE
/
>
/ARIA%IN &O&AL
La variacin total es la sua de los cuadrados de las desviaciones de los
valores observados a la edia
( )


i
i
y y V!
/
(e deuestra que JE ! JE ' J%E
Es decir, la variacin total de la variable Y es la sua de dos variaciones:
la de la variable Y
>
que representar;a la parte de la dispersin o variabilidad de la
variable Y explicada por la regresin, o sea, por la relacin lineal con la variable
+ , denotada por variacin e"plicada por el 'odelo y la variacin residual que
representar;a la parte de la variabilidad no e"plicada por la regresin.
@s; pues, cuando auenta la varian3a debida a la regresin, disinuye la
varian3a residual y el ajuste es bueno y al contrario.
COEFICIENTE DE DETERMINACIN
El problea de la variacin residual es que viene afectada por las unidades de
edida y esto iposibilita la coparacin de la dependencia entre grupos de variables.
1bteneos una edida relativa "es decir, que no dependa de las unidades y est entre
cero y uno# de la bondad de ajuste dividiendo la variacin debida a la regresin entre la
variacin total
(e define el C"E#$C$EN!E %E %E!E&$N'C$(N C"&")

V!
VNE
*+a,ra,o bien o
V!
VE
*+a,ra,o ,
El coeficiente de deterinacin "ultiplicado por cien# representa el porcentaje
de la variabilidad de Y explicada por la recta de regresin, es decir por su relacin con
la variable +.
2 B?cuadrado ,
(i B Kcuadrado ! , todos los residuos valen cero y el ajuste es perfecto.
(i B Kcuadrado ! 2 el ajuste es inadecuado.
&B1&DE.@.E(:
,. El coeficiente de deterinacin de la recta de regresin de Y sobre + es
el iso que el de la recta de regresin de + sobre Y, cuplindose que:
B ?cuadrado! bbC. Es decir, el coeficiente de deterinacin es una edida del
grado de relacin lineal entre las variarbles.
/. El coeficiente de deterinacin es el cuadrado del coeficiente de
correlacin lineal, es decir: B ?cuadrado! r
/
,
Esto solo es cierto en el caso de regresin lineal siple
/
/
/ /
/
L r
S S
S
S
S
S
S
bb
y x
xy
y
xy
x
xy

,
_


%OE0I%IEN&E DE %ORRELA%IN
.adas dos variables aleatorias cualesquiera X e Y, una edida de la relacin
lineal que $ay entre abas variables es el coe)iciente de correlacin definido por
# " # "
# , "
Y X
Y X C"V

.onde -(X) y -(Y# representan las desviaciones t;picas de las variables X e Y.


# " # " # " # , " Y E X E XY E Y X Cov
Gn buen estiador de este par*etro es el coe)iciente de correlacin lineal
'uestral !o coe)iciente de correlacin de Pearson1, definido por
Y X
XY
S S
S
r

Y X y x
n
S
n
i
i i XY


,
,
(e coprueba que r ! signo" b
>
# B
&or tanto, r./1,1M. Este coeficiente es una buena edida de la bondad del ajuste
de la recta de regresin. Evidenteente, existe una estrec$a relacin entre r y
b
>

aunque estos estiadores proporcionan diferentes interpretaciones del odelo:
r es una edida de la relacin lineal entre las variables X e Y.
b
>
ide el cabio producido en la variable Y al reali3arse un cabio de una
unidad en la variable X.
.e las definiciones anteriores se deduce que:
(
+Y
! 2 N
b
>
! 2 N r !2
Es iportante estudiar si r es significativo "distinto de cero# ya que ello iplica
que el odelo de regresin lineal es significativo. .esafortunadaente la distribucin
de r es coplicada pero para taaIos uestrales ayores que 42 su desviacin t;pica es
n
r
,
# "
y puede utili3arse la siguiente regla
>
n
r
/
r significativo
En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:
r ! O, indica una relacin lineal exacta positiva "creciente# o negativa
"decreciente#,
r ! 2 indica la no existencia de relacin lineal estoc*stica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal
incluso exacta,
Jalores interedios de r "2 0 r 0 , ?, 0 r 0 2# indican la existencia de una
relacin lineal estoc*stica, *s fuerte cuanto *s prxio a ', " ?,# sea el
valor de r.
PREDI%%IN
El objetivo Pltio de la regresin es la prediccin de una variable para un valor
deterinado de la otra. La prediccin de Y para + ! x
2
ser* sipleente el valor
obtenido en la recta de regresin de Y sobre + al sustituir el valor de x por x
2.
Es claro que la fiabilidad de esta prediccin ser* tanto ayor cuando
ayor sea la correlacin entre las variables "es decir ayor sea B Kcuadrado o r #.
IN&ER/ALOS DE %ON0IAN2A PARA LOS PAR3ME&ROS
El estiador
b
>
de la pendiente de la recta regresin, se denoina coe)iciente
de regresin y tiene una sencilla interpretacin, indica el creciiento "o decreciiento#
de la variable respuesta Y asociado a un increento unitario en la variable regresora X.
El estad;stico
b
>
se distribuye coo una noral de edia b y varian3a
/
/
X
nS


Esto es,
# , "
>
/
/
X
nS
b N b

&or tanto la V ar(


b
>
#
? disinuye al auentar n,
? disinuye al auentar 1
x
/

? disinuye al disinuir
/
.
El estiador
a>
indica el valor de la ordenada en la recta de regresin
estiada para x ! 2 tiene enor iportancia y, en uc$os casos, no tiene una
interpretacin pr*ctica.
La distribucin de
a>
es una noral de edia a y varian3a

,
_

+
/
/ /
,
X
nS
X
n

Esto es,
# , , " >
/
/ /

,
_

+
X
nS
X
n
a N a

&or tanto la V ar "
a>
#
? disinuye al auentar n,
? disinuye al auentar 1
x
/

? disinuye al disinuir
/
.
? disinuye al disinuir
/
.
/

S es el estad;stico que se utili3a coo estiador de la varian3a de los


residuos.
/
/

n
VNE
S

%uevaente, utili3ando las $iptesis de noralidad e independencia se obtiene


que la distribucin de este estad;stico es
/
/
/
/
# / "

S n

Conociendo las distribuciones de estos estad;sticos podeos $allar intervalos de


confian3a y reali3ar contrastes de $iptesis para los par*etros
Eeniendo en cuenta que7
/

es desconocida y $ay que estiarla, la distribucin de
b
>
es una E con
grados de libertad los de
/

S
/
>

n x

! n S
S
b b
@s; un intervalo de confian3a para b a un nivel de confian3a , ? viene dado
por / , / 5
>

t
n
X

2
n S
S
b

.e fora an*loga se puede obtener un intervalo de confian3a del par*etro a.
/
/
/
,
,
>

,
_

n
X

!
S
X
n
S
a a

/ , / 5
/
/
,
,
>

,
_

+ t
n
X

2
S
X
n
S a


Los estad;sticos
a>
y
b
>
no son variables aleatorias independientes
Coo ya se $a indicado el par*etro
a>
tiene enor iportancia que
b
>
y,
en algunas situaciones, no tiene una interpretacin realista si el cero no es un punto del
rango de la X, por ejeplo, al estudiar la relacin entre las variables peso y altura de un
colectivo de personas. &or ello tiene inters la ecuacin de la recta de regresin que
utili3a solo el par*etro b. Esta ecuacin es la siguiente
i i i
x x b y y + # "
o bien,
# " x x b y y
i i

IN&ERPRE&A%IN GEOM4&RI%A
Considrense los siguientes vectores del espacio n?diensional
n

#Q ,..., , "
/ , n
y y y Y

Jector de la variable respuesta


#0 , ..., , , , , " ,

Jector de ,
#0 ,..., , "
/ , n
x x x X

Jector de la variable regresora


#0 ,..., , "
/ , n
Jector de los errores aleatorios
#0 > ,..., > , > "
>
/ , n
y y y Y Jector de las predicciones
Y Y e e e e
n
>
#0 ,..., , "
/ ,

Jector de los residuos


.ado el odelo de regresin lineal


+ + X b a Y ,
El todo de estiacin por ;nios cuadrados tiene la siguiente interpretacin
geotrica:
El vector de predicciones
Y
>
es la proyeccin ortogonal del vector Y

en el
plano que generan los vectores X

y ,

.
.e esta fora el vector de residuos
e

es de dulo ;nio

n
i
i
e e
,
/ /

. &or
tanto, el vector de residuos
e

es perpendicular al plano generado por X

y ,

.
Y, en particular, es ortogonal a estos dos vectores, esto es,
2 2 ,
, ,



n
i
i i
2
n
i
i
2
x e X e e e

.el teorea de &it*goras se deduce que


Y
>
y
e

son ortogonales y por tanto




+ +
n
i
i
n
i
i
n
i
i
e y y e Y Y
,
/
,
/
,
/ /
/ /
>
>

%ON&RAS&ES SO+RE LOS PARAME&ROS DEL MODELO


Es de gran inters el siguiente contraste
2 :
2 :
,
2

b 3
b 3
ya que aceptar 3
2
iplica que la recta de regresin es Y
i
! a '
i
, por tanto, no
existe relacin lineal entre las variables X e Y .
Gtili3ando la distribucin de b
>
si 3
2
es cierto, se sigue que
/
>

n x

! n S
S
b b
El estad;stico
/ 2
>


n x

! n S
S
b
!
, por tanto
la regin cr;tica es / , / 5 2
>
n
2 !

El p ? va4or del contraste es &"RE
n/2
5652
7
5)
Este contraste se denoina contraste de regresin
.e la isa fora se puede $acer el contraste
2 :
2 :
,
2

a 3
a 3
@unque este contraste tiene enor inters por su escaso significado. En este
caso, si 3
2
es cierto, se verifica que
/
/
/
2
,
,
>

,
_

n
X

!
S
X
n
S
a
!
Y se calcula la regin cr;tica y el p?valor igual que antes
&A+LA ANO/A5 El contraste de regresin5
(upongaos que quereos reali3ar el siguiente contraste de $iptesis,
F
2
: E"Y5+!x#!a "es constante, no depende de x#
Srente a la alternativa
F
,
: E"Y5+!x#!a 'bx "el odelo lineal es significativo #
&or tanto, si se acepta 32, la variable regresora no influye y no $ay relacin lineal
entre abas variables. En caso contrario, si existe una dependencia lineal de la variable
respuesta respecto a la regresora. Eeniendo en cuenta la descoposicin de la
variabilidad de los datos
JE ! JE ' J%E
( )

i
i i
y y
/
!
( )


i
i
y y
/
>
'
( )


i
i i
y y
/
>
&odeos confeccionar la siguiente tabla
Eabla anova del odelo de regresin siple
variacin (ua de cuadrados Trados de libertad Jarian3as Jalor S
regresin
( )


i
i
y y VE
/
>
, JE
/

S
VE
residual
( ) ( )


i
i
i
i i
e y y VNE
/ /
>
n?/
/

S
total
( )


i
i i
y y V!
/
n?,
/
Y
S
(i 32 es cierta "la variable X no influye#, la recta de regresin es
aproxiadaente $ori3ontal y se verifica que aproxiadaente
y y
i
>
y por tanto
VE

2. &ero VE es una edida con diensiones y no puede utili3arse coo edida de


discrepancia, para resolver este inconveniente se divide por la varian3a residual y coo
estad;stico del contraste de regresin se utili3a el siguiente
/
2

S
VE
#
&or la $iptesis de noralidad y bajo 32 se deduce que el estad;stico

S
2
sigue
una distribucin S con , y n ? / grados de libertad. La regin cr;tica es
{ }
/ , , , 2
>
n
8 #

Y el p ? va4or viene dado por &"S
,,n?/
U f
2
#

También podría gustarte