Está en la página 1de 11

ANALISIS DE REGRESION LINEAL SIMPLE

Es el estudio de la relacin funcional del tipo lineal existente entre una variable en
estudio Y (variable aleatoria dependiente) y otra variable X llamada variable
independiente o explicativa con los siguientes objetivos:
1) Estimar en promedio esta relacin lineal.
2) Probar si esta relacin funcional es significativa.
3) Realizar predicciones estimada del comportamiento de Y para valores de X de
inters.
4) Evaluar el grado de bondad de ajuste de la estimacin realizada.
Ejemplo: Los siguientes datos son mediciones de la velocidad del aire(cm/seg) y del
coeficiente de evaporacin(mm2/seg) de las gotitas de combustibles en una turbina de
propulsin:

Modelo Estadstico de Regresin Lineal Simple


Para el estudio del anlisis de regresin lineal simple se considera el siguiente modelo
estadstico:
Y 0 1 X
donde:
0 y 1 son parmetros desconocidos.
0 : Coeficiente de Interseccin Poblacional.
1 : Coeficiente de Regresin Poblacional.
: Es una variable aleatoria no observable, llamada comnmente error,
distribuida con media cero y variancia comn 2 .
Si se denota:

Y . X EY / X 0 1 X

Entonces

Y Y . X

A la ecuacin

Y . X EY / X 0 1 X

se le llama ecuacin de regresin lineal simple paramtrica

Yi

Y X

Y X 0 1 X

0
Se puede observar lo siguiente:

Xi

0 = al valor de Y X cuando X 0 Entonces 0 tiene interpretacin cuando cero


es un valor posible de X y 0 un valor posible Y . Cuando 0 tiene
interpretacin, este se interpretar como la media de Y cuando X 0 .

1 Y X , este valor se interpreta como el cambio promedio que sufre Y cuando


X
X se incrementa en una unidad .

Supuestos sobre el Modelo estadstico de Regresin Lineal Simple


1.- La relacin funcional entre las variables Y y X puede ser expresado mediante un
modelo lineal.
Yi 0 1 X i i , i 1, 2,
donde

Y . X EY / X i 0 1 X i
i

2.- Los valores de X son fijados y medidos sin error.


3.- Los valores de Y para cada valor de X se obtiene aleatoriamente.
4.- Los trminos aleatorios del error i son independientes y tiene una distribucin
normal con media cero y variancia comn 2 ; esto es,

E i 0 , 2i var i 2 , E i j 0 , i j ;

para i, j 1, 2,

A este supuesto se le conoce con el nombre de independencia, normalidad


homogeneidad de variancia de errores.
.
Estimacin de Parmetros ( 0 y 1 )

Para estimar los parmetros se utiliza el mtodo de los mnimos cuadrados. Este mtodo
consiste en obtener los valores de 0 y 1 , los cuales sern denotados por b0 y b1 ,
respectivamente, que minimizan la suma de cuadrados de los errores obtenidos de una
muestra aleatoria. Esto es, si para los n valores fijados de X : X 1 , X 2 , , X n , se
extraen aleatoriamente el valor de Y, se obtiene la siguiente muestra aleatoria de pares :

X 1 , Y1 , X 2 ; Y2 , , X n , Yn
Entonces bajo el modelo estadstico:
Yi 0 1 X i i ,

i 1, 2, , n

Luego,

i Yi 0 1 X i ,

i 1, 2, , n

y la suma de cuadrados de los errores est dado por:


n

i 1

i 1

Q i2 Yi 0 1 X i

Minimizando esta suma de cuadrados se tiene:


Q
0
Q
1

0 b0 , 1 b1

2 Yi 0 1 X i 1
i 1

0
0 b0 , 1 b

0 b0 , 1 b1

2 Yi 0 1 X i X i
i 1

0
0 b0 , 1 b

reordenando este sistema, se tiene el siguiente sistema de ecuaciones, llamado


ecuaciones normales:
n

i 1
n

i 1
n

nb0 b1 X i Yi
n

b0 X i b1 X i2 X i Yi
i 1

i 1

i 1

Resolviendo este sistema se obtiene los estimadores de mnimos cuadrados de 0 y 1 :


b0 Y b1 X

b1

SP X , Y
,
SC X

donde:
n

X
i 1

Xi
n
n
2
X i2 n X X i2 i 1 ,
n
i 1
i 1

, Y

Y
i 1

, SC X X i X
n

i 1

n
n
X

i Yi
n
n
n
i 1

i 1
SP X , Y X i X Yi Y X i Yi n X Y X i Yi
n
i 1
i 1
i 1

Lnea de Regresin Estimada o Ecuacin de Regresin Estimada.


A la ecuacin :

Y b0 b1 X
se le llama Lnea de Regresin Estimada o Ecuacin de Regresin Estimada.
Y b0 b1 X estima a Y . X
Residuales: A la diferencia
ei Yi Yi ,

para i 1, 2, , n

se le conoce con el nombre de residual. Estos residuales son muy importante, permite
chequear si un conjunto de pares de observaciones cumplen con los supuestos del
modelo.
En el siguiente grfico se muestra estos conceptos:

Yi
Yi

Yi b0 b1 X

ei

b0

Xi

Se puede observar lo siguiente:

b0 = al valor de Y cuando X 0 Entonces b0 tiene interpretacin cuando cero es un


valor posible de X y b0 un valor posible Y . Cuando b0 tiene interpretacin,
este se interpretar como el estimado de la media de Y cuando X 0 .
Y
, este valor se interpreta como el estimado del cambio promedio que sufre Y
b1
X
cuando X se incrementa en una unidad .
Ejemplo: Los siguientes datos son mediciones de la velocidad del aire(cm/seg) y del
coeficiente de evaporacin(mm2/seg) de las gotitas de combustibles en una turbina de
propulsin:
Velocidad
del 20
aire (vel) : Xi
Coeficiente
de 0.18
evaporacin
(coef): Yi

60

100

140

180

220

260

300

340

380

0.37

0.35

0.78

0.56

0.75

1.18

1.36

1.17

1.65

a) Encuentre la lnea de regresin estimada. Interprete los coeficientes estimados


b) Encuentre el coeficiente de evaporacin promedio estimado para velocidad del
aire de 140 cm/seg y su residual
Solucin :
10

a)

10

X i 20 60 380 2000 ,

i 1

10

Yi 0.18 0.37 1.65 8.35 ,


i 1
10

i 1

10

i 1

2
i

20 2 60 2 380 2 532000

0.18 2 0.37 2 1.65 2 9.1097

X Y 200.18 600.37 3801.65 2175.4 ,


i 1

i i
n

Xi
i 1

10

Xi
i 1

10

2000

200 , Y
10
2

Yi
i 1

10

Y
i 1

10

0.835

Xi
2
n

2000
i 1

2
SC X X i
532000
132000
n
10
i 1
n
n
X

i Yi
n
i 1

i 1 2175.4 2008.35 505.4


SP X , Y X i Yi
n
10
i 1

b1

SP X , Y 505.4

0.003828788
SC X
132000

b0 Y b1 X 0.835 - 0.003828788200 0.0692424

Luego, la lnea de regresin estimada est dada por:

Y 0.0692424 0.003828788 X
b0 0.0692424 mm 2 / seg
Es el estimado de la media del coeficiente de evaporacin de las gotitas de combustible
cuando la velocidad del aire es cero.

b1 0.003828788 mm/cm
Cuando la velocidad del aire se incrementa en un cm/seg, se estima que en promedio de
0.003828788 mm2/seg.
b) Y 0.0692424 0.003828788(140) 0.6052727 ,
e Y Y 0.78 0.6052727 0.177273

Propiedades de la Lnea de Regresin Estimada


La lnea de regresin estimada cumple con las siguientes propiedades:
1.-

i 1

i 1

Yi Yi

2.- El punto X , Y pertenece a la lnea de regresin estimada.


n

3.-

e
i 1

4.-

e
i 1

2
i

es un valor mnimo

5.- Los estimadores de mnimos cuadrados b0 y b1 de 0 y 1 , respectivamente, son


los mejores estimadores lineales insesgado, ya que son de mnima variancia y cumplen
con:

Eb0 0 y

Eb1 1 .

Anlisis de Variancia (ANVA)


Consiste en descomponer la variacin total en sus fuentes de variacin:

Y b0 b1 X

Yi

ei Yi Yi

Yi

Yi Y

Yi Y

Xi
En este grfico se puede observar que :

Yi Y Yi Yi Yi Y
Observe que

ei Yi Yi

Y Y b
i

b1 X i Y Y b1 X b1 X i Y b1 X i X

donde:

Y : Expresa la desviacin total del valor observado Yi con respecto al promedio


muestral Y .

Y Y : Expresa la desviacin atribuible al efecto de regresin del valor


i

X i de la

variable X.

Yi : Expresa la desviacin atribuible al efecto aleatorio o residual del valor

observado Yi ; Es decir la desviacin no explicada por la lnea de regresin


estimada.
Entonces, la variacin total puede ser escrita:
SC Y Yi Y Yi Yi Yi Y
n

i 1
n

SC Y Yi Y
i 1

i 1
n

2
2
Yi Yi Yi Y 2 Yi Yi Yi Y
i 1

Se puede demostrar que

i 1

i 1

Y
n

i 1

Yi Yi Y 0

Entonces
SC Y Yi Y Yi Yi Yi Y
n

i 1

i 1

i 1

Por otro lado,

Y
n

i 1
n

2
Yi ei2 y
n

i 1
n

Y Y b X
i 1

i 1

X b12 X i X b12 SC X b1 SP X , Y
n

i 1

Por tanto,

SC Y Yi Y ei2 b1 SP X , Y
n

i 1

i 1

SC Y b1 SP X , Y ei2
i 1

SCTotal =

SCReg + SCError

Donde:
SC Y Yi Y : Expresa la variacin total de los n valores observados de Y
n

i 1

y se le llama suma de cuadrados total (SCTotal).

Y Y
n

i 1

b12 SC X : Expresa la variacin explicada por la regresin y se le llama


Suma de cuadrado debido al efecto de regresin (SCReg).

Y
n

i 1

2
Yi ei2 : Expresa la variacin residual o la variacin no explicada por la
n

i 1

regresin y se le llama suma de cuadrados debido al efecto


residual (SCError).
Grados de libertad
Se puede demostrar que el nmero de grados de libertad asociado a la SCTotal es n 1 ,
debido a que se pierde 1 grado de libertad por el clculo de Y . La SCReg tiene un solo
grado de libertad debido a que es funcin de b1 , ya que SC X es conocido. Por
ltimo, SCError tiene n 2 grados de libertad, pierde dos grados de libertad por el
clculo de b0 y b1 .

Cuadrado Medio (CM)


Se define como el cociente entre la suma de cuadrados y su correspondiente grados de
libertad. As

SCReg SCReg

SCReg
GLReg
1
SCError SCError
CMError

GLError
n2
CMReg

Cuadrados Medios Esperados


Se puede demostrar que
ECMReg 2 12 SC X
ECMError 2

Esto indica que el CMError es un estimador insesgado de la variancia comn 2 . En


cambio el CMReg es un estimador sesgado de esta variancia y el valor del sesgo es
12 SC X . Esto es,
CMReg estima a la variancia 2 12 SC X , y
CMError estima a la variancia 2 .
Luego un estimador insesgado de 2 , esta dado por
S 2 2 CMError

Basado en estos valores esperados se puede plantear la siguiente hiptesis planteada y


alternante:
H 0 : 12 0 contra la alternativa H a : 12 0 , la cual a su vez es equivalente a plantear
H 0 : 1 0 contra la alternativa H a : 1 0

Prueba de hiptesis
Bajo la hiptesis H 0 : 1 0 y el supuesto i se distribuye normal y en forma
independiente con media cero y variancia comn 2 , se puede demostrar que
F

CMReg
F1,n2 / H 0 es verdadera .
CMError

Entones, se rechaza la H 0 : 1 0 a favor de la alternativa H a : 1 0 , a un nivel de


significacin si

Fc

CMReg
F 1 , 1, n 2
CMError

caso contrario se acepta.


Cuadro de ANVA
Todos los resultados obtenidos anteriormente puede ser presentado en el siguiente
cuadro llamado cuadro de ANVA
Fuente de
Variacin
Debido a la
Regresin
Residual
Total

SC

GL

CM

Fc

SCReg

CMReg

SCError
SCTotal

n2
n 1

CMReg
CMError

CMError

Ejemplo : continuacin del ejemplo de coeficientes de evaporacin de gotitas de


combustibles.
Se sabe que :

SC X 13200 , SP X , Y 505.4 , b0 0.0692424 , b1 0.003828788 ,


10

Yi 8.35 ,
i 1

10

Y
i 1

9.1097

Entonces,
2

10
Yi
10
8.352 2.13745
2
SCTotal SC Y Yi i 1 9.1097 19
10
i 1
SCReg b1 SP X , Y 0.003828788505.4 1.935069 CMReg
SCError SCTotal - SCReg 2.13745 - 1.935069 0.202381

CMError

SCError 0.202381

0.02529763
n-2
8

Luego, el cuadro de ANVA est dado por:


Fuente de Variacin
Debido a la Regresin
Residuales
Total

SC
1.935069
0.202381
2.13745

GL
1
8
9

H 0 : 1 0 , contra H a : 1 0 , 0.05

CM
Fc
1.2935069 76.4921
0.02529763

F0.95, 1, 17 5.32 , se rechaza H 0 : 1 0 .

A un nivel de significacin 0.05 , existe suficiente evidencia estadstica para


afirmar que existe regresin lineal entre el coeficiente de evaporacin (coef) sobre la
velocidad del aire (vel) en una turbina de propulsin.

Coeficiente de Determinacin r 2

Es una medida del grado de bondad de ajuste y mide que proporcin de la variacin
total de Y es explicada por el modelo de regresin. As, el coeficiente de determinacin
muestral se define:
r2

SCReg
SCTotal

Este coeficiente estima al coeficiente de determinacin poblacional R 2


El valor de r 2 vara dentro del intervalo: 0 r 2 1 . Un valor de r 2 0 indica que la
proporcin total Y no es explicada por la lnea de regresin estimada, mientras que un
valor de r 2 1 indica que toda la variacin total de Y es explicada por el modelo
estimado y que todo los puntos observados se encuentra sobre la lnea de regresin
estimada. Esto indica que cuando r 2 est prximo a 1 , se tendr un grado ajuste mayor.

Coeficiente de No Determinacin 1 r 2
A 1 r 2 se le llama coeficiente de no determinacin muestral y expresa la proporcin
de la variacin total Y que no es explicada por la lnea de regresin estimada. Es decir,
indica la parte de la variacin total de Y que se debe a otros factores no considerado en
el modelo. De acuerdo, a esta definicin, el valor del coeficiente de no determinacin
muestral se encuentra
SCReg
SCError
1 r2 1

SCTotal SCTotal
Ejemplo: Continuando con el ejemplo de coeficiente de evaporacin de gotitas de
combustibles, se tiene:
r2

SCReg 1.935069

0.9053166 y 1 r 2 1 0.9053166 0.0946834


SCTotal 2.13745

También podría gustarte