Está en la página 1de 7

Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

1

ANLISIS DE REGRESIN

INTRODUCCIN

Consideremos la variable bidimensional (X,Y) , y sea E(Y/X) la regresin del promedio de Y sobre X ,
cuya forma depender de la relacin existente entre las variables. En este captulo nos limitaremos a las
funciones de regresin que son lineales en los parmetros (o coeficientes).
Si la distribucin de (X,Y) es Normal bivariada, entonces las funciones condicionales de probabilidad son
tambin normales; es decir: dado un valor fijo X=x , la variable Y se distribuye en forma normal con
media E(Y/X) = +.X y con variancia V(Y/X) =
y
2 2 2
1 ( ) = constante, lo que significa, que
no depende del valor X=x.
La diferencia que existe entre el valor que toma la variable Y (dado que X=x) y la esperanza condicional
E(Y/x) se denomina residuo , desvo o error , y representa la parte aleatoria . En otras palabras, si (x
i
, y
i

) es el valor que asume la variable bidimensional (X,Y), el residuo ser =y
i
- E(Y/x
i
) , y por lo
tanto y
i
=E(Y/x
i
) +
i
.


MODELO DE REGRESIN BIVARIABLE LINEAL

Considerando una relacin lineal entre las variables , esto significa que

y
i
= +.x
i
+
i

donde +.x
i
= E(Y/x
i
) es la parte sistemtica o determinstica (slo depende del valor x ), y es la
parte aleatoria sobre la cual se establecern condiciones o restricciones que determinan el comportamiento
de la variable Y. Este modelo supone que para cada valor fijo x , existe una distribucin de valores de la
variable Y .
En este modelo identificamos las siguientes componentes:
y : parmetros poblacionales
X : variable "explicativa"
Y : variable "explicada"
: error residual
Este residuo
i
se compone esencialmente de errores casuales, debida a la propia aleatoriedad de cada
individuo, pudiendo incluir errores de medicin como tambin deficiencias del modelo debidas, por
ejemplo, a variables no consideradas en dicho modelo . En otras palabras,
i
es la parte de y
i
que no est
explicada por la regresin lineal de Y sobre x
i
.
Este modelo supone una distribucin Normal de los errores o residuos , con media E(
i
) =0 y variancia
constante V(
i
) =
2
, e independencia entre los errores. Es decir :


i
N ~ ( , ) 0
2


cov( , )
i j
i j = 0

Estos supuestos sobre los errores implican supuestos sobre el modelo de regresin :
La variable "explicativa" X toma valores predeterminados por el investigador.
Para cada valor fijo de X , la variable Y se distribuye en forma normal .
La relacin entre las variables X e Y es lineal , es decir, la regresin del promedio es lineal
Simblicamente : E(Y/X) = +.X

, ya que E() =0
j i Y Y
j i
= , 0 ) , cov( , ya que cov( , )
i j
i j = 0
Homocedasticidad, o sea : V(Y/X) =
2
= constante, no depende del valor de X , ya que la variancia
de los errores es constante .
Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

2
y
x
La violacin de supuestos se refiere a :
Autocorrelacin entre los errores o dependencia entre los errores : cov( , )
i j
i j = 0 .
Heterocedasticidad , lo que significa que la variancia del error o residuo depende del valor de x , y
trae como consecuencia que la variancia de Y condicionada a un valor de X tampoco es constante
sino que depende de dicho valor. O sea : V(Y/x) =H(x) = V(/x) .

Distribucin no normal de los errores o residuos .
X es variable aleatoria , lo que significa que no han sido predeterminados los valores de X

La hiptesis de distribucin normal de los errores y la de homocedasticidad traen como consecuencia
inmediata la distribucin normal de la variable Y condicionada a un valor fijo X =x . Es decir :

i
N ~ ( , ) 0
2
Y x N x / ~ ( . , ) +
2


La inferencia estadstica se ocupa de estimar los parmetros de la poblacin bivariada (como as tambin
los de la recta de regresin) en base a los resultados obtenidos a travs de una muestra aleatoria.


ESTIMACIN DE LA RECTA DE REGRESIN

Consideremos una muestra de tamao n extrada aleatoriamente de una poblacin bivariada fijando
previamente los valores de la variable X .Luego, dispondremos de n datos bidimensionales :
( x
1
, y
1
) , ( x
2
, y
2
) , ... , ( x
n
, y
n
)
donde el i-simo par ordenado ( x
i
, y
i
) representa la i-sima observacin de la variable Y fijando
X=x
i
.
La representacin grfica de estas observaciones recibe el nombre de nube de puntos o diagrama de
dispersin, y puede tomar la siguiente forma :

y
x

Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

3
En base a las hiptesis del modelo, tenemos que y
i
~N ( E( Y/x
i
) ,
2
) , lo cual equivale a :
y N x
i i
~ ( . , ) +
2


El objetivo de la estadstica inferencial es el de estimar los parmetros y , ya sea en forma puntual
o mediante intervalos de confianza.
Primeramente nos ocuparemos de estimar en forma puntual los parmetros de la recta de regresin (o
recta de ajuste).
Utilizaremos la notacin
)
y a b x = + . para referirnos al estimador de la recta poblacional de regresin
E(Y/x) =+.x donde a =
)
y b =
)
sern funciones de las n observaciones .
Existen dos mtodos para hallar los estimadores de y que dan los mismos resultados.

Mtodo de Mxima Verosimilitud

El mtodo de Mxima Verosimilitud consiste en determinar los valores de y que maximicen la
probabilidad de la muestra obtenida. Como ya sabemos, este mtodo se basa en la distribucin de la
variable , que es la supuesta en el modelo. Con este mtodo se obtienen los mismos estimadores que con
el mtodo de Mnimos Cuadrados.

Mtodo de los Mnimos Cuadrados

El mtodo de los Mnimos Cuadrados consiste en minimizar la suma de los cuadrados de los residuos de
las observaciones respecto de la recta de regresin. En otras palabras, considera que el mejor estimador de
E(Y/X) = +.X es la ecuacin
)
y a b X = + . para la cual se verifica que:


= =
= =
n
i
i
n
i
i i
imo e y y
1
2
1
2
mn ) (
)


donde e y y
i i i
=
)
representa la estimacin del residuo correspondiente a la i-sima observacin. La
representacin grfica de las observaciones y de sus correspondientes desvos respecto de la recta de
ajuste, es la siguiente :
y
x
e
i
x
i
Este mtodo no considera la distribucin de los errores aleatorios, (distribucin de Y condicionada a X ).
Considera que la recta que mejor ajusta esa nube de puntos es la que logra la condicin de minimizar la
suma de los cuadrados de los desvos de las observaciones respecto a dicha recta. Una vez obtenida la
muestra, no slo los valores x
i
(que son predeterminados) sino tambin los valores y
i
son conocidos. Se
trata ahora de determinar los valores de los coeficientes de la recta que satisfagan la condicin de mnimo
.
Simbolizando con a y b a los estimadores de y respectivamente, tendremos que el valor medio
de Y condicionado a un valor fijo x
i
de la variable X ser estimado por :
i i
x x b a y . .
)
) )
+ = + =
Por lo tanto, debe satisfacerse la siguiente condicin:


= =
= =
n
i
i
n
i
i i
imo e y y
1
2
1
2
mn ) (
)
donde
i
x b a y . + =
)


o sea :

= =
+ =
n
i
i i
n
i
i i
x b a y y y
1
2
1
2
)] . ( [ ) (
)
= mnimo

Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

4
Simbolizando con (a,b) a la suma de cuadrados de los residuos, puesto que es una funcin que depende
de a y de b , tendremos la siguiente condicin :
( , ) [ . ] a b y a b x mn
i i
i
n
= =
=
2
1


Sabiendo que una funcin en dos variables (siempre que sea derivable) alcanza su valor mnimo en un
punto donde las derivadas parciales se anulan, esta condicin de mnimo se traduce en las siguientes dos
condiciones:
0
) , (
=
a
b a

y 0
) , (
=
b
b a



donde :

= =
= =
n
i
i i
n
i
i i
x b a y x b a y
a
b a
1 1
) . ( 2 ) 1 .( ] . .[ 2
) , (




= =
= =
n
i
i i i i i
n
i
i i
x b x a x y x x b a y
b
b a
1
2
1
) . . ( 2 ) .( ] . .[ 2
) , (



Como consecuencia de la condicin de mnimo, obtenemos las siguientes restricciones:

= 0
) , (
a
b a



= = =
= =
n
i
n
i
i i
n
i
i i
x b a n y x b a y
1 1 1
0 . . 0 ) . (

0
) , (
=
b
b a

0 . . 0 ) . . (
1 1
2
1 1
2
= =

= = = =
n
i
n
i
i
n
i
i i i
n
i
i i i i
x b x a x y x b x a x y

de donde se obtienen las siguientes ecuaciones :

=
= =

= =
n
i
n
i
i i i
x b X a n x y
X b a Y X b n a n Y n
1 1
2
0 . . . .
0 . 0 . . . ..


Estas dos ecuaciones reciben el nombre de Ecuaciones Normales, y constituyen un sistema de ecuaciones,
en las cuales

=
=
n
i
i
n
x X
1
1
y

=
=
n
i
i
n
y Y
1
1

Este sistema de ecuaciones da por resultado las siguientes expresiones para los estimadores de los
coeficientes de la regresin a , b :
X b Y a . =
) (
) , (
) (
) ).( . (
.
. . .
1
2
1
1
2 2
1
x V
y x Cov
X x
Y y X x
X n x
Y X n y x
b
n
i
i
n
i
i i
n
i
i
n
i
i i
=

=
=
=
=


Como la variancia es siempre positiva, resulta claro que el signo del coeficiente b depende del signo de
la covariancia entre las variables X e Y . Si el signo es positivo ( b>0 ), indica que existe una relacin
directa entre las variables; si es negativo ( b<0 ), indica que existe una relacin inversa entre las
variables; y si b es nulo ( b=0 ), indica que no existe relacin lineal entre las variables .

VARIANCIA RESIDUAL

Obtenidos los valores de los coeficientes de la regresin : a y b , conseguimos expresar
matemticamente la relacin lineal existente entre las variables X e Y a travs de la funcin Y =a +
b.X . Ntese que tambin se ha conseguido disminuir la dispersin de las observaciones y "explicado"
parte del error por medio de la influencia de la variable X , como puede apreciarse en la comparacin de
los siguientes grficos :

Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

5
S y S y x
2 2
( ) ( / )


La recta estimada . y a b x = + es la que mejor ajusta la nube de puntos, adems de "explicar" gran parte
de la dispersin de la variable Y. Ahora se hace necesario medir de alguna forma la dispersin de los
datos alrededor de la "recta de ajuste" que representa la parte del error que no fue posible explicar
mediante el modelo por ser justamente la componente aleatoria del mismo. En otras palabras, se trata de
estimar la variancia de los errores
2
.
Definimos la variancia residual como el "promedio" de los cuadrados de los residuos y la simbolizamos
con V(Y/X) o S
2
(y/x) o S
e
2
. Debido a las restricciones que las dos ecuaciones normales imponen al
ajuste se pierden dos grados de libertad en la distribucin de la suma de cuadrados de los residuos, de
donde se deduce que el mejor estimador para la variancia de los errores est dado por la siguiente
expresin matemtica :
2
. . .
2
) (
1 1 1
2
1
2
2 2
) / (


=

= =

= = = =
n
y x b y a y
n
y y
S S
n
i
n
i
n
i
i i i i
n
i
i i
e
x y


El desvo standart de la regresin se define como la raz cuadrada de la variancia residual, y es el que se
utiliza como medida de dispersin de este anlisis. Se la simboliza con S
(y/x)
o S
e
, y se calcula como :

2
. . .
2
) (
1 1 1
2
1
2
2
) / (
) / (


=

= = =

= = = =
n
y x b y a y
n
y y
S S S
n
i
n
i
n
i
i i i i
n
i
i i
x y e
x y


Si la cantidad de observaciones es "suficientemente grande" entonces S(y/x) cumple con propiedades
similares a las que cumple el desvo standart de una variable normal unidimensional, con la diferencia
que ya no hablamos de intervalos sino de franjas (o regiones) que aproximadamente contienen el 68% , el
95% y el 100% de las observaciones .
( y - S
(y/x)
; y + S
(y/x)
) contiene aproximadamente el 68% de las observaciones.
( y - 2.S
(y/x)
; y + 2.S
(y/x)
) contiene aproximadamente el 95% de las observaciones.
( y - 3.S
(y/x)
; y + 3.S
(y/x)
) contiene aproximadamente el 100% de las observaciones.

donde y = a + b.X y por lo tanto y + k.S
(y/x)
= a + k.S
(y/x)
+ b.X es la ecuacin de otra recta que ser
paralela a y = a + b.X pues tiene la misma pendiente.
x
y
99.9%
95%
y
x

COEFICIENTE DE DETERMINACIN

Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

6
Comparando la variancia residual S
2
(y/x)
con la variancia total S
2
(y)
observaremos que siempre se
verifica S
2
(y/x)
S
2
(y)
, la igualdad nicamente se da cuando no existe relacin lineal entre las variables, o
sea, cuando la mejor recta que ajusta a los datos es y Y = , ( en cuyo caso a Y = y b =0 ) . Es posible
notar que cuanto menor sea el valor de S
2
(y/x)
, ms relacionadas estn las variables, llegando al extremo
de ser S
2
(y/x)
=0 cuando X e Y estn perfectamente relacionadas, ya que esto significara que no existe
variancia residual, que "toda" la variabilidad de Y se debe a la variabilidad de X . Para estos dos casos
extremos (ausencia de relacin : S
2
(y/x)
=S
2
(y)
y relacin perfecta : S
2
(y/x)
=0 ) no necesitamos ninguna
otra medida que indique con qu intensidad estn relacionadas las variables. Pero en la realidad nos
enfrentamos con situaciones que muy raramente responden a uno de estos dos casos extremos.
Comnmente existe cierta relacin entre las variables, sin llegar a ser perfecta, y el objetivo de la
Estadstica es medirla, cuantificar la intensidad de la misma. para ello necesita un coeficiente que
represente en qu medida la variacin de una variable est "explicada" por la otra. Obviamente, dicha
medida tendr que ser relativa, puesto que stas son las ms fciles de interpretar.
Comenzaremos por analizar la variabilidad total que existe en la variable Y , hasta lograr descomponerla
en dos partes, teniendo en mente que nuestro objetivo consiste en saber "cunto" de esa variabilidad se
debe a la variable X .
Con la ayuda del diagrama de dispersin ( o nube de puntos ), descomponemos cada desvo ( ) y Y
i
en
dos partes, una de ellas : ( )
y Y
i
, la identificamos como la porcin del desvo que est "explicada"
por la variable X ; y la otra parte : ( ) y y
i i
, es el residuo, corresponde la fraccin del desvo que "no
est explicada" por la variable X .
( ) y y i
( ) y y i i
( ) y y i
y a b x i i = +
yi
y
.
y y i
y y i i
y y i
xi
yi
y
x

Con esta descomposicin tenemos que cada desvo puede expresarse como :
( ) ( ) ( ) y Y y y y Y
i i i i
= +

Adoptamos como medida de la variabilidad total a la suma de los cuadrados de los desvos (respecto de
Y ). Por lo tanto, elevamos cada desvo al cuadrado y luego sumamos todos ellos.
( ) ( ) ( )
[ ]
y Y y y y Y
i i i i
= +
2
2

Luego :
( ) ( ) ( )
[ ]
y Y y y y Y
i
i
n
i i i
i
n
= +
= =
2
1
2
1


Luego de algunos pasos algebraicos, como desarrollo del cuadrado y uso de las ecuaciones normales, se
obtiene :
( ) ( ) ( ) y Y y y y Y
i
i
n
i i
i
n
i
i
n
= +
= = =
2
1
2
1
2
1


. . . . . . . . . E C S E N C S T C S + =

donde S.C.T. es la Suma de Cuadrados total , (tambin llamada: variacin total)
S.C.N.E. es la Suma de Cuadrados No Explicada, (tambin llamada: variacin no
explicada)
Ctedra: Probabilidad y Estadstica

Anlisis de Regresin

7
S.C.E. es la Suma de Cuadrados Explicada (tambin llamada: variacin explicada)

Dividiendo ambos miembros por la variacin total suma de cuadrados total , obtenemos :

. . .
. . .
. . .
. . . .
1
. . .
. . . . . . .
. . .
. . .
T C S
E C S
T C S
E N C S
T C S
E C S E N C S
T C S
T C S
+ =
+
=

Como ya anticipamos, lo que pretendemos conseguir es un coeficiente que cuantifique en qu medida la
variacin total de Y est "explicada" por la variable X . Por lo tanto, dicho coeficiente se define como
el cociente entre la variacin explicada y la variacin total, recibe el nombre de coeficiente de
determinacin y lo simbolizamos con r
2
.
. . .
. . . .
1
. . .
. . .
2
T C S
E N C S
T C S
E C S
r = =

r
2
se interpreta como la proporcin de la variabilidad de Y que se debe a la influencia de X .
Analizando la frmula vemos que r
2
es un nmero real que puede tomar valores entre 0 y 1.
1
2
0 r


Analicemos los valores extremos del coeficiente de determinacin:

SCNE SCE r = = 0 0
2


( ) n i Y y n i Y y Y y SCE
i i
n
i
i
.. 1 , .. 1 , 0 0 0
1
2
= = = = = =

=


Por lo tanto, r
2
=0 , indica que X no explica en absoluto la variabilidad de Y .

0 1
2
= = = SCNE SCT SCE r


( ) n i y y n i y y y y SCNE
i i i i
n
i
i i
.. 1 , .. 1 , 0 0 0
1
2
= = = = = =

=


Por lo tanto, r
2
=1 , indica que toda la variabilidad de Y est explicada por X .

Interpretacin del coeficiente de determinacin r
2

r
2
indica la proporcin de la variabilidad de Y que est explicada por X .

Observacin : r
2
es un coeficiente de muy fcil interpretacin, pero tiene el inconveniente de no detectar
el tipo de relacin, es decir, si ella es directa o inversa.