Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion
Regresion
Tema 8
Tema 8
REGRESION Y CORRELACION
1.- Introduccin al problema de la regresin:
En la prctica es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de
alguna forma de la/s variable/s de entrada al mismo. La mayor parte de las veces, se tiene una nica
variable de salida o respuesta (dependiente) Y, que no se controla en el experimento y que es por
tanto una variable aleatoria, mientras que se pueden tener una o varias variables de entrada
(independientes) X1, X2, ..., Xk, que pueden o no estar controladas por el investigador, aunque lo ms
comn es que estn perfectamente controladas y por tanto no puedan considerarse del todo
aleatorias y no tengan propiedades distribucionales.
Dada esta situacin el problema de la regresin consiste en encontrar una relacin entre la variable
dependiente Y el conjunto de variables independientes Xi (Y=f(X1,X2,...,Xk)) que aproxime a la relacin
que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir
valores de Y, a partir de los valores de Xi.
Segn que la variable de salida dependa de una o varias variables de entrada, hablaremos de
regresin SIMPLE (la que vamos a tratar nosotros) o regresin MULTIPLE respectivamente.
Adems podemos distinguir, dependiendo de la forma que presente la funcin que relaciona las
variables, entre regresin LINEAL (la funcin es una recta), regresin PARABLICA, regresin
HIPERBLICA, etc ...
En el anlisis de regresin deberemos contemplar los siguientes cuatro aspectos:
Determinar interrelacin entre variables (test de independencia, etc ...)
Determinar tipo de funcin matemtica que relaciona ptimamente las variables
(representacin grfica).
Calcular parmetros de dicha funcin matemtica y determinar bondad de ajuste.
Realizar predicciones de la variable dependiente a partir de la independiente.
2.- Regresin simple:
En este caso concreto, consideramos la existencia de una nica variable de prediccin X.
Consideramos un conjunto {(xi,yi), i =1,2,...n} de n mediciones: y1, ..., yn de una variable respuesta Y, las
cuales se han observado bajo unas condiciones experimentales que representan los valores de la
variable de prediccin X: x1, x2, ... xn
Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y
varen, ya que el valor yi en el par ordenado (xi,yi) es el valor de una variable aleatoria. Se define Y/x
como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por
Y/x y 2Y/x, respectivamente.
Ejemplo:
Dosis inicial de droga (X)
0.05
0.05
0.05
0.10
0.10
0.20
Tema 8
Supongamos que se administra una cantidad X=x de droga. Cul ser la prediccin ptima del valor
que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (Y/x).
Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga
a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a
los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para
cada valor de x existe una distribucin de cantidad de droga a los 5 minutos y lo que se busca es la
media de esa distribucin, dado x.
Es importante hacer notar que en la regresin slo puede asociarse un valor de Y con uno de
prediccin x; no es posible establecer una relacin causa-efecto entre las Y y las x, ya que un cambio
en las x no causar uno correspondiente en la variable respuesta. De manera obvia, existe una
relacin entre la altura y el peso de una persona, pero implica esta relacin que pueda cambiar la
altura de las personas si se modifica su peso?.
El inters recae en determinar una funcin matemtica sencilla f(x) = Y/x, por ejemplo un polinomio,
que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la funcin
que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta.
El primer paso que daremos ser determinar el modelo o funcin matemtica que se va a utilizar. Un
procedimiento sencillo para seleccionar el modelo de regresin a utilizar, consiste en graficar la
variable respuesta contra la variable de prediccin. Si la grfica revela una tendencia lineal, deber
suponerse un modelo de regresin lineal.
El lugar geomtrico de los puntos (x, Y/x)) recibe el nombre de curva de regresin poblacional, y no
es ms que la representacin grfica de la funcin f(x) que aproxima a la relacin entre las variables.
Estas curvas de regresin son curvas de prediccin ideales, que usualmente no conocemos.
Obsrvese que Y/x es un parmetro, la media de la v. a. Y/x que, en principio habra que estimar a
partir de los datos muestrales de que disponemos.
Y
y/x=+x
x1
x2
x3
x4
x5 x6
Tema 8
Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parmetros
que intervienen en el mismo.
La REGRESIN LINEAL SIMPLE implica que Y/x est linealmente relacionado con x por la ecuacin
de regresin lineal poblacional donde los coeficientes de regresin y son parmetros que deben
estimarse a partir de los datos muestrales:
Y/x = + x
con y R
y 0
Lo que s podemos conocer a partir de los datos muestrales es la ecuacin de regresin lineal
ajustada, que es el resultado de estimar los parmetros de la expresin anterior, donde las
estimaciones a y b representan la interseccin y la pendiente de y respectivamente:
a =
Un conjunto de datos podr dar evidencia de linealidad sobre los valores de x cubiertos por dicho
conjunto. Para valores de X ms all de la zona cubierta por los datos no tendremos nunca evidencia
de linealidad.
No se debe usar nunca la recta de regresin ajustada para predecir valores de Y
correspondientes a valores de X fuera del rango cubierto por los datos.
Una tcnica muy aceptable para estimar los parmetros de la ecuacin es el mtodo de los mnimos
cuadrados, que pasamos a estudiar.
3.- Mtodo de los mnimos cuadrados:
Al utilizar el modelo de regresin lineal, hemos definido cada variable aleatoria Yi=Y/xi de la
siguiente forma:
Yi = Y/xi + Ei = + xi + Ei
donde Ei es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que
para cada observacin yi de Yi, (xi,yi), toma un valor i
Cuando usamos la lnea de regresin ajustada y = a + bx cada par de observaciones (xi,yi) satisface:
y i = a + bxi + ei
donde ei es el error residual (distancia vertical que existe entre el valor observado en el punto i de
los datos y el valor ajustado mediante la recta de regresin, ei = y i y i )
Dibujando sobre el diagrama de dispersin las lneas de regresin real y ajustada y los dos tipos de
errores, obtenemos:
Y
(xi,yi)
y=a+bx
ei
y/x=+x
Tema 8
SSE
= -2 in=1( yi - a - b xi ) xi
b
SSE
= -2 in=1( y i - a - b xi )
a
Al igualar las derivadas parciales a cero y reacomodar los trminos, se obtienen las ecuaciones
siguientes (llamadas ecuaciones normales):
=b=
n in=1 xi 2 -( in=1 xi )2
n
n
y -b i=1 xi
= a = i=1 i
= y - bx
n
4.- Propiedades de los estimadores de mnimos cuadrados:
Partimos de un conjunto de datos:
X
x1
Y1
x2
Y2
...
...
xn
Yn
donde cada Yi = Y/xi es una variable aleatoria, cuya media viene dada por: Y/xi = + xi que se
estima por: yi = a + bxi, siendo a y b las estimaciones puntuales de los parmetros y .
Adems de estimar la relacin lineal entre x e y para propsitos de prediccin, se puede tambin
estar interesado en la realizacin de inferencias acerca de su pendiente y el punto de interseccin.
Para realizar pruebas de hiptesis y la determinacin de intervalos de confianza de y , se debe
hacer la suposicin adicional de que cada Yi est normalmente distribuida, son todas independientes y
Tema 8
Y/xi
= + xi , 2 )
SSE S yy - b S xy
=
n-2
n-2
SSE
por tanto s =
n-2
2 = s 2 =
donde:
SSE es una medida de la variabilidad de las observaciones yi en torno a la recta de regresin
estimada.
S yy = i=1( yi - y )
n
S xy = i=1( xi - x )( yi - y )
La b de la ecuacin de la recta de regresin ajustada podra entonces ponerse en funcin de Sxy y Sxx
como:
b=
S xy
S xx
b-
s
a -
ta =
s
S xx
xi
n
S xx
i =1
b-
t/2 s
S xx
< <b+
t/2 s
S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad, que deja a su derecha una
Tema 8
probabilidad /2.
Contraste de Hiptesis = 0
Para probar la hiptesis nula H0 de que = 0 en contra de la alternativa apropiada, de nuevo se
utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.
H0 : = 0
H1 : 0
tb =
H0 : 0
H1 : > 0
H0 : 0
H1 : < 0
R.C. = {tb / | tb |> t/2 , n 2}
b - 0
s
S xx
Intervalo de Confianza para
a-
t/2 s i=1 xi
t/2 s i=1 xi
< < a +
n S xx
n S xx
Y/xi
= + xi
NOTA:
Contraste de Hiptesis = 0
Para probar la hiptesis nula H0 de que = 0 en contra de la alternativa apropiada, de nuevo se
utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.
H 0 : = 0
H 1 : 0
ta =
a -0
2
s in=1 xi
n S xx
H 0 : 0
H 1 : > 0
H 0 : 0
H 1 : < 0
R.C. = {t a / t a > t , n 2}
R.C. = {t a / t a < t , n 2}
5.- Prediccin:
La ecuacin y = a + b x puede utilizarse para pronosticar o predecir la respuesta media Y/x0 en x =
x0, donde x0 no es necesariamente uno de los valores preseleccionados, o puede utilizarse para
predecir un valor sencillo y0 de la variable Y0 cuando x = x0. Esto es, si X es el peso humano, e Y es la
estatura humana, podemos estar interesados en obtener un intervalo de confianza sobre la media
verdadera de estatura de los humanos Y/x0 en un peso elegido x0=70 kg; o bien podemos estar
interesados en un intervalo de confianza sobre una estatura individual Y0 en un peso elegido x0 = 70
kg.
Se esperara que el error de prediccin fuera ms grande cuando se pronostica un valor que cuando
se predice una media. Esto afectar la amplitud de los intervalos para los valores que se pronostican.
Tema 8
Por tanto, lo que en estimacin puntual se haca igual para ambos casos, en estimacin por intervalos,
da lugar a dos intervalos diferentes.
Intervalo de Confianza de Y/x0
Un intervalo de confianza del (1-) 100% para la respuesta media Y/x0 es:
2
1 ( x0 - x )
1 ( x0 - x )
+
< Y < y 0 + t/2 s
+
y 0 - t/2 s
n
n
x0
S xx
S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad.
Intervalo de Prediccin para Y0
Un intervalo de prediccin del (1-) 100% para una sola respuesta y0 es:
1 ( -x)
1 ( -x)
< Y < y 0 + t/2 s 1 + + x0
y 0 - t/2 s 1 + + x0
n
n
x0
S xx
S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad.
6.- Evaluacin de la intensidad de la relacin lineal
Hasta ahora el mtodo que tenamos de saber cundo era conveniente suponer que la relacin entre
las variables era lineal, era slo mediante el diagrama de dispersin. Pero ya en su momento
habamos comentado que este argumento era muy dbil y que existan otros mtodos de saberlo.
Bsicamente son dos los mtodos de averiguarlo.
Mtodo del Anlisis de la Varianza
Es un procedimiento que subdivide la variacin total de la variable dependiente Y en sus componentes
ms significativas.
Supngase que se tienen n puntos de datos experimentales en la forma usual (xi,yi) y que se estima la
lnea de regresin ajustada. Habamos obtenido SSE = Syy - b Sxy, de donde:
Syy = b Sxy + SSE
o bien, haciendo
SST = Syy
SSR = b Sxy
tenemos:
SST = SSR + SSE
Hemos descompuesto la variacin total de la variable dependiente en dos componentes ms
significativas para el experimentador.
SST = Suma total corregida de los cuadrados
SSR = Suma de los cuadrados de regresin. Refleja la cantidad de variacin de los
valores de y explicados por el modelo, por la lnea recta en este caso.
SSE = Suma de los cuadrados del error residual. Refleja la variacin alrededor de la
lnea de regresin. Inexplicada por la recta de regresin.
Estamos entonces interesados en probar la hiptesis:
La hiptesis nula afirma que el modelo es
H0 : = 0
H1 : 0
Tema 8
SSR
SSR
MSR SSR
f=
= 1 =
= 2
SSE
SSE
MSE
s
: (n 2)
(n 2)
2
2
:1
Suma de
cuadrados
Grados de
libertad
Regresin
SSR = b Sxy
Error
n-2
Total
SST = Syy
n-1
Cuadrados medios
Estadstico
calculado
MSR = SSR/1
MSE = SSE/n-2
f = MSR/MSE
xy =
cov(X,Y)
cov(X,Y)
=
VAR(X)VAR(Y)
x y
donde, como sabemos, cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y]
Si valores pequeos de x estn asociados a valores pequeos de y, y valores grandes de x estn
asociados a valores grandes de y, entonces (X - E[X]) y (Y - E[Y]) tendrn el mismo signo, y por
tanto (X - E[X]) (Y - E[Y]) >0 cov(X,Y) >0
Anlogamente si valores pequeos de x estn asociados a valores grandes de y, y valores grandes de
x estn asociados a valores pequeos de y, entonces (X - E[X]) y (Y - E[Y]) tendrn distinto signo, y
por tanto (X - E[X]) (Y - E[Y]) <0 cov(X,Y) <0
Este estadstico slo toma valores entre comprendidos entre -1 y 1, aunque no lo vamos a demostrar
Tema 8
( |xy| 1).
El valor del coeficiente de correlacin poblacional xy es cero cuando = 0, lo cual ocurre
esencialmente cuando no hay regresin lineal, es decir, la recta de regresin es horizontal y
cualquier conocimiento de X no es til para predecir Y.
Los valores de xy = 1 slo ocurren cuando se tiene una regresin lineal perfecta entre las dos
variables. Entonces, un valor xy = +1 implica una relacin lineal perfecta con una pendiente positiva,
mientras que un valor de xy = -1 resulta en una relacin lineal perfecta con una pendiente negativa.
Valores de xy cercanos a la unidad en magnitud, implican buena correlacin o asociacin lineal entre
X e Y, mientras que valores cercanos a cero, implican poca o ninguna correlacin (que no es lo mismo
que que las variables sean independientes).
xy = 0 X, Y estn incorreladas, que no implica que X e Y sean independientes.
xy = 0
X,Y incorreladas: puntos al azar
xy = 0
X,Y incorreladas: relacionadas no linealmente
xy = +1
xy = -1
Volvemos a encontrarnos con el problema de siempre: cov(X,Y), V(X) y V(Y) son parmetros
poblacionales que sern, en general, desconocidos y habr que estimarlos, con lo que tampoco
conoceremos el valor de xy, sino el de su estimacin:
xy = rxy
cov(x, y) = E [X .Y ] E [ X ]E [Y ]
cov(x, y) =
cov(x, y) =
1 n
1 n 1 n
y
xi y i
xi i n
n i =1
i =1
n i =1
n
i =1
i =1
2
i =1
n xi y i - x i y i
n
S xy
n
Tema 8
1 n 2 1 n 2
2
=
V
(x)
=
xi
x
xi - n
n i =1
i =1
1 n 2 1 n 2
2
=
V
(y)
=
y
y - yi
n i =1 i n i =1
n
n x - xi
i =1
i =1 = S xx
2 x =
2
n
n
n
n
n y - yi
i =1
i =1 = S yy
2 y =
2
n
n
n
2
i
S xy
xy = r xy =
S xx S yy
=b
2
i
S xx
S yy
donde rxy es el coeficiente de correlacin muestral, que tiene el mismo signo que b, es decir, una
correlacin positiva (negativa) implica una recta de regresin con pendiente positiva (negativa) y
viceversa. Una vez conocido esto, podemos calcular:
2
2
xy
r =
S xy
S xx S yy
SSR
S yy
SSE = S yy - b S xy
SSE
S yy
SSE
= 1- b
S xy
S xy
como b =
S yy
S xx
2
S xy
= 1 - r 2xy
S yy
S xx S yy
SSE S yy - SSE SSR
2
=
=
r xy = 1 S yy
S yy
S yy
= 1-
r2xy * 100 % es el porcentaje de la variacin total de Y que puede ser explicado por la recta de
regresin o que es atribuible a la relacin lineal entre X e Y.
Un valor de r2xy = 0.89, indica que aproximadamente el 89% de la variacin de los valores de Y se
deben a una relacin lineal con X.
Se puede realizar otro contraste de hiptesis equivalente al de = 0 con el coeficiente de
correlacin, para ver si es apropiado el mtodo de regresin lineal.
H0: xy = 0 (No es buena la regresin lineal)
H1: xy 0
El estadstico del contraste es:
t=
r xy n - 2
1- r
2
xy
que bajo H0, sigue una distribucin t de Student con n - 2 grados de libertad.
10
Tema 8
EJERCICIO EJEMPLO
Estamos midiendo la relacin entre la altura (X) y la longitud (Y) de la concha de cierta especie de
lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares
de mediciones como estas:
X
0.9
1.5
...
2.7
3.1
3.6
...
6.3
i=1 xi y i= 311.96
n
i=1 yi = 832.85
n = 28
Se pide calcular:
a) Coeficiente de correlacin y recta de regresin de Y sobre X
b) Es vlido el modelo lineal?. Justificar la respuesta.
c) Intervalo de confianza al 90% de la longitud promedio de las lapas cuya altura es 2.
d) Intervalo de confianza al 95% de la longitud de una lapa de altura 2.
NOTA: Para los intervalos de confianza, tmese = 0.01
SOLUCION
a)
2
Luego el 77.85% de la variacin de Y puede ser atribuida a su asociacin lineal creciente (rxy > 0) con
X
b) La cuestin que se nos plantea en este apartado es Es suficiente la cantidad r2xy obtenida en el
apartado anterior?. Para averiguarlo realizamos el contraste:
H0: = 0
H1: 0
para el que se realiza el siguiente anlisis de la varianza:
11
Tema 8
Suma de cuadrados
Grados
libertad
Cuadrados
medios
Regresin
Error
n-2 = 26
Total
n-1= 27
MSR = SSR/1 =
13.5843
Estadstico
calculado
f =MSR/MSE
f = 91.35
MSE = SSE/26 =
0.1487
t n-2 =
r xy n - 2
0.8823 26
4.499
= 9.56
0.4706
1 - 0.7785
1 - r2
R.C : t / | t |> t n- 2, = {t / | t |> t 26,0.025}= {t / | t |> 2.056}
9.56 pertenece a la regin crtica, luego se rechaza H0 y se considera vlido el modelo lineal.
c)
2
1 ( x0 - x )
I y/ x0 , = y 0 t n- 2, s
+
2
n
S xx
t n- 2, = t 26,0.05 = 1.706
2
x0 = 2
t n- 2, s
2
2
1 ( x0 - x )
= 1.706 * 0.3856 * 0.1892 = 0.1245
+
n
S xx
SSE 3.8654
=
= 0.1487 s = 0.3856
n-2
26
( x0 - x )2
2
= 0.000088
( x0 - x ) = 0.000324
S xx
I y/ x0 ,0.1 = [5.2375, 5.4865]
x = 2.018 s 2 =
12
Tema 8
d)
2
1 ( x0 - x )
I y0 , = y 0 t n- 2, s 1 + +
2
n
S xx
t n- 2, = t 26,0.025 = 2.056
2
t n- 2,
1 (x - x)
s 1+ + 0
= 2.0566 * 0.3856 * 1.0177 = 0.807
n
S xx
para = 95%
1 (x - x)
I y0 , = y 0 t n- 2, s 1 + + 0
2
n
S xx
t n- 2, = t 26,0.05 = 1.706
2
2
1 ( x0 - x )
= 1.706 * 0.3856 * 1.0177 = 0.6695
t n- 2, s 1 + +
2
n
S xx
para = 90%
13