Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion PDF
Regresion PDF
) Tema 8
Tema 8
REGRESION Y CORRELACION
1.- Introduccin al problema de la regresin:
En la prctica es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de
alguna forma de la/s variable/s de entrada al mismo. La mayor parte de las veces, se tiene una nica
variable de salida o respuesta (dependiente) Y, que no se controla en el experimento y que es por
tanto una variable aleatoria, mientras que se pueden tener una o varias variables de entrada
(independientes) X1, X2, ..., Xk, que pueden o no estar controladas por el investigador, aunque lo ms
comn es que estn perfectamente controladas y por tanto no puedan considerarse del todo
aleatorias y no tengan propiedades distribucionales.
Dada esta situacin el problema de la regresin consiste en encontrar una relacin entre la variable
dependiente Y el conjunto de variables independientes Xi (Y=f(X1,X2,...,Xk)) que aproxime a la relacin
que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir
valores de Y, a partir de los valores de Xi.
Segn que la variable de salida dependa de una o varias variables de entrada, hablaremos de
regresin SIMPLE (la que vamos a tratar nosotros) o regresin MULTIPLE respectivamente.
Adems podemos distinguir, dependiendo de la forma que presente la funcin que relaciona las
variables, entre regresin LINEAL (la funcin es una recta), regresin PARABLICA, regresin
HIPERBLICA, etc ...
Consideramos un conjunto {(xi,yi), i =1,2,...n} de n mediciones: y1, ..., yn de una variable respuesta Y, las
cuales se han observado bajo unas condiciones experimentales que representan los valores de la
variable de prediccin X: x1, x2, ... xn
Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y
varen, ya que el valor yi en el par ordenado (xi,yi) es el valor de una variable aleatoria. Se define Y/x
como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por
Y/x y 2Y/x, respectivamente.
Ejemplo:
Dosis inicial de droga (X) Cantidad de droga a los 5 minutos (Y)
0.05 0.01
0.05 0.02
0.05 0.00
0.10 0.05
0.10 0.01
0.20 0.15
1
Probabilidad y Estadstica (I.I.) Tema 8
Supongamos que se administra una cantidad X=x de droga. Cul ser la prediccin ptima del valor
que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (Y/x).
Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga
a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a
los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para
cada valor de x existe una distribucin de cantidad de droga a los 5 minutos y lo que se busca es la
media de esa distribucin, dado x.
Es importante hacer notar que en la regresin slo puede asociarse un valor de Y con uno de
prediccin x; no es posible establecer una relacin causa-efecto entre las Y y las x, ya que un cambio
en las x no causar uno correspondiente en la variable respuesta. De manera obvia, existe una
relacin entre la altura y el peso de una persona, pero implica esta relacin que pueda cambiar la
altura de las personas si se modifica su peso?.
El inters recae en determinar una funcin matemtica sencilla f(x) = Y/x, por ejemplo un polinomio,
que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la funcin
que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta.
El primer paso que daremos ser determinar el modelo o funcin matemtica que se va a utilizar. Un
procedimiento sencillo para seleccionar el modelo de regresin a utilizar, consiste en graficar la
variable respuesta contra la variable de prediccin. Si la grfica revela una tendencia lineal, deber
suponerse un modelo de regresin lineal.
El lugar geomtrico de los puntos (x, Y/x)) recibe el nombre de curva de regresin poblacional, y no
es ms que la representacin grfica de la funcin f(x) que aproxima a la relacin entre las variables.
Estas curvas de regresin son curvas de prediccin ideales, que usualmente no conocemos.
Obsrvese que Y/x es un parmetro, la media de la v. a. Y/x que, en principio habra que estimar a
partir de los datos muestrales de que disponemos.
Y
y/x=+x
x1 x2 x3 x4 x5 x6
2
Probabilidad y Estadstica (I.I.) Tema 8
Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parmetros
que intervienen en el mismo.
La REGRESIN LINEAL SIMPLE implica que Y/x est linealmente relacionado con x por la ecuacin
de regresin lineal poblacional donde los coeficientes de regresin y son parmetros que deben
estimarse a partir de los datos muestrales:
Y/x = + x con y R y 0
Lo que s podemos conocer a partir de los datos muestrales es la ecuacin de regresin lineal
ajustada, que es el resultado de estimar los parmetros de la expresin anterior, donde las
estimaciones a y b representan la interseccin y la pendiente de y respectivamente:
Una tcnica muy aceptable para estimar los parmetros de la ecuacin es el mtodo de los mnimos
cuadrados, que pasamos a estudiar.
Al utilizar el modelo de regresin lineal, hemos definido cada variable aleatoria Yi=Y/xi de la
siguiente forma:
Yi = Y/xi + Ei = + xi + Ei
donde Ei es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que
para cada observacin yi de Yi, (xi,yi), toma un valor i
Cuando usamos la lnea de regresin ajustada y = a + bx cada par de observaciones (xi,yi) satisface:
y i = a + bxi + ei
donde ei es el error residual (distancia vertical que existe entre el valor observado en el punto i de
los datos y el valor ajustado mediante la recta de regresin, ei = y i y i )
Dibujando sobre el diagrama de dispersin las lneas de regresin real y ajustada y los dos tipos de
errores, obtenemos:
Y (xi,yi)
y=a+bx
ei
i
y/x=+x
3
Probabilidad y Estadstica (I.I.) Tema 8
Siendo {(xi,,yi ), i = 1,2, ..., n} la nube de puntos observada. Se encontrarn a y b con objeto de
minimizar:
2 2
SSE = in=1ei 2= in=1 ( y i - y i ) = in=1 ( y i - a - b xi )
Diferenciando SSE con respecto a a y b, se tiene:
SSE
= -2 in=1( yi - a - b xi ) xi
b
SSE
= -2 in=1( y i - a - b xi )
a
Al igualar las derivadas parciales a cero y reacomodar los trminos, se obtienen las ecuaciones
siguientes (llamadas ecuaciones normales):
... ...
xn Yn
donde cada Yi = Y/xi es una variable aleatoria, cuya media viene dada por: Y/xi = + xi que se
estima por: yi = a + bxi, siendo a y b las estimaciones puntuales de los parmetros y .
Adems de estimar la relacin lineal entre x e y para propsitos de prediccin, se puede tambin
estar interesado en la realizacin de inferencias acerca de su pendiente y el punto de interseccin.
Yi N( Y/xi = + xi , 2 )
SSE S yy - b S xy
2 = s 2 = =
n-2 n-2
SSE
por tanto s =
n-2
donde:
n 2
Syy es una medida de la variabilidad de y y viene dada por: S yy = i=1( yi - y )
probabilidad /2.
Contraste de Hiptesis = 0
H0 : = 0 H0 : 0 H0 : 0
H1 : 0 H1 : > 0 H1 : < 0
b - 0 R.C. = {tb / | tb |> t/2 , n 2}
tb =
s R.C. = {tb / tb > t , n 2}
S xx R.C. = {tb / tb < t , n 2}
Un intervalo de confianza del (1-) 100% para el parmetro en la lnea de regresin Y/xi = + xi
es:
n 2 n 2
t/2 s i=1 xi t/2 s i=1 xi
a- < < a +
n S xx n S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad.
NOTA:
El del nivel de significacin y el del parmetro de la lnea de regresin son diferentes.
Contraste de Hiptesis = 0
Para probar la hiptesis nula H0 de que = 0 en contra de la alternativa apropiada, de nuevo se
utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.
H 0 : = 0 H 0 : 0 H 0 : 0
H 1 : 0 H 1 : > 0 H 1 : < 0
a -0 R.C. = {t a / | t a |> t/2 , n 2}
ta = 2
R.C. = {t a / t a > t , n 2}
s in=1 xi
n S xx R.C. = {t a / t a < t , n 2}
5.- Prediccin:
Se esperara que el error de prediccin fuera ms grande cuando se pronostica un valor que cuando
se predice una media. Esto afectar la amplitud de los intervalos para los valores que se pronostican.
6
Probabilidad y Estadstica (I.I.) Tema 8
Por tanto, lo que en estimacin puntual se haca igual para ambos casos, en estimacin por intervalos,
da lugar a dos intervalos diferentes.
Un intervalo de confianza del (1-) 100% para la respuesta media Y/x0 es:
2 2
1 ( x0 - x ) 1 ( x0 - x )
y 0 - t/2 s + < Y < y 0 + t/2 s +
n S xx x0 n S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad.
Un intervalo de prediccin del (1-) 100% para una sola respuesta y0 es:
2 2
1 ( -x) 1 ( -x)
y 0 - t/2 s 1 + + x0 < Y < y 0 + t/2 s 1 + + x0
n S xx x0 n S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad.
Hasta ahora el mtodo que tenamos de saber cundo era conveniente suponer que la relacin entre
las variables era lineal, era slo mediante el diagrama de dispersin. Pero ya en su momento
habamos comentado que este argumento era muy dbil y que existan otros mtodos de saberlo.
Bsicamente son dos los mtodos de averiguarlo.
Supngase que se tienen n puntos de datos experimentales en la forma usual (xi,yi) y que se estima la
lnea de regresin ajustada. Habamos obtenido SSE = Syy - b Sxy, de donde:
Syy = b Sxy + SSE
o bien, haciendo SST = Syy
SSR = b Sxy
tenemos:
SST = SSR + SSE
H0 : = 0
Estamos entonces interesados en probar la hiptesis:
H1 : 0
La hiptesis nula afirma que el modelo es Y/x = , es decir, que las variaciones de y son
7
Probabilidad y Estadstica (I.I.) Tema 8
Bajo las condiciones de la hiptesis nula, puede demostrarse que SSR/2 y SSE/2 son valores de
variables independientes 2 con 1 y n-2 grados de libertad respectivamente, y SST/2 tambin es un
valor de variable 2 con n-1 grados de libertad.
SSR SSR
:1
2 MSR SSR
f= = 1 = = 2
SSE SSE MSE s
: (n 2)
2 (n 2)
y se rechaza H0 con un nivel de significacin cuando f > F , (1, n-2).
Este mtodo consiste en calcular un estadstico, cuyo valor nos indicar si se puede considerar
aceptable o no el modelo de regresin lineal. Por estar basado en el coeficiente de correlacin
empezaremos explicando la CORRELACION.
El anlisis de CORRELACION intenta medir la fuerza de la relacin lineal entre dos variables, por
medio de un simple nmero que recibe el nombre de coeficiente de correlacin de Pearson, y viene
dado por:
cov(X,Y) cov(X,Y)
xy = =
VAR(X)VAR(Y) x y
donde, como sabemos, cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y]
Este estadstico slo toma valores entre comprendidos entre -1 y 1, aunque no lo vamos a demostrar
8
Probabilidad y Estadstica (I.I.) Tema 8
( |xy| 1).
El valor del coeficiente de correlacin poblacional xy es cero cuando = 0, lo cual ocurre
esencialmente cuando no hay regresin lineal, es decir, la recta de regresin es horizontal y
cualquier conocimiento de X no es til para predecir Y.
Los valores de xy = 1 slo ocurren cuando se tiene una regresin lineal perfecta entre las dos
variables. Entonces, un valor xy = +1 implica una relacin lineal perfecta con una pendiente positiva,
mientras que un valor de xy = -1 resulta en una relacin lineal perfecta con una pendiente negativa.
Valores de xy cercanos a la unidad en magnitud, implican buena correlacin o asociacin lineal entre
X e Y, mientras que valores cercanos a cero, implican poca o ninguna correlacin (que no es lo mismo
que que las variables sean independientes).
xy = 0 xy = 0
X,Y incorreladas: puntos al azar X,Y incorreladas: relacionadas no linealmente
xy = +1 xy = -1
Volvemos a encontrarnos con el problema de siempre: cov(X,Y), V(X) y V(Y) son parmetros
poblacionales que sern, en general, desconocidos y habr que estimarlos, con lo que tampoco
conoceremos el valor de xy, sino el de su estimacin: xy = rxy
cov(x, y) = E [X .Y ] E [ X ]E [Y ]
1 n 1 n 1 n
cov(x, y) = xi i n
n i =1
y -
i =1
xi y i
n i =1
n n n
n xi y i - x i y i
i =1 i =1 i =1 S xy
cov(x, y) = 2
=
n n
9
Probabilidad y Estadstica (I.I.) Tema 8
1 n 2 1 n 2 1 n 2 1 n 2
x
2
= V(x) = xi - n
n i =1 i =1
xi
y
2
= V(y) = y - yi
n i =1 i n i =1
2 2
n
n n
n
n x - xi
2
i n y - yi
2
i
i =1 i =1 = S xx i =1 i =1 = S yy
2 x = 2 2 y = 2
n n n n
S xy S xx
xy = r xy = =b
S xx S yy S yy
donde rxy es el coeficiente de correlacin muestral, que tiene el mismo signo que b, es decir, una
correlacin positiva (negativa) implica una recta de regresin con pendiente positiva (negativa) y
viceversa. Una vez conocido esto, podemos calcular:
2
2 S xy SSR
r =
xy =
S xx S yy S yy
que recibe el nombre de coeficiente de determinacin muestral y representa la proporcin de la
variacin de Syy explicada por la regresin de Y en X, es decir, SSR.
SSE = S yy - b S xy
SSE S xy S xy
= 1- b como b =
S yy S yy S xx
2
SSE S xy
= 1- = 1 - r 2xy
S yy S xx S yy
2 SSE S yy - SSE SSR
r xy = 1 - = =
S yy S yy S yy
r2xy * 100 % es el porcentaje de la variacin total de Y que puede ser explicado por la recta de
regresin o que es atribuible a la relacin lineal entre X e Y.
Un valor de r2xy = 0.89, indica que aproximadamente el 89% de la variacin de los valores de Y se
deben a una relacin lineal con X.
10
Probabilidad y Estadstica (I.I.) Tema 8
EJERCICIO EJEMPLO
Estamos midiendo la relacin entre la altura (X) y la longitud (Y) de la concha de cierta especie de
lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares
de mediciones como estas:
SOLUCION
a)
2 2
n in=1 xi2-( in=1 xi ) 28(117.68) - (56.5 )
S xx = = = 3.6711
n 28
n in=1 y i2-( in=1 yi )2 28(832.85) - (151.1 )2
S yy = = = 17.4496
n 28
n in=1 xi y i -( in=1 xi )( in=1 yi ) 28(311.96) - (56.5)(151.1)
S xy = = = 7.0618
n 28
S xy
b = = = 1.9236 S xy
S xx r xy = = 0.8823
n S xx S yy
y x
n
a = = y - b x = i=1 i - b i=1 i = 1.5148 2
r xy = 0.7785
n n
y = a + bx = 1.5148 + 1.9236 x
Luego el 77.85% de la variacin de Y puede ser atribuida a su asociacin lineal creciente (rxy > 0) con
X
b) La cuestin que se nos plantea en este apartado es Es suficiente la cantidad r2xy obtenida en el
apartado anterior?. Para averiguarlo realizamos el contraste:
H0: = 0
H1: 0
11
Probabilidad y Estadstica (I.I.) Tema 8
como 91.35 cae dentro de la regin crtica, se rechaza H0, por lo que se acepta como vlido el modelo
lineal.
r xy n - 2 0.8823 26 4.499
t n-2 = = = = 9.56
1 - r2 1 - 0.7785 0.4706
{ }
R.C : t / | t |> t n- 2, = {t / | t |> t 26,0.025}= {t / | t |> 2.056}
2
9.56 pertenece a la regin crtica, luego se rechaza H0 y se considera vlido el modelo lineal.
c)
1 ( x0 - x )
2
I y/ x0 , = y 0 t n- 2, s +
2 n S xx
2
1 ( x0 - x )
t n- 2, = t 26,0.05 = 1.706 t n- 2, s + = 1.706 * 0.3856 * 0.1892 = 0.1245
2 2 n S xx
x0 = 2 y 0 = 1.5148 + 1.9236 * 2 = 5.362
SSE 3.8654
x = 2.018 s 2 = = = 0.1487 s = 0.3856
n-2 26
2 ( x0 - x )2
( x0 - x ) = 0.000324 = 0.000088
S xx
I y/ x0 ,0.1 = [5.2375, 5.4865]
12
Probabilidad y Estadstica (I.I.) Tema 8
d)
1 ( x0 - x )
2
I y0 , = y 0 t n- 2, s 1 + +
2 n S xx
t n- 2, = t 26,0.025 = 2.056
2
2
1 (x - x)
t n- 2, s 1+ + 0 = 2.0566 * 0.3856 * 1.0177 = 0.807
2 n S xx
para = 95%
2
1 ( x0 - x )
t n- 2, s 1 + + = 1.706 * 0.3856 * 1.0177 = 0.6695
2 n S xx
para = 90%
I y0 ,0.1 = [4.6925, 6.032]
13