Regresion PDF

Probabilidad y Estadstica (I.I.
) Tema 8
Tema 8
REGRESION Y CORRELACION
1.- Introduccin al problema de la regresin:
En la prctica es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de
alguna forma de la/s variable/s de entrada al mismo. La mayor parte de las veces, se tiene una nica
variable de salida o respuesta (dependiente) Y, que no se controla en el experimento y que es por
tanto una variable aleatoria, mientras que se pueden tener una o varias variables de entrada
(independientes) X1, X2, ..., Xk, que pueden o no estar controladas por el investigador, aunque lo ms
comn es que estn perfectamente controladas y por tanto no puedan considerarse del todo
aleatorias y no tengan propiedades distribucionales.
Dada esta situacin el problema de la regresin consiste en encontrar una relacin entre la variable
dependiente Y el conjunto de variables independientes Xi (Y=f(X1,X2,...,Xk)) que aproxime a la relacin
que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir
valores de Y, a partir de los valores de Xi.
Segn que la variable de salida dependa de una o varias variables de entrada, hablaremos de
regresin SIMPLE (la que vamos a tratar nosotros) o regresin MULTIPLE respectivamente.
Adems podemos distinguir, dependiendo de la forma que presente la funcin que relaciona las
variables, entre regresin LINEAL (la funcin es una recta), regresin PARABLICA, regresin
HIPERBLICA, etc ...
En el anlisis de regresin deberemos contemplar los siguientes cuatro aspectos:

Determinar interrelacin entre variables (test de independencia, etc ...)
Determinar tipo de funcin matemtica que relaciona ptimamente las variables
(representacin grfica).
Calcular parmetros de dicha funcin matemtica y determinar bondad de ajuste.
Realizar predicciones de la variable dependiente a partir de la independiente.
2.- Regresin simple:
En este caso concreto, consideramos la existencia de una nica variable de prediccin X.
Consideramos un conjunto {(xi,yi), i =1,2,...n} de n mediciones: y1, ..., yn de una variable respuesta Y, las
cuales se han observado bajo unas condiciones experimentales que representan los valores de la
variable de prediccin X: x1, x2, ... xn
Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y
varen, ya que el valor yi en el par ordenado (xi,yi) es el valor de una variable aleatoria. Se define Y/x
como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por
Y/x y 2Y/x, respectivamente.
Ejemplo:
Dosis inicial de droga (X) Cantidad de droga a los 5 minutos (Y)
0.05 0.01
0.05 0.02
0.05 0.00
0.10 0.05
0.10 0.01
0.20 0.15
1
Probabilidad y Estadstica (I.I.) Tema 8
Supongamos que se administra una cantidad X=x de droga. Cul ser la prediccin ptima del valor
que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (Y/x).
Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga
a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a
los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para
cada valor de x existe una distribucin de cantidad de droga a los 5 minutos y lo que se busca es la
media de esa distribucin, dado x.
Es importante hacer notar que en la regresin slo puede asociarse un valor de Y con uno de
prediccin x; no es posible establecer una relacin causa-efecto entre las Y y las x, ya que un cambio
en las x no causar uno correspondiente en la variable respuesta. De manera obvia, existe una
relacin entre la altura y el peso de una persona, pero implica esta relacin que pueda cambiar la
altura de las personas si se modifica su peso?.
El inters recae en determinar una funcin matemtica sencilla f(x) = Y/x, por ejemplo un polinomio,
que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la funcin
que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta.
El primer paso que daremos ser determinar el modelo o funcin matemtica que se va a utilizar. Un
procedimiento sencillo para seleccionar el modelo de regresin a utilizar, consiste en graficar la
variable respuesta contra la variable de prediccin. Si la grfica revela una tendencia lineal, deber
suponerse un modelo de regresin lineal.
Aplicar regresin LINEAL Aplicar regresin EXPONENCIAL
El lugar geomtrico de los puntos (x, Y/x)) recibe el nombre de curva de regresin poblacional, y no
es ms que la representacin grfica de la funcin f(x) que aproxima a la relacin entre las variables.
Estas curvas de regresin son curvas de prediccin ideales, que usualmente no conocemos.
Obsrvese que Y/x es un parmetro, la media de la v. a. Y/x que, en principio habra que estimar a
partir de los datos muestrales de que disponemos.
Y
y/x=+x
x1 x2 x3 x4 x5 x6
2
Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parmetros
que intervienen en el mismo.
La REGRESIN LINEAL SIMPLE implica que Y/x est linealmente relacionado con x por la ecuacin
de regresin lineal poblacional donde los coeficientes de regresin y son parmetros que deben
estimarse a partir de los datos muestrales:
Y/x = + x con y R y 0
Lo que s podemos conocer a partir de los datos muestrales es la ecuacin de regresin lineal
ajustada, que es el resultado de estimar los parmetros de la expresin anterior, donde las
estimaciones a y b representan la interseccin y la pendiente de y respectivamente:
Y/x= + x llamando y = Y/x y = a + bx

a = b =
Un conjunto de datos podr dar evidencia de linealidad sobre los valores de x cubiertos por dicho
conjunto. Para valores de X ms all de la zona cubierta por los datos no tendremos nunca evidencia
de linealidad.
No se debe usar nunca la recta de regresin ajustada para predecir valores de Y

correspondientes a valores de X fuera del rango cubierto por los datos.
Una tcnica muy aceptable para estimar los parmetros de la ecuacin es el mtodo de los mnimos
cuadrados, que pasamos a estudiar.
3.- Mtodo de los mnimos cuadrados:
Al utilizar el modelo de regresin lineal, hemos definido cada variable aleatoria Yi=Y/xi de la
siguiente forma:
Yi = Y/xi + Ei = + xi + Ei
donde Ei es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que
para cada observacin yi de Yi, (xi,yi), toma un valor i
Cuando usamos la lnea de regresin ajustada y = a + bx cada par de observaciones (xi,yi) satisface:
y i = a + bxi + ei
donde ei es el error residual (distancia vertical que existe entre el valor observado en el punto i de
los datos y el valor ajustado mediante la recta de regresin, ei = y i y i )
Dibujando sobre el diagrama de dispersin las lneas de regresin real y ajustada y los dos tipos de
errores, obtenemos:
Y (xi,yi)
y=a+bx
ei
i
y/x=+x
3
Se encontrarn a y b, estimaciones de y , de tal forma que la suma de los cuadrados de los

residuos sea mnima. Con frecuencia, la suma de los cuadrados de los residuos recibe el nombre de
suma de los cuadrados de los errores alrededor de la lnea de regresin y se representa por SSE.
Este procedimiento de minimizacin para estimar los parmetros se llama mtodo de los mnimos
cuadrados.
Siendo {(xi,,yi ), i = 1,2, ..., n} la nube de puntos observada. Se encontrarn a y b con objeto de
minimizar:
2 2
SSE = in=1ei 2= in=1 ( y i - y i ) = in=1 ( y i - a - b xi )
Diferenciando SSE con respecto a a y b, se tiene:
SSE
= -2 in=1( yi - a - b xi ) xi
b
SSE
= -2 in=1( y i - a - b xi )
a
Al igualar las derivadas parciales a cero y reacomodar los trminos, se obtienen las ecuaciones
siguientes (llamadas ecuaciones normales):
na + b in=1 xi= in=1 yi

a in=1 xi+b in=1 xi 2 = in=1 xi y i
las cuales se pueden resolver simultneamente (por Cramer) para dar las frmulas de clculo de a y
b:
n in=1 xi y i -( in=1 xi )( in=1 yi )

=b=
n in=1 xi 2 -( in=1 xi )2
n n
y -b i=1 xi
= a = i=1 i = y - bx
n
4.- Propiedades de los estimadores de mnimos cuadrados:
Partimos de un conjunto de datos:

X Y
x1 Y1
x2 Y2
... ...
xn Yn
donde cada Yi = Y/xi es una variable aleatoria, cuya media viene dada por: Y/xi = + xi que se
estima por: yi = a + bxi, siendo a y b las estimaciones puntuales de los parmetros y .
Adems de estimar la relacin lineal entre x e y para propsitos de prediccin, se puede tambin
estar interesado en la realizacin de inferencias acerca de su pendiente y el punto de interseccin.
Para realizar pruebas de hiptesis y la determinacin de intervalos de confianza de y , se debe

hacer la suposicin adicional de que cada Yi est normalmente distribuida, son todas independientes y
4
su varianza es la misma para todas y viene dada por 2. Por tanto:
Yi N( Y/xi = + xi , 2 )
Una estimacin insesgada de esta varianza 2 viene dada por:
SSE S yy - b S xy
2 = s 2 = =
n-2 n-2
SSE
por tanto s =
n-2
donde:
SSE es una medida de la variabilidad de las observaciones yi en torno a la recta de regresin

estimada.
SSE = in=1( y i - a - b xi )2 como a = y - b x
SSE = in=1( y i - ( y - b x ) - b xi )2
SSE = in=1( y i - y )2 -2b in=1( xi - x )( y i - y )+ b2 in=1( xi - x )2
SSE = S yy - 2b S xy + b2 S xx
SSE = S yy - b S xy
n 2
Sxx es una medida de la variabilidad de x y viene dada por: S xx = i=1( xi - x )
n 2
Syy es una medida de la variabilidad de y y viene dada por: S yy = i=1( yi - y )
Sxy es una medida de la variabilidad conjunta de x e y y viene dada por: n

S xy = i=1( xi - x )( yi - y )
La b de la ecuacin de la recta de regresin ajustada podra entonces ponerse en funcin de Sxy y Sxx
como:
S xy
b=
S xx
Bajo estas suposiciones de
independencia, normalidad y b- a -
homocedasticidad del modelo, t b = ta = 2
se cumple que los estadsticos: s n
xi
S xx
s
i =1 n S xx
se distribuyen aproximadamente segn una t de Student con n-2 grados de libertad.
Intervalo de Confianza para
Un intervalo de confianza del (1 - ) 100% para el parmetro en la lnea de regresin Y/xi = + xi

es:
t/2 s t/2 s
b- < <b+
S xx S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad, que deja a su derecha una
5
probabilidad /2.
Contraste de Hiptesis = 0
Para probar la hiptesis nula H0 de que = 0 en contra de la alternativa apropiada, de nuevo se

utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.
H0 : = 0 H0 : 0 H0 : 0
H1 : 0 H1 : > 0 H1 : < 0
b - 0 R.C. = {tb / | tb |> t/2 , n 2}
tb =
s R.C. = {tb / tb > t , n 2}
S xx R.C. = {tb / tb < t , n 2}
Intervalo de Confianza para
Un intervalo de confianza del (1-) 100% para el parmetro en la lnea de regresin Y/xi = + xi
es:
n 2 n 2
t/2 s i=1 xi t/2 s i=1 xi
a- < < a +
n S xx n S xx
donde t/2 es un valor de la distribucin t con n-2 grados de libertad.
NOTA:
El del nivel de significacin y el del parmetro de la lnea de regresin son diferentes.
Contraste de Hiptesis = 0
Para probar la hiptesis nula H0 de que = 0 en contra de la alternativa apropiada, de nuevo se
utiliza la distribucin t con n-2 grados de libertad para establecer la regin crtica.
H 0 : = 0 H 0 : 0 H 0 : 0
H 1 : 0 H 1 : > 0 H 1 : < 0
a -0 R.C. = {t a / | t a |> t/2 , n 2}
ta = 2
R.C. = {t a / t a > t , n 2}
s in=1 xi
n S xx R.C. = {t a / t a < t , n 2}
5.- Prediccin:
La ecuacin y = a + b x puede utilizarse para pronosticar o predecir la respuesta media Y/x0 en x =

x0, donde x0 no es necesariamente uno de los valores preseleccionados, o puede utilizarse para
predecir un valor sencillo y0 de la variable Y0 cuando x = x0. Esto es, si X es el peso humano, e Y es la
estatura humana, podemos estar interesados en obtener un intervalo de confianza sobre la media
verdadera de estatura de los humanos Y/x0 en un peso elegido x0=70 kg; o bien podemos estar
interesados en un intervalo de confianza sobre una estatura individual Y0 en un peso elegido x0 = 70
kg.
Se esperara que el error de prediccin fuera ms grande cuando se pronostica un valor que cuando
se predice una media. Esto afectar la amplitud de los intervalos para los valores que se pronostican.
6
Por tanto, lo que en estimacin puntual se haca igual para ambos casos, en estimacin por intervalos,
da lugar a dos intervalos diferentes.
Intervalo de Confianza de Y/x0
Un intervalo de confianza del (1-) 100% para la respuesta media Y/x0 es:
2 2
1 ( x0 - x ) 1 ( x0 - x )
y 0 - t/2 s + < Y < y 0 + t/2 s +
n S xx x0 n S xx
Intervalo de Prediccin para Y0
Un intervalo de prediccin del (1-) 100% para una sola respuesta y0 es:
2 2
1 ( -x) 1 ( -x)
y 0 - t/2 s 1 + + x0 < Y < y 0 + t/2 s 1 + + x0
n S xx x0 n S xx
6.- Evaluacin de la intensidad de la relacin lineal
Hasta ahora el mtodo que tenamos de saber cundo era conveniente suponer que la relacin entre
las variables era lineal, era slo mediante el diagrama de dispersin. Pero ya en su momento
habamos comentado que este argumento era muy dbil y que existan otros mtodos de saberlo.
Bsicamente son dos los mtodos de averiguarlo.
Mtodo del Anlisis de la Varianza
Es un procedimiento que subdivide la variacin total de la variable dependiente Y en sus componentes

ms significativas.
Supngase que se tienen n puntos de datos experimentales en la forma usual (xi,yi) y que se estima la
lnea de regresin ajustada. Habamos obtenido SSE = Syy - b Sxy, de donde:
Syy = b Sxy + SSE
o bien, haciendo SST = Syy
SSR = b Sxy
tenemos:
SST = SSR + SSE
Hemos descompuesto la variacin total de la variable dependiente en dos componentes ms

significativas para el experimentador.
SST = Suma total corregida de los cuadrados
SSR = Suma de los cuadrados de regresin. Refleja la cantidad de variacin de los
valores de y explicados por el modelo, por la lnea recta en este caso.
SSE = Suma de los cuadrados del error residual. Refleja la variacin alrededor de la
lnea de regresin. Inexplicada por la recta de regresin.
H0 : = 0
Estamos entonces interesados en probar la hiptesis:
H1 : 0
La hiptesis nula afirma que el modelo es Y/x = , es decir, que las variaciones de y son
7
independientes de los valores de x y totalmente aleatorias. La hiptesis alternativa afirma, en

cambio, que una porcin significativa de la variacin de y se explica mediante el modelo de regresin
lineal de y sobre x.
Bajo las condiciones de la hiptesis nula, puede demostrarse que SSR/2 y SSE/2 son valores de
variables independientes 2 con 1 y n-2 grados de libertad respectivamente, y SST/2 tambin es un
valor de variable 2 con n-1 grados de libertad.
Para probar la hiptesis nula se usa el estadstico:
SSR SSR
:1
2 MSR SSR
f= = 1 = = 2
SSE SSE MSE s
: (n 2)
2 (n 2)
y se rechaza H0 con un nivel de significacin cuando f > F , (1, n-2).
Anlisis de la varianza para probar = 0
Fuente de Suma de Grados de Cuadrados medios Estadstico

variacin cuadrados libertad calculado
Regresin SSR = b Sxy 1 MSR = SSR/1
Error SSE = Syy - b Sxy n-2 MSE = SSE/n-2

f = MSR/MSE
Total SST = Syy n-1
Regin Crtica = [ F(1, n-2), , +)
Mtodo del Coeficiente de Determinacin
Este mtodo consiste en calcular un estadstico, cuyo valor nos indicar si se puede considerar
aceptable o no el modelo de regresin lineal. Por estar basado en el coeficiente de correlacin
empezaremos explicando la CORRELACION.
El anlisis de CORRELACION intenta medir la fuerza de la relacin lineal entre dos variables, por
medio de un simple nmero que recibe el nombre de coeficiente de correlacin de Pearson, y viene
dado por:
cov(X,Y) cov(X,Y)
xy = =
VAR(X)VAR(Y) x y
donde, como sabemos, cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y]
Si valores pequeos de x estn asociados a valores pequeos de y, y valores grandes de x estn

asociados a valores grandes de y, entonces (X - E[X]) y (Y - E[Y]) tendrn el mismo signo, y por
tanto (X - E[X]) (Y - E[Y]) >0 cov(X,Y) >0
Anlogamente si valores pequeos de x estn asociados a valores grandes de y, y valores grandes de

x estn asociados a valores pequeos de y, entonces (X - E[X]) y (Y - E[Y]) tendrn distinto signo, y
por tanto (X - E[X]) (Y - E[Y]) <0 cov(X,Y) <0
Este estadstico slo toma valores entre comprendidos entre -1 y 1, aunque no lo vamos a demostrar
8
( |xy| 1).
El valor del coeficiente de correlacin poblacional xy es cero cuando = 0, lo cual ocurre
esencialmente cuando no hay regresin lineal, es decir, la recta de regresin es horizontal y
cualquier conocimiento de X no es til para predecir Y.
Los valores de xy = 1 slo ocurren cuando se tiene una regresin lineal perfecta entre las dos
variables. Entonces, un valor xy = +1 implica una relacin lineal perfecta con una pendiente positiva,
mientras que un valor de xy = -1 resulta en una relacin lineal perfecta con una pendiente negativa.
Valores de xy cercanos a la unidad en magnitud, implican buena correlacin o asociacin lineal entre
X e Y, mientras que valores cercanos a cero, implican poca o ninguna correlacin (que no es lo mismo
que que las variables sean independientes).
xy = 0 X, Y estn incorreladas, que no implica que X e Y sean independientes.
xy = 0 xy = 0
X,Y incorreladas: puntos al azar X,Y incorreladas: relacionadas no linealmente
xy = +1 xy = -1
Volvemos a encontrarnos con el problema de siempre: cov(X,Y), V(X) y V(Y) son parmetros
poblacionales que sern, en general, desconocidos y habr que estimarlos, con lo que tampoco
conoceremos el valor de xy, sino el de su estimacin: xy = rxy
cov(x, y) = E [X .Y ] E [ X ]E [Y ]
1 n 1 n 1 n
cov(x, y) = xi i n
n i =1
y -
i =1
xi y i
n i =1
n n n
n xi y i - x i y i
i =1 i =1 i =1 S xy
cov(x, y) = 2
=
n n
9
1 n 2 1 n 2 1 n 2 1 n 2
x
2
= V(x) = xi - n
n i =1 i =1
xi

y
2
= V(y) = y - yi
n i =1 i n i =1
2 2
n
n n
n
n x - xi
2
i n y - yi
2
i
i =1 i =1 = S xx i =1 i =1 = S yy
2 x = 2 2 y = 2
n n n n
S xy S xx
xy = r xy = =b
S xx S yy S yy
donde rxy es el coeficiente de correlacin muestral, que tiene el mismo signo que b, es decir, una
correlacin positiva (negativa) implica una recta de regresin con pendiente positiva (negativa) y
viceversa. Una vez conocido esto, podemos calcular:
2
2 S xy SSR
r =
xy =
S xx S yy S yy
que recibe el nombre de coeficiente de determinacin muestral y representa la proporcin de la
variacin de Syy explicada por la regresin de Y en X, es decir, SSR.
SSE = S yy - b S xy
SSE S xy S xy
= 1- b como b =
S yy S yy S xx
2
SSE S xy
= 1- = 1 - r 2xy
S yy S xx S yy
2 SSE S yy - SSE SSR
r xy = 1 - = =
S yy S yy S yy
r2xy * 100 % es el porcentaje de la variacin total de Y que puede ser explicado por la recta de
regresin o que es atribuible a la relacin lineal entre X e Y.
Un valor de r2xy = 0.89, indica que aproximadamente el 89% de la variacin de los valores de Y se
deben a una relacin lineal con X.
Se puede realizar otro contraste de hiptesis equivalente al de = 0 con el coeficiente de

correlacin, para ver si es apropiado el mtodo de regresin lineal.
H0: xy = 0 (No es buena la regresin lineal)

H1: xy 0
El estadstico del contraste es:

r xy n - 2
t= siendo R.C. : t / | t |> t , n 2
1- r 2
xy
2
que bajo H0, sigue una distribucin t de Student con n - 2 grados de libertad.
10
EJERCICIO EJEMPLO
Estamos midiendo la relacin entre la altura (X) y la longitud (Y) de la concha de cierta especie de
lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares
de mediciones como estas:
X 0.9 1.5 ... 2.7
Y 3.1 3.6 ... 6.3
cuyas sumatorias son las siguientes:

n n n
i=1 xi= 56.5 i=1 yi= 151.1 i=1 xi y i= 311.96
n 2 n 2
i=1 xi = 117.68 i=1 yi = 832.85 n = 28
Se pide calcular:
a) Coeficiente de correlacin y recta de regresin de Y sobre X
b) Es vlido el modelo lineal?. Justificar la respuesta.
c) Intervalo de confianza al 90% de la longitud promedio de las lapas cuya altura es 2.
d) Intervalo de confianza al 95% de la longitud de una lapa de altura 2.
NOTA: Para los intervalos de confianza, tmese = 0.01
SOLUCION
a)
2 2
n in=1 xi2-( in=1 xi ) 28(117.68) - (56.5 )
S xx = = = 3.6711
n 28
n in=1 y i2-( in=1 yi )2 28(832.85) - (151.1 )2
S yy = = = 17.4496
n 28
n in=1 xi y i -( in=1 xi )( in=1 yi ) 28(311.96) - (56.5)(151.1)
S xy = = = 7.0618
n 28
S xy
b = = = 1.9236 S xy
S xx r xy = = 0.8823
n S xx S yy
y x
n
a = = y - b x = i=1 i - b i=1 i = 1.5148 2
r xy = 0.7785
n n
y = a + bx = 1.5148 + 1.9236 x
Luego el 77.85% de la variacin de Y puede ser atribuida a su asociacin lineal creciente (rxy > 0) con
X
b) La cuestin que se nos plantea en este apartado es Es suficiente la cantidad r2xy obtenida en el
apartado anterior?. Para averiguarlo realizamos el contraste:
H0: = 0
H1: 0
para el que se realiza el siguiente anlisis de la varianza:
11
Anlisis de la varianza para probar = 0
Fuente de Suma de cuadrados Grados Cuadrados Estadstico

variacin libertad medios calculado
Regresin SSR = bSxy = 13.5843 1 MSR = SSR/1 =

13.5843 f =MSR/MSE
f = 91.35
Error SSE = Syy - bSxy= 3.8654 n-2 = 26 MSE = SSE/26 =
0.1487
Total SST = Syy= 17.4496 n-1= 27
R.C = [ F (1, 26) ,0.05 , +) = [4.23, +)
como 91.35 cae dentro de la regin crtica, se rechaza H0, por lo que se acepta como vlido el modelo
lineal.
Otro contraste equivalente que poda haberse realizado es:

H0: xy = 0 (no es vlido)
H1: xy 0 (es vlido)
r xy n - 2 0.8823 26 4.499
t n-2 = = = = 9.56
1 - r2 1 - 0.7785 0.4706
{ }
R.C : t / | t |> t n- 2, = {t / | t |> t 26,0.025}= {t / | t |> 2.056}
2
9.56 pertenece a la regin crtica, luego se rechaza H0 y se considera vlido el modelo lineal.
c)
1 ( x0 - x )
2
I y/ x0 , = y 0 t n- 2, s +
2 n S xx
2
1 ( x0 - x )
t n- 2, = t 26,0.05 = 1.706 t n- 2, s + = 1.706 * 0.3856 * 0.1892 = 0.1245
2 2 n S xx
x0 = 2 y 0 = 1.5148 + 1.9236 * 2 = 5.362
SSE 3.8654
x = 2.018 s 2 = = = 0.1487 s = 0.3856
n-2 26
2 ( x0 - x )2
( x0 - x ) = 0.000324 = 0.000088
S xx
I y/ x0 ,0.1 = [5.2375, 5.4865]
12
d)
1 ( x0 - x )
2
I y0 , = y 0 t n- 2, s 1 + +

2 n S xx
t n- 2, = t 26,0.025 = 2.056
2
2
1 (x - x)

t n- 2, s 1+ + 0 = 2.0566 * 0.3856 * 1.0177 = 0.807
2 n S xx
para = 95%
I y0 ,0.05 = [4.555, 6.169]

1 (x - x)
2
I y0 , = y 0 t n- 2, s 1 + + 0
2 n S xx
t n- 2, = t 26,0.05 = 1.706
2
2
1 ( x0 - x )
t n- 2, s 1 + + = 1.706 * 0.3856 * 1.0177 = 0.6695
2 n S xx
para = 90%
I y0 ,0.1 = [4.6925, 6.032]
13

Regresion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion PDF

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadstica (I.I.

En el anlisis de regresin deberemos contemplar los siguientes cuatro aspectos:

2.- Regresin simple:

En este caso concreto, consideramos la existencia de una nica variable de prediccin X.

Aplicar regresin LINEAL Aplicar regresin EXPONENCIAL

Y/x= + x llamando y = Y/x y = a + bx

No se debe usar nunca la recta de regresin ajustada para predecir valores de Y

3.- Mtodo de los mnimos cuadrados:

Se encontrarn a y b, estimaciones de y , de tal forma que la suma de los cuadrados de los

na + b in=1 xi= in=1 yi

n in=1 xi y i -( in=1 xi )( in=1 yi )

4.- Propiedades de los estimadores de mnimos cuadrados:

Partimos de un conjunto de datos:

Para realizar pruebas de hiptesis y la determinacin de intervalos de confianza de y , se debe

su varianza es la misma para todas y viene dada por 2. Por tanto:

Una estimacin insesgada de esta varianza 2 viene dada por:

SSE es una medida de la variabilidad de las observaciones yi en torno a la recta de regresin

Sxy es una medida de la variabilidad conjunta de x e y y viene dada por: n

se distribuyen aproximadamente segn una t de Student con n-2 grados de libertad.

Intervalo de Confianza para

Un intervalo de confianza del (1 - ) 100% para el parmetro en la lnea de regresin Y/xi = + xi

Para probar la hiptesis nula H0 de que = 0 en contra de la alternativa apropiada, de nuevo se

Intervalo de Confianza para

La ecuacin y = a + b x puede utilizarse para pronosticar o predecir la respuesta media Y/x0 en x =

Intervalo de Confianza de Y/x0

Intervalo de Prediccin para Y0

6.- Evaluacin de la intensidad de la relacin lineal

Mtodo del Anlisis de la Varianza

Es un procedimiento que subdivide la variacin total de la variable dependiente Y en sus componentes

Hemos descompuesto la variacin total de la variable dependiente en dos componentes ms

independientes de los valores de x y totalmente aleatorias. La hiptesis alternativa afirma, en

Para probar la hiptesis nula se usa el estadstico:

Anlisis de la varianza para probar = 0

Fuente de Suma de Grados de Cuadrados medios Estadstico

Regresin SSR = b Sxy 1 MSR = SSR/1

Error SSE = Syy - b Sxy n-2 MSE = SSE/n-2

Regin Crtica = [ F(1, n-2), , +)

Mtodo del Coeficiente de Determinacin

Si valores pequeos de x estn asociados a valores pequeos de y, y valores grandes de x estn

Anlogamente si valores pequeos de x estn asociados a valores grandes de y, y valores grandes de

xy = 0 X, Y estn incorreladas, que no implica que X e Y sean independientes.

Se puede realizar otro contraste de hiptesis equivalente al de = 0 con el coeficiente de

H0: xy = 0 (No es buena la regresin lineal)

El estadstico del contraste es:

X 0.9 1.5 ... 2.7

Y 3.1 3.6 ... 6.3

cuyas sumatorias son las siguientes:

NOTA: Para los intervalos de confianza, tmese = 0.01

para el que se realiza el siguiente anlisis de la varianza:

Anlisis de la varianza para probar = 0

Fuente de Suma de cuadrados Grados Cuadrados Estadstico

Regresin SSR = bSxy = 13.5843 1 MSR = SSR/1 =

Total SST = Syy= 17.4496 n-1= 27

R.C = [ F (1, 26) ,0.05 , +) = [4.23, +)

Otro contraste equivalente que poda haberse realizado es:

I y0 ,0.05 = [4.555, 6.169]

También podría gustarte