Está en la página 1de 23

Estad stica II

Laura M. Castro Souto Segundo Cuatrimestre Curso 2000/2001

Modelos de Regresin o
Diferencias con el Dise o de Experimentos n Los modelos de regresin estudian relaciones numricas o e entre variables cuantitativas, mientras que en diseo de exn perimentos las variables explicativas (factores) son de carcter a cualitativo. El dise o de experimentos se usa bsicamente para exn a perimentar, esto es, una vez que se plantea el problema y se determinan los factores que pueden inuir, se disea el experin mento y se observan los resultados. En cambio, con los modelos de regresin es habitual observar el comportamiento de varias o variables para luego buscar relaciones funcionales entre las variables a partir de la muestra de observaciones multivariantes observadas (regresin en diseo aleatorio), aunque tambin o n e se pueden jar valores en las variables regresoras y experimentar para observar el comportamiento de la variable de inters e (regresin en diseo jo). o n Cuando estudiamos la relacin entre una variable de inters, o e variable respuesta (Y) y un conjunto de variables explicativas, variables regresoras (X1, X2,. . . ,Xk ) puede ocurrir: Que exista una relacin funcional entre ellas, en el sentido o de que el conocimiento de las variables regresoras determine completamente el valor que toma la variable respuesta, esto es: Y = f (X1, X2, . . . , Xk ) Por ejemplo, la distancia recorrida por un mvil que se mueve o a velocidad constante. Que no exista ninguna relacin entre la variable respuesta y o las variables regresoras, en el sentido de que el conocimiento

de stas no proporcione ninguna informacin sobre el compore o tamiento de la otra: Y = Ejemplo: el dinero que gana una persona alta. Variables que parece que tienen relacin pero no la tienen en realidad se o involucran en relaciones espreas. u El caso intermedio, que exista una relacin estocstica eno a tre la variable respuesta y las variables regresoras, en el sentido de que el conocimiento de stas nos permita predecir con mae yor o menor exactitud el valor de la variable respuesta. Siguen por tanto un modelo: Y = f (X1, X2, . . . , Xk ) + Estas ultimas son las relaciones que ocurren en la mayor de a las situaciones y que determinamos modelos de regresin. El o objetivo es determinar la funcin f y el modelo probabil o stico que sigue el error aleatorio 1. Cuando se quiere estudiar la relacin estocstica entre una vao a riable de inters y un conjunto de variables regresoras se plantean e diferentes problemas: Qu variables explicativas se deben usar en el modelo? Qu vae e riables son signicativas, es decir, su inclusin en el modelo o mejora el conocimiento acerca del comportamiento de la variable de inters? e Qu funcin explica la relacin entre la variable de inters e o o e y las variables explicativas o regresoras? Es razonable suponer que la funcin es de una determinada familia, por ejemo plo, lineal? En caso armativo, (enfoque paramtrico lie neal, enfoque tradicional), el problema bsico ser estimar a a
1

Cul es la f ? Cules son las X s? Cunto y/o cmo inuye cada Xi ? a a a o

los parmetros de la familia supuesta a partir de la muestra. a Es decir, si suponemos un modelo del tipo: Y = 0 + 1X1 + 2X2 + . . . + iXi + el problema radica en estimar los parmetros 0, 1,. . . ,i y a contrastar que la hiptesis supuesta es aceptable. Cuando no o lo es, no slo se suele cambiar de familia para seguir probando, o sino que tambien se suelen transformar los datos, por ejemplo: Y 1 x x En este curso se estudian los modelos de regresin lineal; o con estos modelos se trata de estudiar la relacin lineal existente o entre una variable respuesta Y y un conjunto de variables regresoras o explicativas X1, X2,. . . ,Xk . Para ello a partir de una muestra de observaciones: {(x1, x2, . . . , xk , y)}n , se desea estudiar un modelo i=1 de regresin de la forma: o Y = 0 + 1X1 + 2X2 + . . . + iXi + Segn la forma de recogida muestral, se distinguen dos tipos de u regresin: o Modelos de regresin con dise o jo: las variables regresoras o n son variables matemticas predeterminadas (elegidas por el a experimentador). Este modelo se usa cuando se quiere conocer el comportamiento de la variable respuesta cuando las variables regresoras var en una determinada direccin. En este caso se an o debe disear y realizar un experimento en el que las variables n regresors se muevan en dicha direccin. Por tanto, con este o

diseo se controla en todo momento el valor de las variables n regresoras. Modelos de regresin con dise o aleatorio: las variables reo n gresoras Xi son variables aleatorias. Este modelo se usa cuando se desea estudiar la relacin entre la variable respuesta y o las variables regresoras a partir de una muestra obtenida recogiendo los resultados de las variables en unidades de experimentacin elegidas al azar. Esto es, el experimentador es un o observador pasivo. Las operaciones a realizar en ambos casos son las mismas, pero el desarrollo en diseo aleatorio es ms complejo. Nosotros haremos n a diseo jo. n

Parmetros del Modelo a


Estimacin por m o nimos cuadrados

Un primer objetivo en el estudio de este modelo es estimar los parmetros del mismo: 0, 1 y 2, a partir de las observaciones a muestrales. Una vez calculadas las estimaciones de los parmetros de la recta a de regresin: 0 y 1, podemos calcular las predicciones para las o observaciones muestrales, que vienen dadas por, yi = 0 + 1xi o, en forma matricial, Y = 0 1 + 1 X donde Yi = (1, y2, . . . yn). y Denominamos residuos a e=Y Y es decir, Residuo(ei) = Valor observado (yi) valor predicho (i) y i = 1, 2, . . . n

Una vez obtenidas las ecuaciones cannicas, haciendo el o desarrollo: x y = 0 x + 1 x 2 xy = 0x + 1x2 (2) (1)

xy xy = 1(x2 x2)

Sxy = 1Sx2

de donde se obtienen los estimadores m nimi-cuadrticos para los a parmetros 0 y 1. a La estimacin puede hacerse por dos mtodos que son equivao e lentes bajo hiptesis de normalidad. o
Estimacin por mxima verosimilitud o a

yi N (0 + 1xi, 2), la funcin de verosimilitud asoo xi ciada a la muestra es Como


n

l(0, 1, 2) =
i=1

1 1 exp 2 (yi 0 1xi)2 2 2 2

de donde la funcin soporte es o n n 1 L(0, 1, ) = ln 2 ln 2 2 2 2 2


2 n

(yi 0 1xi)2
i=1

Maximizando esta funcin (se busca darles a 0, 1 y 2 los o valores que hagan que la muestra obtenida sea la ms probable) se a obtienen los mismos estimadores que con m nimos cuadrados, ya que ignorando los dos primeros trminos, maximizar e 1 2 2 es como minimizar
n n

(yi 0 1xi)2
i=1

(yi 0 1xi)2
i=1

que es ni ms ni menos que la suma de residuos al cuadrado, que a es lo que minimiza el otro mtodo. e Los estimadores obtenidos son 1,M V = SXY SX 2

siendo SXY la covarianza muestral de X e Y, y SX 2 la varianza muestral de X. 0,M V = y 1,M V x SR,M V 2 1 = n


n

ei2 (estimador sesgado)


i=1

Comentarios y propiedades

La recta de regresin pasa por (, y ), que es el centro geomtrio x e co de la nube de datos. 1 se denomina coeciente de regresin y es la pendieno te de la recta de regresin. Tiene una sencilla interpretacin: o o nos indicar el crecimiento (o decrecimiento) de la variable a respuesta Y asociada a un incremento unitario de la variable regresora X. La distribucin de 1 es una normal de media 1 y varianza o 2 , por lo tanto la varianza de 1 verica que: nSX 2 disminuye al aumentar n disminuye al aumentar SX 2 aumenta al aumentar 2

En resumen, se verica que: 1 N 1 , 2 SX 2n

y es adems un estimador insesgado. Para calcular intervalos a de conanza: 1 N (0, 1) n SX pero no podemos hacerlo porque desconocemos . El parmetro 0, que indica la ordenada de la recta de rea gresin para x = 0, tiene menor importancia. La distribucin o o de su estimador 0 es una normal de media 0 y varianza 2 2 2 2 x x2 , por lo tanto la varianza de 0 + = 1+ n nSX 2 n SX 2 verica que: disminuye al aumentar n disminuye al aumentar SX 2 aumenta al aumentar 2 (esto es, hasta aqu se comporta igual que 1) aumenta al aumentar x En resumen, se verica que 0 N (0, x2 1 1+ ) n SX 2

El estimador mximo veros de 2 es M V 2, cuya distribua mil 2 n M V cin es o n22, por tanto es un estimador sesgado, 2 n2 2 E( M V 2) = n

El nmero de grados de libertad es n 2 porque los n residuos u verican dos restricciones:


n

ei = 0
i=1 n

eixi = 0
i=1

Por este motivo se utiliza como estimador de 2 la varianza residual SR 2, dada por SR y cuya distribucin es o (n 2)SR 2 n22 2 A partir de este estad stico podemos obtener intervalos de conanza y test de hiptesis de la varianza poblacional 2. o
2

1 = n2

ei 2
i=1

Como ya hemos indicado, el parmetro 0 tiene menor impora tancia y, en algunas situaciones, no tiene una interpretacin realista o si el cero no es un punto del rango de la X, por ejemplo, al estudiar la relacin entre peso y altura de un colectivo de personas. Por ello, o tambin tiene inters la ecuacin de la recta de regresin dada en e e o o funcin del parmetro 1, teniendo en cuenta: o a x=xx y =yy y = 1x La recta de regresin de X sobre Y es distinta de la recta de regreo sin de Y sobre X. En este caso tendremos que: o xi = 0 + 1yi siendo 1 = SXY Sy 2 y 0 = x 1y

Interpretacin geomtrica o e

Consideremos los siguientes vectores del espacio n-dimensional Rn : Y 1 X Y e = = = = = = (y1, y2 . . . yn)t (1, 1 . . . 1)t (x1, x2 . . . xn)t (1, 2 . . . n)t (1, y2 . . . yn)t y (e1, e2 . . . en)t = Y Y vector vector vector vector vector vector de de de de de de la variable respuesta unos la variable regresora los errores aleatorios predicciones residuos

Dado el modelo de regresin o Y = 0 1 + 1 X + el mtodo de estimacin de m e o nimos cuadrados tiene la siguiente interpretacin geomtrica: el vector de predicciones Y es la proyeco e cin ortogonal del vector Y en el plano que generan los vectores X o y 1. De esta forma el vector de residuos es m nimo. Y, por tanto, el vector de residuos es perpendicular al plano formado por X y 1, de donde:
n

e1

e1=0

i=1 n

ei = 0

eX eX =0
i=1

eixi = 0

Tabla ANOVA: Contraste de regresin contraste conjunto de o o la F

En este apartado vamos a descomponer la variabilidad de la variable respuesta en variabilidad explicada por el modelo y variabilidad no explicada, lo que nos permitir contrastar si el modelo es a signicativo o no. Esto es, bajo la hiptesis de que la relacin que o o existe entre la variable respuesta y la regresora es lineal, estamos interesados en realizar el siguiente contraste de hiptesis: o H0 : E(Y /X = 0) = 0 (el modelo no inuye) frente a la alternativa H1 : E(Y /X = x) = 0 + 1x (el modelo inuye)

Por tanto, si aceptamos H0, la variable regresora no inuye y no hay relacin lineal entre las dos variables. En caso contrario, o s existe una dependencia lineal de la variable respuesta respecto a la regresora. Para todos los datos muestrales podemos hacer la siguiente descomposicin: o yi y = yi yi + yi y Se cumple:
n n n

(yi y )2 =
i=1 i=1

(i y )2 + y
i=1

(yi yi)2

En base a esta igualdad se puede construir la tabla ANOVA mediante la cual resolver el contraste de regresin de la F. o

Coeciente de Determinacin o

En la interpretacin del coeciente de correlacin debemos tener o o en cuenta que R = 1 indica una relacin lineal exacta positiva o (creciente) o negativa (decreciente), R = 0 indica la no existencia de relacin lineal estocstica, pero no indica independencia de las o a variables ya que puede existir una relacin no lineal incluso exacta, o y los valores intermedios indican la existencia de una relacin lineal o estocstica no exacta, ms fuerte cuanto ms prximo a 1 sea el a a a o valor de R.

As pues, los pasos a seguir en Regresin Lineal son: o Estimamos la mejor recta. Contrastamos Regresin y Linealidad. o Medidos la bondad del ajuste . Contrastamos las hiptesis de: o Linealidad. Normalidad. Homocedasticidad. Independencia. Outliers. Predecimos y/o estimamos.

Son causas de puntos at picos: Punto observado con error en la medicin, pero el modelo ajuso tado es adecuado. Punto observado es correcto pero el modelo ajustado no lo es por alguno de los siguientes motivos: La relacin entre las dos variables es lineal en un determio nado intervalo pero donde se observa el punto no es lineal. Hay una fuerte homocedasticidad que origina que algunas observaciones se separen de la nube muestral. Existe una variable que no se tiene en cuenta en el modelo y que inuye mucho en algunas observaciones. Hiptesis de Independencia o Se estudia de la siguiente manera: Grco de residuos frente a tiempo (en orden de recogida). a Clculo de la funcin de autocorrelacin muestral. Grco de a o o a autocorrelaciones. Contraste de Ljung-Box (2 de Portmanteu). igual que en diseo de experimentos. No obstante, en regresin n o lineal tenemos un contraste espec co: el contraste de DurbinWatson.

Contraste de Durbin-Watson

Es un constraste pensado para detectar errores que son dependientes con una estructura de autocorrelacin AR(1), esto es, para o el caso de que los errores sigan el siguiente modelo de dependencia: t = t1 + rt Las hiptesis del contraste son: o H0 = 0 (independencia) H1 = 0 El estad stico del contraste:
n

(et et1)2 d=
t=2 n

2(1 rt) e2 t

t=1

siendo et = yt yt los residuos y rt la autocorrelacin muestral de o orden 1. Si 0 < d < dL, se rechaza H0 y se acepta la existencia de autocorrelacin positiva. o Si dL < d < d0, el contraste no es signicativo. Si d0 < d < 4 d0, se acepta H0 (no hay autocorrelacin). o Si 4 d0 < d < 4 dL, el contraste no es concluyente. Si 4 dL < d < 4, se rechaza H0 y aceptamos la existencia de autocorrelacin negativa. o Durbin y Watson calcularon la distribucin de d bajo H0 para o cada n y cada proporcionando dL, d0 niveles de signicacin o superior e inferior de la distribucin. o

Modelo de Regresin Lineal General o


Los nuevos problemas que se nos presentan son: 1. Qu variables deben entrar en el modelo? e 2. Una vez decididas las variables que entran en el modelo. . . todas las variables introducidas en el modelo proporcionan nueva informacin? El uso/inclusin de variables que proporcionan la o o misma informacin que otras que ya estn en el modelo da o a lugar a problemas de multicolinealidad; puede haber misespecicacin o existencia de varios modelos vlidos. o a

Hiptesis del modelo: o


En base a la var. de error i E(i )=0 Homocedasticidad Var(i )= 2 Independencia Cov(i , j )=0 los errores i son independientes Normalidad i N (0, ) n>k+1 las variables regresoras xi son linealmente independientes En base a la var. respuesta Y E(yi /xi1 xi2 . . . xik )=0 + 1 xi1 + 2 xi2 . . . Homocedasticidad Var(yi /xi1 xi2 . . .)= 2 Independencia las observaciones yi son independientes Normalidad yi /xi1 xi2 . . . xik N (0 + 1 xi1 + 2 xi2 . . . + k xik , ) n>k+1 las variables regresoras xi son linealmente independientes

La interpretacin geomtrica es anloga a la del Modelo de Regresin o e a o Lineal Simple: 1, x1 , . . . , xt subespacio vectorial Rk+1 por tanto Y 0 1 + 1 x1 + . . . + k xk es la proyeccin ortogonal de Y en el subespacio vectorial engendrado, o esto es, Y =VY donde V es la matriz de proyeccin en el subespacio. o eY e 1, e x1 , . . . e xk e < 1, x1 , . . . xk > de donde ei = 0 ei xi1 = 0 ei xik = 0 k + 1 condiciones n (k + 1) grados de libertad

. . .

Propiedades de los estimadores:


El estimador m nimi-cuadrtico = (X t X)1 X t Y coincide con el a estimador de mxima verosimilitud porque estamos bajo hiptesis de a o normalidad. Cul usar? Nos quedamos con el que tiene menor ECM. a es insesgado (E( )= ). La varianza del estimador es
2 V ar( ) = 2 (X t X 1 ) = (ij )k = 0 ij

El estimador tiene distribucin normal multivariante de orden k+1. o El estimador i tiene distribucin normal: o i N (i , gi ) i = 0, 1, . . . k donde gi es un trmino de la diagonal. e

Pueden darse las siguientes situaciones:


Caso 1 2 3 4 5 6 Contraste conjunto de la F Signicativo Signicativo Signicativo No signicativo No signicativo No signicativo Contraste individual de la t Todos signicativos Algunos Ninguno Todos signicativos Alguno Ninguno

Bibliograf a
[1] Daniel Pea, Snchez de Rivera. Estadstica. Modelos n a y mtodos. Volumen 2: Modelos lineales y series e temporales. 2a Edicin Revisada, Alianza Universidad. o [2] Daniel Pea, Snchez de Rivera. Estadstica. Modelos n a y mtodos. Volumen 1: Fundamentos. 2a Edicin, e o Alianza Universidad.

23