Analisis de Regresión - Introduccion Teórica y Práctica Basada en R - TUSSEL

Anlisis de Regresin a o Introduccin terica y prctica basada en R o o a
F. Tusell1 25 de septiembre de 2009
F. Tusell. La ultima versin de este documento, quiz posterior a sta, o a e puede habitualmente encontrarse en http://www.et.bs.ehu.es/~etptupaf. Estas notas, o la versin ms moderna en la ubicacin citada, pueden reproducirse o a o libremente por alumnos de la asignatura Estadistica: Modelos Lineales (15765) para su uso privado. Toda otra reproduccin requiere el consentimiento previo y o por escrito del autor.
ii
Indice general
1. El modelo de regresin lineal. o 1.1. Planteamiento del problema. . . . . 1.2. Notacin . . . . . . . . . . . . . . . o 1.3. Supuestos. . . . . . . . . . . . . . . 1.4. MCO como aproximacin vectorial o 1.5. Proyecciones. . . . . . . . . . . . . 1.6. Lectura recomendada. . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
1 1 3 5 7 7 9 15 15 17 18 21 28 31 36 43 43 45 46 49 50
2. Estimacin m o nimo cuadrtica. a 2.1. Obtencin de los estimadores de los parmetros. o a 2.2. Una obtencin alternativa . . . . . . . . . . . . o 2.3. Propiedades del estimador m nimo cuadrtico . a 2.4. Estimacin de la varianza de la perturbacin. . o o 2 2.5. El coeciente R . . . . . . . . . . . . . . . . . 2.6. Algunos lemas sobre proyecciones. . . . . . . . . 2.7. Lectura recomendada . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
3. Identicacin. Colinealidad exacta o 3.1. Modelos con matriz de diseo de rango deciente. n 3.2. Funciones estimables. . . . . . . . . . . . . . . . . 3.3. Restricciones de identicacin. . . . . . . . . . . . o 3.4. Multicolinealidad exacta y aproximada . . . . . . 3.5. Lectura recomendada. . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
4. Estimacin con restricciones o 51 4.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . . . 51 4.2. Lemas auxiliares. . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.3. Estimacin condicionada. . . . . . . . . . . . . . . . . . . . . . 54 o iii
iv 5. Especicacin inadecuada del modelo o 5.1. Introduccin. . . . . . . . . . . . . . o 5.2. Inclusin de regresores irrelevantes. . o 5.3. Omisin de regresores relevantes. . . o 5.4. Consecuencias de orden prctico . . . a
INDICE GENERAL 61 61 62 64 65 67 67 75 81 82 83 84 87 87 89 94 101 108
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
6. Regresin con perturbaciones normales. o 6.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . o 6.2. Contraste de hiptesis lineales. . . . . . . . . . . . . . . . . o 6.2.1. Contraste sobre coecientes i aislados. . . . . . . . 6.2.2. Contraste de signicacin conjunta de la regresin. o o 6.3. Intervalos de conanza para la prediccin . . . . . . . . . . o 6.4. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . 7. Regresin con R o 7.1. Tipolog de variables explicativas. a 7.2. Factores y dataframes. . . . . . . . 7.3. Frmulas . . . . . . . . . . . . . . . o 7.4. La funcin lm. . . . . . . . . . . . . o 7.5. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8. Inferencia simultnea. a 109 8.1. Problemas que plantea el contrastar mltiples hiptesis simulu o tneas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 a 8.1.1. Evidencia contra una hiptesis . . . . . . . . . . . . . . 109 o 8.1.2. Cmo de raro ha de ser algo para ser realmente raro?111 o 8.1.3. Anlisis exploratorio e inferencia . . . . . . . . . . . . 112 a 8.1.4. Inferencia simultnea y modelo de regresin lineal ora o dinario . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.2. Desigualdad de Bonferroni. . . . . . . . . . . . . . . . . . . . . 115 8.3. Intervalos de conanza basados en la mxima t. . . . . . . . . 116 a 8.4. Mtodo S de Sche. . . . . . . . . . . . . . . . . . . . . . . . 117 e e 8.5. Empleo de mtodos de inferencia simultnea. . . . . . . . . . . 123 e a 9. Multicolinealidad. 9.1. Introduccin. . . . . . . . . . . . . . . . . . . o 9.2. Una aproximacin intuitiva . . . . . . . . . . o 9.3. Deteccin de la multicolinealidad aproximada o 9.4. Caracterizacin de formas lineales estimables. o 9.5. Varianza en la estimacin de una forma lineal. o 9.6. Eleccin ptima de observaciones. . . . . . . . o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 125 126 128 130 133 134
INDICE GENERAL
10.Regresin sesgada. o 139 10.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 o 10.2. Una aproximacin intuitiva. . . . . . . . . . . . . . . . . . . . 140 o 10.3. Regresin ridge. . . . . . . . . . . . . . . . . . . . . . . . . . . 142 o 10.3.1. Error cuadrtico medio del estimador m a nimo cuadra tico ordinario . . . . . . . . . . . . . . . . . . . . . . . 142 10.3.2. Clase de estimadores ridge . . . . . . . . . . . . . . . . 143 10.3.3. Eleccin de k . . . . . . . . . . . . . . . . . . . . . . . 147 o 10.3.4. Comentarios adicionales . . . . . . . . . . . . . . . . . 148 10.4. Regresin en componentes principales. . . . . . . . . . . . . . 153 o 10.4.1. Descripcin del estimador . . . . . . . . . . . . . . . . 153 o 10.4.2. Estrategias de seleccin de componentes principales . . 155 o 10.4.3. Propiedades del estimador en componentes principales 156 10.5. Regresin en ra latentes . . . . . . . . . . . . . . . . . . . 161 o ces 10.6. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . 165 11.Evaluacin del ajuste. Diagnsticos. o o 169 11.1. Anlisis de residuos. . . . . . . . . . . . . . . . . . . . . . . . 169 a 11.1.1. Residuos internamente studentizados. . . . . . . . . . . 171 11.1.2. Residuos externamente studentizados. . . . . . . . . . . 171 11.1.3. Residuos BLUS. . . . . . . . . . . . . . . . . . . . . . . 173 11.1.4. Residuos borrados. . . . . . . . . . . . . . . . . . . . . 173 11.2. Anlisis de inuencia. . . . . . . . . . . . . . . . . . . . . . . . 174 a 11.2.1. La curva de inuencia muestral. . . . . . . . . . . . . . 175 11.2.2. Distancia de Cook. . . . . . . . . . . . . . . . . . . . . 177 11.2.3. DFFITS. . . . . . . . . . . . . . . . . . . . . . . . . . . 177 11.2.4. DFBETAS. . . . . . . . . . . . . . . . . . . . . . . . . 178 11.3. Anlisis grco de residuos . . . . . . . . . . . . . . . . . . . . 178 a a 11.3.1. Grcos de residuos frente a a ndice de observacin (i, i ) 178 o 11.3.2. Grcos de residuos frente a variables incluidas (xij , i ) 179 a 11.3.3. Grcos de residuos frente a variables excluidas (xij , i ) 179 a 11.3.4. Grcos de variable aadida (Y |Xj , Xj |Xj ) . . . . . . 179 a n 11.3.5. Grcos de normalidad de residuos . . . . . . . . . . . 179 a 11.3.6. Grcos de residuos ordinarios frente a residuos borraa dos (di, i ) . . . . . . . . . . . . . . . . . . . . . . . . . 182 12.Seleccin de modelos. o 12.1. Criterios para la comparacin. . o 2 12.1.1. Maximizacin de Rp . . . o 12.1.2. Criterio Cp de Mallows. 12.1.3. Criterio AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 185 186 188 190
vi
INDICE GENERAL 12.1.4. Residuos borrados y validacin cruzada . . . . . . . . . 191 o 12.1.5. Complejidad estocstica y longitud de descripcin m a o nima 193 12.2. Seleccin de variables. . . . . . . . . . . . . . . . . . . . . . . 194 o 12.2.1. Regresin sobre todos los subconjuntos de variables. . . 194 o 12.2.2. Regresin escalonada (stepwise regression). . . . . . . . 195 o 12.3. Modelos bien estructurados jerrquicamente . . . . . . . . . . 205 a
13.Transformaciones 13.1. Introduccin . . . . . . . . . . . . . . . . . . . o 13.2. Transformaciones de los regresores . . . . . . . 13.2.1. Grcos de residuos frente a regresores a 13.2.2. Transformaciones de Box-Tidwell . . . 13.3. Transformaciones de la variable respuesta . . . 13.3.1. Generalidades . . . . . . . . . . . . . . 13.3.2. La transformacin de Box-Cox. . . . . o 14.Regresin con respuesta cualitativa o 14.1. El modelo logit. . . . . . . . . . . . . . . . 14.1.1. Interpretacin de los coecientes . . o 14.1.2. La importancia del diseo muestral n 14.1.3. Estimacin . . . . . . . . . . . . . o 14.1.4. Contrastes y seleccin de modelos . o . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
209 . 209 . 209 . 210 . 211 . 212 . 212 . 213 217 . 217 . 219 . 221 . 222 . 223
A. Algunos resultados en Algebra Lineal. 227 A.1. Resultados varios sobre Algebra Matricial. . . . . . . . . . . . 227 A.2. Clculo diferencial con notacin matricial . . . . . . . . . . . . 229 a o A.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . 230 B. Algunos prerrequisitos estad sticos. 231 2 B.1. Distribuciones y F descentradas . . . . . . . . . . . . . . . 231 B.2. Estimacin mximo veros o a mil . . . . . . . . . . . . . . . . . . 232 B.3. Contraste razn generalizada de verosimilitudes . . . . . . . . 233 o C. Regresin en S-Plus y R. o C.1. El sistema estad stico y grco S-Plus a C.2. El sistema estad stico y grco R . . . a C.2.1. La funcin lsfit. . . . . . . . . o C.2.2. La funcin leaps. . . . . . . . . o C.2.3. La funcin hat. . . . . . . . . . o C.2.4. La funcin lm. . . . . . . . . . . o C.2.5. La funcin lm.influence. . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 235 235 237 238 239 240 240
INDICE GENERAL
vii
C.2.6. La funcin ls.diag. . . . . . . . . . . . . . . . . . . . 241 o C.3. Correspondencia de funciones para regresin y ANOVA en So Plus y R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 D. Procedimientos de clculo. a D.1. Introduccin . . . . . . . . . . o D.2. Transformaciones ortogonales. D.3. Factorizacin QR. . . . . . . . o D.4. Bibliograf . . . . . . . . . . a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 . 243 . 243 . 247 . 249
E. Enunciados y demostraciones formales 251 E.1. Existencia y unicidad de proyecciones. . . . . . . . . . . . . . 251 E.2. Proyeccin sobre subespacios h = M K(B). . . . . . . . . . 254 o
viii
INDICE GENERAL
Indice de guras
1.1. Old Faithful Geyser: datos de 272 erupciones. . . . . . . . . . 1.2. El vector PM y es la proyeccin de y sobre M (plano horizontal). o
2 8
2.1. X es la proyeccin de y sobre M. R2 = cos2 . . . . . . . . 29 o 2.2. En un ajuste sin trmino constante, la pendiente depende de e la eleccin arbitraria del origen . . . . . . . . . . . . . . . . . 42 o 3.1. Regresin en el caso de matrix X de rango deciente. . . . . . 44 o 3.2. Caso de un vector parcialmente estimable. . . . . . . . . . . 45 9.1. Multicolinealidad exacta (panel superior) y aproximada (panel inferior). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 10.1. Componentes del ECM( (k) ) en el estimador ridge. Las l neas de trazos y puntos representa respectivamente la varianza y (sesgo)2 de (k) en funcin de k. La curva slida representa o o (k) ]. La l ECM[ nea horizontal es la varianza (y ECM) del MCO. . . . . . . . . . . . . . . . . . . . . . . . . 146 estimador 10.2. Trazas ridge y GVC para los datos longley . . . . . . . . . . 150 11.1. Una observacin como a tiene residuo borrado muy grande, y o gran inuencia en la pendiente de la recta de regresin. . . . . 175 o 11.2. Grcos para contraste de normalidad . . . . . . . . . . . . . 181 a 12.1. Valores de Cp y R para 141 modelos ajustados a los datos UScrime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 13.1. Disposicin de residuos sugiriendo una transformacin cuadro o a tica del regresor Xi . . . . . . . . . . . . . . . . . . . . . . . . 210 D.1. Visualizacin de la transformacin de Householder. . . . . . . 246 o o ix
2
INDICE DE FIGURAS
Indice de cuadros
C.1. Equivalencia de funciones para regresin y ANOVA en S-Plus o y R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
xi
xii
INDICE DE CUADROS
Introduccin o
Lo que sigue contiene una introduccin muy concisa al anlisis de regreo a sin, concebida como apoyo de las clases. Hay varios niveles de lectura: en o un primer nivel, las Observaciones que jalonan el texto pueden en su mayor a omitirse, sin prdida de continuidad. Ello proporciona una lectura bastante e lineal. Si se desea una lectura ms detallada, con digresiones que, no siendo a imprescindibles, pueden mejorar la comprensin del conjunto, conviene leer o tanto las observaciones como las secciones de Complementos y ejercicios al n de cada cap tulo: son parte integrante del texto a este segundo nivel y completan muchos detalles. A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s mbolo degiro peligrosorepresentado en el margen, popularizado por la obra clsica Knuth (1986). Se trata de a fragmentos que corresponder a un tercer nivel, con detalles de inters, an e extensiones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dicultad. La echa vertical remite a algn ejercicio, u observacin o ejemplo que son requisito previo. o Hay un mundo de diferencia entre saber cmo se hacen las cosas y saber o hacerlas. Querr amos que los alumnos supieran hacerlas. La experiencia sugiere que lo que resulta de ms ayuda al lector es ver ejemplos de aplicacin a o detallados, que pueda reproducir o modicar para resolver sus propios problemas. Intercalados entre la teor hay fragmentos en R, que el lector puede a ejecutar o tomar como modelo. Todos se han ejecutado con R versin 2.9.2. o No se ha buscado el cdigo ms terso ni la forma ms rpida o elegante o a a a de hacer las cosas, sino la que ilustra mejor la teor a.
xiii
xiv
INDICE DE CUADROS
Cap tulo 1
El modelo de regresin lineal. o
1.1.
Planteamiento del problema.
Son frecuentes en la prctica situaciones en las que se cuenta con obsera vaciones de diversas variables, y es razonable pensar en una relacin entre o ellas. El poder determinar si existe esta relacin y, en su caso, una forma o funcional para la misma es de sumo inters. Por una parte, ello permitie r conocidos los valores de algunas variables, efectuar predicciones sobre los a, valores previsibles de otra. Podr amos tambin responder con criterio estae d stico a cuestiones acerca de la relacin de una variable sobre otra. o Ejemplo 1.1 La Figura 1.1 (pg. 2), muestra una grca recoa a
giendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de Cook and Weisberg (1982)). En abscisas se representa la duracin de las o erupciones. En ordenadas, el intervalo de tiempo transcurrido hasta la siguiente erupcin. o A la vista del grco, parece evidente que existe una relacin ena o tre ambas variables erupciones de duracin D corta son seguidas o de otras tras un intervalo de tiempo I ms reducido que en el caso a de erupciones largas. Podr interesarnos contrastar con criterio esa tad stico si tal relacin existe (en el caso presente, la relacin es tan o o n tida que el plantearse el contraste de hiptesis correspondiente no o tendr demasiado sentido). Ms interesante, en el caso presente, ser a a a llegar a una expresin del tipo I = f (D) relacionando el intervalo con o
CAP ITULO 1. EL MODELO DE REGRESION LINEAL. Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.
Intervalo en minutos (I)
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
50
60
70
80
90
Duracin en minutos (D)
la duracin (ello nos permitir anticipar en qu momento se presentao a e r la siguiente erupcin, conocida la duracin D que se ha observado a o o en la anterior). Es claro que la relacin I = f (D) no puede ser exacta es dif o cil pensar en una funcin que pase precisamente por cada uno de los 272 o puntos en la Figura 1.1. Habremos de considerar ms bien funciones a del tipo I = f (D) + , en que el valor de I es una cierta funcin (deso conocida) de D ms una cantidad aleatoria inobservable . Decimos a que f (D) es una funcin de regresin de I sobre D, y nuestro objetivo o o es especicar su forma. Habitualmente realizamos para ello supuestos simplicadores, como el de que f (D) es una funcin lineal. o
Fin del ejemplo
1.2. NOTACION
Es de inters sealar que el ajuste de un modelo de regresin no se limita e n o a analizar la relacin entre dos variables; en general, buscaremos relaciones o del tipo Y = f (X0 , X1 , . . . , Xp1 ) + , relacionando de manera aproximada los valores de Y con los que toman otras variables, X0 , . . . , Xp1. Por simplicidad, limitaremos por el momento nuestra atencin a funciones f (X0 , . . . , Xp1 ) lineales; el modelo resultante es o el modelo de regresin lineal, que se examina en la Seccin 1.2 a continuacin. o o o Sealemos, nalmente, que el hecho de aislar una variable Y al lado izn quierdo y escribirla como funcin de otras ms una perturbacin aleatoria o a o no prejuzga ninguna relacin de causalidad en ningn sentido; slo postulao u o mos la existencia de una relacin cuya forma y alcance queremos investigar. o En el Ejemplo 1.1, el ajuste de un modelo del tipo I = f (D) + no implica que consideremos que la duracin D causa el subsiguiente intervalo I hasta o la prxima erupcin, sino slo que parece existir una relacin entre ambas o o o o variables.
1.2.
Notacin o
Consideramos una variable aleatoria Y (regresando, respuesta, o variable endgena) de la que suponemos que se genera as o : Y siendo: 1. 0 , . . . , p1 , parmetros jos desconocidos. a 2. X0 , . . . , Xp1 , variables explicativas no estocsticas, regresores, cuyos a valores son jados por el experimentador. Frecuentemente X0 toma el valor constante uno. 3. una variable aleatoria inobservable. La ecuacin (1.1) indica que la variable aleatoria Y se genera como o combinacin lineal de las variables explicativas, salvo en una perturbacin o o aleatoria . En el Ejemplo 1.1, Y ser la variable I, y el unico regresor ser a a la variable D. Si decidimos ajustar un modelo con trmino constante 0 , e tendr amos como regresores D y X0 =uno. La funcin que aparece en (1.1) o ser entonces f (D) = 0 + 1 D. a El problema que abordamos es el de estimar los parmetros desconocidos a 0 , . . . , p1 . Para ello contamos con una muestra de N observaciones de = 0 X0 + 1 X1 + + p1 Xp1 + , (1.1)
CAP ITULO 1. EL MODELO DE REGRESION LINEAL.
la variable aleatoria Y , y de los correspondientes valores de las variables explicativas X. Como se ha dicho, es inobservable. La muestra nos permitir a escribir N igualdades similares a (1.1): y1 = 0 x1,0 + 1 x1,1 + + p1 x1,p1 + 1 y2 = 0 x2,0 + 1 x2,1 + + p1 x2,p1 + 2 . . . yN = 0 xN,0 + 1 xN,1 + + p1 xN,p1 + N . En forma matricial, escribiremos dichas N igualdades as : y = X + , siendo: y el vector N 1 de observaciones de la variable aleatoria Y, X la matriz N p de valores de las variables explicativas. Su elemento xij denota el valor que la jsima variable explicativa toma en la i e sima observacin, e o el vector de parmetros (0 , . . . , p1) , a el vector N 1 de valores de la perturbacin aleatoria . o Denotaremos mediante al vector de estimadores de los parmetros, y a es decir, los residuos por al vector N 1 de residuos, denido por = y X ; recogen la diferencia entre los valores muestrales observados y ajustados de la variable aleatoria Y . Utilizamos minsculas para designar valores muestrales y maysculas pau u ra las correspondientes variables aleatorias (as por ejemplo, y denota el vector de valores observados de la variable aleatoria Y en una determina da experimentacin). El contexto aclarar, por otra parte, cuando y son o a variables aleatorias o valores muestrales. Adoptaremos para la estimacin el criterio m o nimo cuadrtico ordinario a es ptimo si y X 2 es m (MCO). Por consiguiente, diremos que o nimo, denotando la norma eucl dea ordinaria: y (ver Denicin A.2, pg. 227). o a
2 def
(1.2)
2 yi i
1.3. SUPUESTOS. Observacin 1.1 El suponer que los valores de los regresores o
pueden ser jados por el analista (apartado 2, al comienzo de esta Seccin) nos coloca en una situacin de diseo experimental. De ah o o n que a la matriz X se la denomine matriz de diseo. n Muchas veces (notablemente en Ciencias Sociales) no es posible jar los valores de X, sino tan solo recolectar una muestra. Decimos entonces que estamos ante una situacin observacional (en oposicin o o a un dise o experimental). Ello no afecta a la teor que sigue; la n a inferencia sobre los parmetros , etc. es entonces condicional a los a valores observados de X. 2 es totalmente arbitrario. En el vector minimizando y X lugar de minimizar la norma eucl dea ordinaria, podr amos minimizar ||y X ||L1 (suma de los valores absolutos de los errores de aproximacin, tambin llamada norma L1 ), o cualquier otra cosa. Si se o e emplea la norma eucl dea es por conveniencia matemtica y por ser a un criterio razonable desde diversos puntos de vista. Por qu introducir la norma euclidea y e no limitarnos a proponer como criterio la minimizacin de o yi 0 xi0 1 xi1 . . . p1 xi,p1
2
Observacin 1.2 El criterio de seleccionar como estimadores de o
Observacin 1.3 o
Si realizamos las demostraciones en trminos de normas, servirn sea e a cual fuere la norma que adoptemos. Muchos resultados sern as todo a terreno, trasladables de inmediato a problemas con supuestos diferentes a los realizados en la Seccin 1.3 a continuacin. Veremos en breve o o (Observacin 2.1, pg. 16) ventajas adicionales de plantear y resolver o a el problema en trminos de aproximacin vectorial, minimizando una e o norma.
1.3.
Supuestos.
y que la matriz X es no aleatoria,
Adems de suponer que Y = X + a requeriremos lo siguiente: 1. 2. 3. E[ ] = 0. E[ ] = 2 I. rango(X) = p < N.
Nos referiremos a 1)3) en lo sucesivo como los supuestos habituales. El supuesto 1) no implica prdida de generalidad ni supone ninguna rese triccin, al menos en el caso en que X tiene entre sus columnas una cuyos o valores sean constantes (y sto suele suceder; t e picamente, la primera columna est formada por unos). En efecto, es claro que si: a Y = 0 1 + 1 x 1 + + p1 x p1 + (1.3)
y el vector de perturbaciones verica E[ ] = , entonces (1.3) puede reescribirse equivalentemente como: Y = (0 1 + ) + 1 x1 + + p1 xp1 + ( ), (1.4)
y (1.4) incorpora un vector de perturbaciones ( ) vericando el primero de nuestros supuestos. El supuesto 2), bastante ms restrictivo, requiere que las perturbacioa nes sean incorrelacionadas (covarianzas cero) y homoscedsticas (de idntica a e varianza). El supuesto 3) simplemente fuerza la independencia lineal entre las (p) columnas de X. El requerimiento N > p excluye de nuestra consideracin o el caso N = p, pues entonces y = X es un sistema de ecuaciones lineales determinado, y tiene siempre solucin para algn vector que hace los resio u duos nulos. Las estimaciones del vector se obtendr entonces resolviendo an dicho sistema. Veremos en lo que sigue que este caso particular carece de inters (se dice que no tiene grados de libertad). e Algunos de los supuestos anteriores sern relajados, y las consecuencias a que de ello se derivan estudiadas. Observacin 1.4 Nada impide que los regresores sean transforo maciones adecuadas de las variables originales. Por ejemplo, si pensamos que la variable aleatoria Y depende del cuadrado de Xk y de otras variables, podr amos especicar un modelo de regresin as o :
Y = 0 + 1 x1 + + k x2 + + p1 xp1 + . k
Anlogamente, si pensramos que la variable aleatoria W se genera a a del siguiente modo: W = kz1 1 z2 2 ,
siendo una perturbacin aleatoria no negativa (por ejemplo, con o distribucin logar o tmico normal), nada impedir que tomramos loa a garitmos para obtener Y = log(W ) = 0 + 1 x1 + 2 x2 + ,
1.4. MCO COMO APROXIMACION VECTORIAL

en que xi = log(zi ), 0 = log(k) y = log(). Lo que realmente se requiere es que la expresin de la variable endgena o regresando Y o o sea lineal en los parmetros. a
1.4.
La estimacin m o nimo cuadrtica como a problema de aproximacin vectorial. o

= 0 x0 + + p1 xp1 + ,
La ecuacin matricial y = X + puede reescribirse as o : y (1.5)
donde x0 , . . . , xp1 denotan los vectores columna de la matriz X (x0 ser en a general una columna de unos, como se ha indicado). Hay diferentes posibilidades en cuanto a criterio de estimacin de los . Si adoptamos el criterio o MCO propuesto ms arriba, consistente en minimizar 2 , la ecuacin (1.5) a o muestra que el problema puede reformularse as Cuales son los coecien: 0 , . . . , p1 que hacen que la combinacin lineal 0 x0 + + p1 xp1 tes o aproxime ptimamente (en sentido m o nimo cuadrtico) el vector y ? Veremos a inmediatamente que esta combinacin lineal es lo que llamaremos proyeccin o o de y sobre el subespacio generado por las columnas x0 . . . , xp1 .
1.5.
Proyecciones.
Aunque en lo que sigue se hace un tratamiento generalizable, impl citamente consideramos productos internos (vase Denicin A.1, pg. 227) e o a real-valorados, lo que simplica algunas frmulas. Hacemos tambin un uso o e bastante tosco del lenguaje y notacin, identicando vectores con matrices o columna, operadores lineales y matrices asociadas a ellos, etc. Lo inadecuado del formalismo puede ser fcilmente suplido por el lector, y evita notacin a o que podr hacerse agobiante. a Denicin 1.1 Sea H un espacio vectorial. Sea M H un subespacio del o mismo, e y H un vector cualquiera. Decimos que u es proyeccin de y o sobre M (y lo denotamos por u = PM y ) si: 1. 2. 3. u M, u=y si y M, si y M. / (y u) M
Figura 1.2: El vector PM y es la proyeccin de y sobre M (plano horizontal). o
PM y b
Siempre existe (y es unica) la proyeccin de un vector en H sobre el o subespacio M, tal como establece el teorema siguiente1 . Teorema 1.1 Sea H un espacio vectorial, y M un subespacio del mismo. Para cualquier vector y H existe siempre un unico vector u = PM y , proyeccin de y sobre M. Se verica que: o y u
2
m n
zM
y z
(1.6)
La Fig. 1.2 ilustra en tres dimensiones la nocin de proyeccin, y hace o o intuitivamente evidente el Teorema 1.1. En dicha gura se ha considerado H = R3 y un subespacio M de dimensin dos representado como el plano o horizontal. Consideremos PM y : podr amos describirlo como el obtenido al dejar caer una plomada desde el extremo de y hasta hacer contacto con M. Es claro que = y PM y es ortogonal a M. Como consecuencia, para cualquier vector b = PM y en M, y b es la hipotenusa de un tringulo a
Estrictamente incorrecto. El Teorema E.1, pg. 252 es una versin ms elaborada del a o a Teorema 1.1.
1
1.6. LECTURA RECOMENDADA. rectngulo, cuyos catetos son y el segmento b PM y . Por tanto, a y b
2
b PM y
>
lo que demuestra la propiedad de PM y de ser la mejor aproximacin de y en o M. (Una demostracin formal que va ms all de esta incompleta argumeno a a tacin puede encontrarse en la Seccin E.1, pg. 252.) o o a
1.6.
Lectura recomendada.
Sobre la teor a. Puede leerse como complemento a este cap tulo Faraway (2005), Cap. 1 y Cap. 2, Seccin 1 a 3, o los cap o tulos introductorios de la mir ada de buenos textos que existe sobre regresin lineal: Seber (1977), o Stapleton (1995), Arnold (1981), Draper and Smith (1998), Pea (2002), n Myers (1990), Searle (1971), Ryan (1997) o Trocniz (1987a) son algunos de o ellos. Sobre la utilizacin de R. El primero de los libros citados, Faraway o (2005), ilustra tambin el modo de emplear R para hacer regresin; pero es e o demasiado escueto para servir de introduccin al lenguaje. R es una impleo mentacin de fuente libre del lenguaje estad o stico y grco S (ver por ejemplo a Becker et al. (1988), Chambers and Hastie (1992) o Chambers (1998)). Los textos introductorios sobre S son por ello utilizables con R. Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec co para R, Venables and Ripley (1999b)), Dalgaard (2002), o Ugarte et al. (2008). Hay documentos con extensin de libro disponibles en Internet, como Maindonald o (2000) o Kuhnert and Venables (2005).
10
CAP ITULO 1. EL MODELO DE REGRESION LINEAL. Complementos y ejercicios
Algunos de los ejercicios que siguen requieren hacer uso de un ordenador y un programa especializado, tal como R. En la Seccin 1.6, pg. 9, se o a proporcionan referencias. 1.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo, x <- 5 El valor de la variable puede ser utilizado en clculos subsiguientes; a tecleando x + 5 obtendr amos 10.
1.2 En R para crear un vector y asignarlo a la variable x haremos: x <- c(1,3,4)
1.3 Para efectuar multitud de clculos en R empleamos funcioa nes. Por ejemplo, para sumar varios n meros y asignar el resultado a u x podr amos escribir:
x <- 5 + 7 + 12 o tambin e x <- sum(c(5,7,12)) que hace uso de la funcin sum. o
1.4 El producto interno eucl deo de dos vectores x e y puede

calcularse as : sum(x * y) o alternativamente:
1.6. LECTURA RECOMENDADA.

x %*% y
11
1.5 En R rige la regla del reciclado, que permite operar con

operandos disimilares. Por ejemplo, si: a <- c(1,2,3) b <- 5 entonces, tecleando a + b obtendr amos el vector (6 7 8) . El argumento ms corto, b, se ha a usado repetidamente para construir un operando que pueda sumarse a a.
1.6 En R es muy fcil acceder a elementos aislados de un vector. a Por ejemplo, si:
a <- c(6,7,8) entonces, tecleando las expresiones que aparece a la izquierda obtendr amos los resultados que se indican a la derecha: a a[1] a[1:2] a[c(1,2)] a[-1] a[-(1:2)] a[c(F,F,T)] a[a>6] produce: produce: produce: produce: produce: produce: produce: produce: 6 6 6 6 7 8 8 7 7 8 7 7 8
Los sub ndices se ponen entre corchetes, [ ]. Un sub ndice negativo se interpreta como omitir el correspondiente valor. Adems de sub a ndices numricos, podemos emplear sub e ndices lgicos: F (falso) y T (cierto). o Podemos incluso, como en la ultima l nea, emplear expresiones que den como valor un vector lgico: a > 6 produce el vector F T T, que o empleado como sub ndices retorna los elementos de a mayores que 6.
1.7 La funcin help permite interrogar a R sobre el modo de o empleo de cualquier funcin. Por ejemplo, para obtener la descripcin o o de sum podr amos teclear:
12

help(sum) Emplese la funcin help para averiguar el cometido de las siguientes e o funciones de R: t, cbind, rbind, solve, scan, read.table, list, nrow, ncol. Obsrvese que tecleando e example(scan) podemos ejecutar los ejemplos que aparecen en la documentacin on o line sin necesidad de reteclearlos. Obsrvese tambin que el mandato e e help.start() abre una ventana de ayuda en un navegador si es que hay alguno instalado en la mquina que empleamos, lo que permite a navegar cmodamente por la documentacin. o o
1.8 Cuando escribimos expresiones como

sum(x * y) estamos empleando funciones predenidas (en este caso, sum). En R no necesitamos limitarnos a ellas; el lenguaje es extensible por el usuario. Podr amos denir una funcin eucl para realizar el producto interno o as : eucl <- function(x,y) { sum(x*y) } que asigna a eucl la funcin especicada en el lado derecho. Para o invocarla con los vectores u y v, teclear amos: eucl(u,v). Una funcin puede emplearse como bloque constructivo de otras, o y esto hasta el nivel de complejidad que se desee. La norma eucl dea podr calcularse mediante una funcin denida as a o : norma.eucl <- function(x) { sqrt(eucl(x,x)) } que hace uso de eucl denida anteriormente. Tras esta denicin, o podemos calcular la norma eucl dea de un vector x tecleando simplemente: norma.eucl(x) En realidad, la denicin de una funcin como eucl es innecesaria: en o o R podemos emplear x %* % x (o alternativamente crossprod(x)) que cumplen anlogo cometido. a
1.6. LECTURA RECOMENDADA. 1.9 Recordemos que el producto eucl deo (o escalar ) de dos vectores x , y en R3 verica: < x , y >= ||x ||||y || cos() siendo el ngulo que ambos vectores forman. Esta igualdad se extiena N deniendo cos() convenientemente (vase Denicin A.3, de a R e o pg. 227). Sea PM y la proyeccin de y sobre el subespacio M . Si a o ||x || = 1, del esquema a continuacin inmediatamente se deduce que o < x , y >= ||PM y ||, siendo M el subespacio generado por x . y
13
PM y
Ded zcase que, en el caso general en que ||x || = 1, se verica: u PM y = < x,y > x < x,x >
1.10 Escr base una funcin que, dados dos vectores arbitrarios o x e y , obtenga el vector proyeccin del segundo sobre el espacio (unio dimensional) generado por el primero. Comprubese que el vector z e resultante es efectivamente la proyeccin buscada, para lo cual es preo ciso ver: i) Que z es colineal con x , y ii) Que (y z ) x . 1.11 Demustrese que los siguientes cuatro vectores de R3 son e
un sistema generador de dicho espacio, pero no base.

1 1
1 0
1 1
1 0
1.12 ( 1.11) Seleccinese, de entre los cuatro vectores indicados o en el Problema 1.11, tres que formen base de R3 . 1.13 ( 1.10) Los siguientes dos vectores generan un subespacio
2-dimensional de R3 . Encuentrese por ejemplo, mediante el procedimiento de Gram-Schmidt una base ortonormal de dicho subespacio.

0 , 0 , 1 , 1
2 1
1 0
0 , 3
14
CAP ITULO 1. EL MODELO DE REGRESION LINEAL. 1.14 Demustrese que la correspondencia PM : x y = PM x e
es una aplicacin lineal. o
1.15 La estimacin de un modelo de regresin lineal o o realiza una aproximacin del vector respuesta Y similar a la que lleo var a cabo una red neuronal compuesta por una unica neurona. Sia milar porque en el caso de una red neuronal la estimacin (entrenao miento o aprendizaje) se realiza de ordinario mediante un proceso iterativo, cuyo resultado no necesariamente ha de coincidir exactamente con la estimacin MCO. Un excelente manual sobre redes neuronao les es Haykin (1998). Textos que tratan redes neuronales desde una perspectiva estad stica son Ripley (1996) y Bishop (1996). 1.16 Hay alternativas a la regresin lineal: regresin no o o lineal y regresin no paramtrica (en que se considera una relacin o e o entre regresores y regresando que no est constre ida a ser lineal ni de a n ninguna otra forma funcional prejada). En regresin no paramtrica o e se emplean principalmente tres mtodos: kernels, vecinos ms prxie a o mos y splines. Pueden consultarse, por ejemplo, Hastie et al. (2001) y Eubank (1988).
Como se ha indicado en la Observacin 1.2, pg. 5, o a hay alternativas al criterio MCO. En lugar de minimizar la suma de cuadrados de los residuos, podr amos minimizar la suma de sus valoN res absolutos: i=1 || (norma L1 del vector de residuos). Uno de sus atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande; pero es computacionalmente mucho ms costosa. a
1.17
Cap tulo 2
Estimacin m o nimo cuadrtica. a
2.1.
Obtencin de los estimadores de los pao rmetros. a
Si y es un vector N 1, consideremos H = RN y M = subespacio generado por las columnas de X. Si dotamos a H del producto interno eucl deo < v, w > = v w, de las Secciones 1.4 y 1.5 inmediatamente se deduce que el vector en M ms prximo a y (en el sentido de minimizar la norma al a o cuadrado del vector de residuos ) es la proyeccin de y sobre M. Por o M. Como M es el subespacio consiguiente, ha de vericarse que (y X ) generado por las columnas de X, X 0 (y X ) X 1 (y X ) . . . . . . X p1 (y X ) que podemos reunir en la igualdad matricial X (y X ) = 0 y de aqu se deduce que: X X = X y . 15 (2.5) (2.1) (2.2) (2.3) (2.4)
16
CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.
La igualdad matricial anterior recoge las ecuaciones normales. Si, como suponemos, rango(X) = p, entonces (X X) es de rango completo, y posee inversa. Por tanto, el vector de estimadores de los parmetros ser: a a = (X X)1 X y . (2.6)
Obsrvese que el supuesto de rango total de la matriz X y consiguiene temente de (X X) es requerido exclusivamente para pasar de (2.5) a (2.6). Las ecuaciones normales se verican en todo caso, y la proyeccin de y soo bre M es tambin unica (Teorema 1.1, pg. 8). El defecto de rango en X e a tiene tan solo por consecuencia que el vector deja de estar un vocamente determinado. Volveremos sobre esta cuestin al hablar de multicolinealidad. o De (2.6) se deduce tambin que, en el caso de rango total, la proyeccin e o de y sobre M viene dada por PM y = X(X X)1 X y , y el vector de residuos por = = = = y X y X(X X)1 X y (I X(X X)1 X )y (I PM )y . (2.8) (2.9) (2.10) (2.11) (2.7)
Observacin 2.1 El ser X proyeccin de y sobre M garantiza o o sin ms que a es m nimo. Si hubiramos obtenido derivando e
2
yi 0 xi0 1 xi1 . . . p1 xi,p1
e igualando las derivadas a cero (ver Observacin 1.3, pg. 5), obteno a dr amos un del que todo lo que podr amos armar es que corresponde a un punto estacionario de la expresin anterior (suma de cuadrados o de los residuos). Para establecer que se trata de un m nimo, habr amos de tomar a n segundas derivadas y vericar el cumplimiento de u las condiciones de segundo orden.
Podemos ver X y como las proyecciones de y sobre dos espacios mutuamente ortogonales: M y M . Las matrices PM e (I PM ) que, para aligerar la notacin, denominaremos en lo sucesivo P e (I P ), sobreentendiendo el o subespacio M, tienen algunas propiedades que detallamos a continuacin. o Teorema 2.1 Sean P e (I P ) las matrices de proyeccin denidas en el o prrafo anterior. Se verica lo siguiente: a
2.2. UNA OBTENCION ALTERNATIVA 1. Las matrices P e (I P ) son simtricas e idempotentes. e 2. rango(I P ) = N p. 3. Se verica que (I P )X = 0. Demostracion:
17
El apartado 1) es inmediato. En cuanto a 2), siendo (I P ) idempotente, su rango coincide con su traza (vase Teorema A.1, pg. 227). Por tanto: e a rango(I P ) = = = = = traza(I P ) traza(I) traza(P ) N traza[X(X X)1 X ] N traza[(X X)1 X X] N p. (2.12) (2.13) (2.14) (2.15) (2.16)
El apartado 3), por ultimo, se prueba sin ms que efectuar el producto a matricial indicado. Es adems inmediato si reparamos en que la matriz (IP ) a proyecta sobre el subespacio M , por lo que su producto por cualquiera de los vectores columna de X (pertenecientes a M) da el vector 0.
2.2.
Una obtencin alternativa o
La obtencin del vector de estimadores en la seccin precedente tiene o o muchos mritos, y no es el menor el de proporcionar intuicin geomtrica e o e acerca de la solucin m o nimo cuadrtica ordinaria (MCO). Tendremos ocaa siones abundantes de explotar esta intuicin. o Podemos seguir una v alternativa para llegar al mismo resultado: plana tear el problema en forma de minimizacin respecto a de la expresin: o o
N i=1
(yi 0 xi0 1 xi1 . . . p1 xi,p1 )2 ,
(2.17)
tal como suger la Observacin 2.1. Con notacin matricial, el problema a o o puede reescribirse as : m (y X ) (y X ). n

(2.18)
18
o equivalentemente
La suma de cuadrados anterior es una forma cuadrtica de matriz unidad. a Haciendo uso de la frmula (A.12), pg. 229, obtenemos las condiciones de o a primer orden 2X (y X ) = 0 , (2.19) X y = (X X) , (2.20)
que son las ecuaciones normales (2.5). Es fcil comprobar tomando las segundas derivadas que la solucin (o a o soluciones, si hay ms de una) del sistema de ecuaciones precedente corresa ponde a un m nimo y no a un mximo o punto de silla: la matriz de segundas a derivadas (X X) es por construccin (semi)denida positiva. o Importa comprobar que esta aproximacin al problema, a diferencia de la o que hac uso de la nocin de proyeccin, deja en la penumbra muchas cosas a o o que son de inters: la ortogonalidad del vector de residuos = y X , la e idempotencia de algunas matrices, etc.
2.3.
Propiedades del estimador m nimo cua drtico . a
Notemos que es un vector aleatorio. Aunque X se mantenga ja cosa que podemos lograr, pues los valores de los regresores se jan por el experimentador: recurdese los supuestos introducidos en la Seccin 1.2, en e o experimentos repetidos obtendremos cada vez un diferente vector y de valores de la variable respuesta. En efecto, cada vez intervendrn en la formacin de a o y diferentes perturbaciones. El vector = (X X)1 X y por tanto es un vector aleatorio: hereda su condicin de tal de y , que a su vez la obtiene de . Tiene por ello sentido o preguntarse por su vector de valores medios y por su matriz de covarianzas. Recordemos que un estimador del parmetro se dice insesgado si a E[ ] = . En el caso de estimar un vector de parmetros, la condicin anloga es a o a E[] = . Recordemos tambin que la matriz de covarianzas de un vector aleatorio e se dene por: como = E[ E()][ E()] ,
2.3. PROPIEDADES DEL ESTIMADOR M INIMO CUADRATICO . 19 expresin que en el caso de ser insesgado como estimador de se simplica o de modo obvio a = E[ ][ ] . La matriz de covarianzas tiene en su diagonal principal las varianzas de y fuera de la diagonal principal las covarianzas. los componentes del vector La insesgadez de un estimador es intuitivamente atrayente: supone que no incurrimos en derivas sistemticas al estimar el parmetro objeto de ina a ters. Si repitiramos el mismo experimento muchas veces y promediramos e e a los valores del estimador insesgado obtenidos en cada experimento, esperar amos que este promedio se acercar progresivamente ms a su objetivo (el a a verdadero valor del parmetro). a Acontece que el vector de estimadores disfruta de esta atractiva propiedad de insesgadez. Adicionalmente, dentro de una clase particular de estimadores es el que exhibe menores varianzas en la diagonal principal de y, en este sentido, es el que estima con mayor precisin el vector . El o siguiente Teorema formaliza y demuestra estas propiedades. Teorema 2.2 Si se verican los supuestos habituales (Seccin 1.3, pg. 5) o a se cumple tambin que: e 1. es un estimador lineal insesgado de . 2. La matriz de covarianzas de es = 2 (X X)1 . 3. (Gauss-Markov). Si es el estimador m nimo cuadrtico ordinario de a , cualquier otro estimador de que sea lineal e insesgado tiene matriz de covarianzas con elementos diagonales no menores que los de . Demostracion: Tomando valor medio en (2.6): E[] = E[(X X)1 X y ] = E[(X X)1 X (X + )] = + E[(X X)1 X ] = .
20
luego es insesgado. Por consiguiente, la matriz de covarianzas tendr a por expresin: o = E( )( ) = = = = =
E[(X X)1 X (X + ) ][(X X)1 X (X + ) ] E[(X X)1 X ][(X X)1 X ] E[(X X)1 X X(X X)1 ] (X X)1 X 2 IX(X X)1 2 (X X)1 .
Para demostrar 3), consideremos cualquier estimador alternativo a . Dado que restringimos nuestra atencin a estimadores lineales, podemos escribir o = C Y , siendo C una matriz de orden adecuado. Siempre podremos expresar C as : C = (X X)1 X + D. (2.21)
Puesto que nos limitamos a considerar estimadores insesgados, ha de veri carse: E = EC Y = , y por tanto: E[(X X)1 X + D]Y = . De aqu se deduce: E[(X X)1 X (X + ) + D(X + )] = , + DX = , (2.22) (2.23)
dado que E = 0. Como (2.23) se ha de vericar sea cual fuere , la inses gadez de implica DX = 0. La matriz de covarianzas de es: Pero: ( ) = [(X X)1 X + D]Y (2.25) (2.26) (2.27) = E[( )( ) ]. (2.24)
= [(X X)1 X + D](X + ) = [(X X)1 X + D] .
donde (2.27) se ha obtenido haciendo uso de DX = 0. Llevando (2.27) a (2.24), obtenemos: = E{[(X X)1 X + D] [(X X)1 X + D] } (2.28)
2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. que, de nuevo haciendo uso de que DX = 0, se transforma en: = (X X)1 X 2 IX(X X)1 + 2 DID = (X X) + DD = + 2 DD .
2 1 2
21
(2.29) (2.30) (2.31)
La matriz DD tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostracin de o 3). De forma completamente similar se puede demostrar una versin ligerao mente ms general: la estimacin lineal insesgada con varianza m a o nima de cualquier forma lineal c es c , siendo el vector de estimadores m nimo cuadrticos. a
Observacin 2.2 La insesgadez de un estimador es una proo piedad en principio atrayente, pero de ning n modo indispensable. u De hecho, un estimador insesgado de un parmetro puede incluso no a existir. (Para una discusin de la condicin de insesgadez y de sus o o implicaciones puede verse Lehmann (1983), Cap. 2.) En el Cap tulo 10 comprobaremos que, en ocasiones, podemos optar con ventaja por utilizar estimadores sesgados.
2.4.
Estimacin de la varianza de la perturo bacin. o
El Teorema 2.2 proporciona la matriz de covarianzas del vector de esti madores , = 2 (X X)1 . Pero mientras que (X X) es conocida, 2 es un parmetro que necesita ser estimado. Veamos como hacerlo. a Denicin 2.1 Denominamos SSE o suma de cuadrados de los residuos al o cuadrado de la norma del vector de residuos, SSE
def
y X
Teorema 2.3 Una estimacin insesgada de la varianza de la perturbacin o o viene proporcionada por SSE 2 = N p
22
Demostracion: Como X = P Y = X(X X)1 X Y , tenemos que (Y X ) = (I P )Y (2.33) (2.34) (2.35) (2.32)
= (I P )(X + ) = (I P ) ,
y por tanto SSE = Y (I P )(I P ) Y = (I P ) (I P ) . En virtud de la simetr e idempotencia de (I P ), a SSE = (I P ) = traza (I P ) = traza (I P ) . Tomando valor medio en (2.38) tenemos: E(SSE) = traza(I P )( 2 I) = 2 (N p). (2.39) (2.36) (2.37) (2.38)
(El ultimo paso ha hecho uso de la propiedad traza(I P ) = N p, Teorema 2.1, pg. 16.) De (2.39) se deduce entonces que a E
def
SSE = 2 N p
y 2 = SSE/(N p) es por tanto un estimador insesgado de 2 .
Observacin 2.3 En lo que sigue, SSE denotar tanto la variao a

ble aleatoria denida ms arriba como su valor en una experimentacin a o concreta, contra la convencin habitual con otras variables en que se o emplean min sculas para denotar sus valores en una experimentacin. u o El contexto aclarar si nos estamos reriendo a una variable aleatoria a o a un valor experimental de la misma.
2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. Observacin 2.4 El Teorema 2.3 muestra que para obtener una o
estimacin insesgada de la varianza de la perturbacin debemos dividir o o la suma de cuadrados de los residuos, no entre el n mero de residuos u N , sino entre los grados de libertad N p. Que el n mero de parmeu a tros estimado debe tomarse en consideracin en el denominador del o estimador es intuitivamente plausible. Despus de todo, si aumente a ramos el n mero de regresores (y parmetros estimados) p hasta que u a p = N , SSE ser idnticamente cero. (Estar a e amos ante un problema sin grados de libertad.) Sin llegar a este extremo, es claro que aumentando el n mero de regresores incrementamos nuestra capacidad u de aproximar y (y de reducir SSE), y esto ha de ser contrapesado reduciendo tambin el denominador. e
23
Observacin 2.5 El Teorema 2.3 subsume y ampl un resulo a tado que habitualmente aparece sin demostracin en los cursos eleo mentales de Estad stica: un estimador insesgado de la varianza de una poblacin, dada una muestra i.i.d. de la misma, viene dada por o
2 =
N i=1 (Yi
Y )2 . N 1
(2.40)
Este resultado puede obtenerse como caso particular del Teorema 2.3 si reparamos en lo siguiente: podemos imaginar las Yi como generadas por Yi = 0 + i , en que 0 es la media y i una perturbacin de media cero y misma o varianza que Yi . Si regresramos las observaciones Y1 , . . . , YN sobre a una columna de unos, 1 , el unico parmetro estimado ser a a:
0 = (X X)1 X Y = (1 1 )1 1 Y = N 1 N
Yi = Y
i=1
El mejor ajuste que puede hacerse de las Yi en trminos de este unico e regresor es 0 1 y la suma de cuadrados de los residuos es por tanto N N 2 2 o i=1 (Yi 0 1 ) = i=1 (Yi Y ) . La expresin (2.40) coincide por tanto, en este caso particular, con la dada por el Teorema 2.3.
R: Ejemplo 2.1 (clculo de los estimadores MCO) a

El siguiente listado crea articialmente una matriz X y el vector respuesta y . A continuacin, realiza la regresin de dos formas. En la o o primera, se realizan los clculos de modo expl a cito. En la segunda, se recurre a la funcin lsfit predenida en R, que simplica consideo rablemente el trabajo. Existen funciones alternativas ms avanzadas a que se introducen ms adelante. a
24

Al margen de la comodidad, lsfit realiza los clculos de un modo a mucho ms eciente en tiempo y estable numricamente que el sugea e rido por la teor no se invierte la matriz (X X) sino que se emplea a: la factorizacin QR (ver Seccin D.2, pg. 243, o Lawson and Hano o a son (1974)). Se trata de detalles que no necesitan preocuparnos por el momento. Generamos en primer lugar los datos y realizamos la estimacin aplicando la teor de modo ms directo. Primero, la matriz o a a de dise o, n > X <- matrix(c(1, 1, 1, 1, + 1, 1, 1, 4, 12, 1, 4, + 13, 0, 6, 7, 0, 2, 2), + 6, 3) > X [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
[1,] [2,] [3,] [4,] [5,] [6,]
A continuacin, jamos un vector o > beta <- c(2, 3, 4)
Finalmente, generamos los valores de la variable respuesta del modo que prescribe el modelo lineal: > y <- X %*% beta + rnorm(6) (La funcin rnorm(n) genera n variables aleatorias N (0, 1).) A contio nuacin, obtenemos los estimadores resolviendo las ecuaciones normao les (2.5), pg, 15. Se muestran varias formas alternativas de hacerlo. a Podemos por ejemplo escribir > b <- solve(t(X) %*% X, t(X) %*% + y) > b
2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.

[,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329
25
(la funcin solve(A,b) proporciona una solucin, si existe, del sisteo o ma de ecuaciones lineales Ax = b ). Una forma ms rpida de calcular a a (X X) y X y la proporciona la funcin crossprod. Podr o amos sustituir lo anterior por > b <- solve(crossprod(X), + crossprod(X, y)) > b [,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329
Podemos tambin escribir: e > XXinv <- solve(crossprod(X)) > b <- XXinv %*% crossprod(X, + y) > b [,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329
Hemos obtenido separadamente (X X)1 (que puede servirnos para estimar la matriz de covarianzas de los estimadores, 2 (X X)1 ). La funcin solve con un unico argumento matricial proporciona la matriz o inversa. De cualquiera de las maneras que calculemos , la obtencin o de los residuos es inmediata: > e <- y - X %*% b > e
26

[,1] 0.42097 -0.29124 0.15416 -0.61805 0.53689 -0.20272
[1,] [2,] [3,] [4,] [5,] [6,]
Podemos comprobar la ortogonalidad de los residuos a las columnas de la matriz X: > t(e) %*% X [,1] [,2] [1,] -5.4179e-14 3.6149e-13 [,3] [1,] 1.4921e-13 > crossprod(e, X) [,1] [,2] [1,] -5.4179e-14 3.6149e-13 [,3] [1,] 1.4921e-13 > round(crossprod(e, X)) [1,] [,1] [,2] [,3] 0 0 0
La suma de cuadrados de los residuos y una estimacin de la varianza o de la perturbacin pueden ahora obtenerse con facilidad: o > s2 <- sum(e * e)/(nrow(X) + ncol(X)) > s2 [1] 0.33238 Fin del ejemplo
R: Ejemplo 2.2 Todos los clculos anteriores pueden hacerse a con mucha mayor comodidad mediante funciones de regresin espeo cializadas. Por ejemplo,
2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.

> ajuste <- lsfit(X, y, intercept = FALSE) hace todo lo anterior y algunas cosas ms de modo mucho ms ea a ciente. La funcin lsfit (least squares t) devuelve una lista u objeo to compuesto conteniendo en sus componentes los estimadores de los parmetros, los residuos y algunos resultados auxiliares asociados al a mtodo de clculo empleado (la factorizacin QR aludida ms arriba). e a o a Vemoslo: a > ajuste $coefficients X1 X2 X3 2.3517 2.8129 4.2329 $residuals [1] 0.42097 -0.29124 0.15416 [4] -0.61805 0.53689 -0.20272 $intercept [1] FALSE $qr $qt [1] -75.33003 [4] -0.66854 $qr [1,] [2,] [3,] [4,] [5,] [6,] [1,] [2,] [3,] [4,] [5,] [6,] X1 X2 -2.44949 -14.28869 0.40825 11.95129 0.40825 -0.63322 0.40825 0.28718 0.40825 0.03616 0.40825 -0.71690 X3 -6.940221 3.583992 -5.655823 -0.375532 -0.004607 0.047314
27
48.78812 -23.94068 0.42874 -0.60529
28

$qraux [1] 1.4082 1.0362 1.9256 $rank [1] 3 $pivot [1] 1 2 3 $tol [1] 1e-07 attr(,"class") [1] "qr" > resid <- ajuste$residuals > resid [1] 0.42097 -0.29124 0.15416 [4] -0.61805 0.53689 -0.20272 El argumento intercept=FALSE indica a la funcin lsfit que no debe o agregarse a la matriz de dise o X una columna de unos (porque n ya gura entre los regresores). Ordinariamente ello no suceder, y a podremos prescindir de especicar el argumento intercept, con lo que tomar el valor por omisin TRUE. a o Fin del ejemplo
2.5.
El coeciente R2
Hay una relacin interesante entre SSE y otras dos sumas de cuadrados o que denimos a continuacin. Sea y el vector N 1 siguiente: o y=

e en que y denota la media aritmtica de las observaciones en y . Denamos: SST = SSR = y y X y

2 2
y . . .
2.5. EL COEFICIENTE R2 Figura 2.1: X es la proyeccin de y sobre M. R2 = cos2 o
29
X y
Se verica entonces el Teorema a continuacin. o Teorema 2.4 Si y pertenece al subespacio M generado por las columnas de la matriz X lo que acontece, por ejemplo, siempre que dicha matriz tiene una columna de unos, se verica: SST = SSR + SSE Demostracion: SST = = y y
2 2
(2.41)
(2.42)
y X + X y (2.43) (2.44) = < (y X ) + (X y), (y X ) + (X y) > 2 2 = y X + X y + 2 < y X , X y >(2.45) Pero si y M, (X y) M, y como quiera que = (y X ) M, el ultimo producto interno es nulo. Por consiguiente (2.45) se reduce a (2.41). Denimos R2 = SSR/SST ; se denomina a R coeciente de correlacin o 2 mltiple. Claramente, 0 R 1, siempre que X contenga una columna u
30
constante, ya que de (2.41) se obtiene: SSR SSE SST = + , SST SST SST luego 1 = R2 + SSE , y como ambos sumandos son no negativos (son cocientes SST de sumas de cuadrados), R2 necesariamente ha de tomar valores entre 0 y 1. La igualdad (2.41) es fcil de visualizar con ayuda de la ilustracin esa o quemtica en la Fig. 2.1; es una generalizacin N-dimensional del teorema a o de Pitgoras. Obsrvese que si y no perteneciera a M, que hemos represena e tado como el plano horizontal, ya no podr asegurarse que y (X y) son a ortogonales. Observacin 2.6 En la Figura 2.1 puede visualizarse R2 como o
el coseno al cuadrado del ngulo que forman los vectores (y y) y a y). Un valor peque o de R2 signica que este coseno es pen (X que o, y el ngulo correspondiente grande; es decir, que y est muy n a a elevado sobre el plano M . Por el contrario, R2 grande implica que el a ngulo referido es peque o, y que y est prximo a su proyeccin en n a o o M. de unos, obtenemos un unico coeciente de regresin estimado, 0 o o o a que resulta ser igual a y (se comprob en la Observacin 2.5, pg. 23). SST puede interpretarse como la suma de cuadrados de los residuos de este modelo m nimo. Si regresamos y sobre varios regresores incluyendo la columna de unos obtenemos una suma de cuadrados de los residuos igual a SSE que nunca puede ser superior a SST . En efecto: al a adir regresores el n ajuste no puede empeorar (por qu?). El coeciente R2 puede verse e como una medida de la mejora en el ajuste atribuible a los regresores distintos de la columna de unos. En efecto, el numerador de R2 es SST SSE, diferencia de suma de cuadrados entre el modelo ampliado y el m nimo. El denominador SST meramente normaliza el numerador anterior para que tome valores entre 0 y 1. Un valor grande de R2 podemos interpretarlo como una mejora sustancial del modelo m nimo al incluir regresores distintos de la columna de unos. Obsrvese que para que esta interpretacin sea e o vlida, uno de los modelos (el m a nimo) ha de estar anidado en el otro, es decir, su unico regresor (la columna de unos) ha de estar entre los regresores del otro.
Observacin 2.7 Si regresamos y solamente sobre una columna o
Observacin 2.8 Si ajustamos un modelo sin columna deunos o

podemos encontrarnos con que R2 denido como en el Teorema 2.4
2.6. ALGUNOS LEMAS SOBRE PROYECCIONES.

puede ser menor que cero. Es fcil de entender: puede que los regrea sores ensayados no den cuenta de la variabilidad de y , y SSE sea por tanto grande. Si acontece que y tiene poca variabilidad en torno a su media, SST ser en cambio peque o, y SST SSE puede fcilmente a n a ser negativo.
31
Observacin 2.9 Cuando no hay columna de unos algunos o programas de ordenador automticamente sustituyen SST por a
||y ||2 (suma de cuadrados de las desviaciones respecto del origen en lugar de respecto a la media). Ello da lugar a una denicin alternativa de o 2 que evita que pueda ser negativa. R
2.6.
Algunos lemas sobre proyecciones.
Los siguientes resultados, de muy sencilla prueba en la mayor de los a casos, resultan utiles en demostraciones posteriores. Lema 2.1 Sea H un espacio vectorial, y M un subespacio. Todo y H tiene expresin unica en la forma: y = u + v, con u M y v M . o Demostracion: Es una consecuencia inmediata de la unicidad de la proyeccin (Teoreo ma 1.1, pg. 8). a
Lema 2.2 Prejadas las bases en H y M H, la aplicacin lineal que o proyecta sobre M tiene por asociada una unica matriz PM . Demostracion: Es una especializacin del resultado segn el cual, prejadas las bases o u en ambos espacios, la matriz que representa una aplicacin lineal de uno o en otro es unica. La proyeccin es una aplicacin lineal (vase solucin al o o e o Ejercicio 1.14).
32
Lema 2.3 La matriz de proyeccin sobre M puede ser expresada as o : PM = T T , siendo T una matriz cuyas columnas forman una base ortonormal de M H. Demostracion: Sea N la dimensin de H y p la dimensin de M. Sea v1 , . . . , vp una base o o de M formada por vectores ortonormales, y T la matriz N p siguiente:
T = v1 | v2 | . . . | vp Siempre podemos completar {v1 , . . . , vp } con N p vectores adicionales {vp+1 , . . . , vN } hasta obtener una base de H (vase por ej. Grafe (1985), pg. e a 79). Adems, los N p vectores adicionales pueden tomarse ortogonales entre a s y a los de T , y normalizados (por ejemplo, utilizando el procedimiento de ortogonalizacin de Gram-Schmidt; vase Grafe (1985), pg. 93). Entonces, o e a para cualquier y H tendremos:
p N
y =
i=1
ci vi
M
+
j=p+1
cj vj ,
M
(2.46)
siendo ci (i = 1, . . . , N) las coordenadas de y en la base escogida. Premultiplicando ambos lados de (2.46) por vi (i = 1, . . . , p), obtenemos:
N N
vi y
= vi
j=1
cj vj =
j=1
cj (vi vj ) = ci ,
(2.47)
en virtud de la ortonormalidad de los vectores {vi }. Entonces, u = PM y puede escribirse as :
2.6. ALGUNOS LEMAS SOBRE PROYECCIONES.
33
u = PM y
p
=
i=1
(vi y )vi
v1 | v2 | | vp
v1 | v2 | | vp
= T T y
v1 v2 . y . . vp
v1 y v2 y . . . vp y
Lema 2.4 La matriz PM es simtrica idempotente. e Demostracion: La matriz PM es unica (Lema 2.2) y puede expresarse siempre como T T (Lema 2.3). Entonces:
PM = (T T ) = T T = PM PM PM = T T T T = T (T T )T = T T = PM .
Lema 2.5 Denotamos por R(C) el subespacio generado por las columnas de C, siendo C una matriz cualquiera. PM denota la matriz de proyeccin sobre o un cierto subespacio M. Entonces: R(PM ) = M.
34
Demostracion: Claramente R(PM ) M. Por otra parte, para todo x M, PM x = x = M R(PM ).
Lema 2.6 Si PM es la matriz asociada al operador de proyeccin sobre M, o (I PM ) es simtrica, idempotente, y est asociada al operador de proyeccin e a o sobre M . Demostracion: Es consecuencia inmediata de los Lemas 2.1 y 2.4.
Lema 2.7 Toda matriz simtrica idempotente P representa una proyeccin e o ortogonal sobre el subespacio generado por las columnas de P . Demostracion: Consideremos la identidad y = P y + (I P )y . Claramente, (I P )y P y y adems (I P )y = y P y es ortogonal a P y . Por tanto, P y es a proyeccin de y sobre un cierto subespacio, que, de acuerdo con el Lema 2.5, o es el generado por las columnas de P .
Denicin 2.2 Sea D una matriz cualquiera, de orden m n. Decimos que o D es una pseudo-inversa (o inversa generalizada) de D si: DD D = D (2.48)
En general, D as denida no es unica. En el caso particular de que D sea una matriz cuadrada de rango completo, D = D 1 . Lema 2.8 Sea D una matriz m n cualquiera. Sea c una matriz m 1 y z un vector de variables. Si el sistema: Dz = c (2.49)
es compatible, una solucin viene dada por z = D c, siendo D una pseudoo inversa.
2.6. ALGUNOS LEMAS SOBRE PROYECCIONES. Demostracion: De (2.48) deducimos: DD Dz = c y sustituyendo (2.49) en (2.50): DD c = c D(D c) = c lo que muestra que D c es solucin de (2.49). o
35
(2.50)
(2.51) (2.52)
En realidad, es posible probar un resultado algo ms fuerte1 ; toda solucin a o de (2.49) puede expresarse como D c para alguna eleccin de D . o Lema 2.9 Si M = R(X), entonces PM = X(X X) X . Demostracion: Sea y un vector cualquiera. Su proyeccin sobre R(X) ha de ser de la o y vericar las ecuaciones normales (2.5) en la pg. 15: forma X , a X X = X y (2.53)
Identicando D = X X, z = , y c = X y, el lema anterior garantiza que (X X) X y ser una posible solucin para (no necesariamente unica, ya a o que hay mltiples (X X) en general); no obstante, X(X X) X y es la unica u proyeccin de y sobre M, y X(X X) X es la unica matriz de proyeccin. La o o unicidad de la proyeccin se demostr en el Teorema 1.1, pg. 8. La unicidad o o a de la matriz de proyeccin, fue objeto del Lema 2.2. o
Como se ha indicado, hay en general mltiples inversas generalizadas D , u cada una de las cuales da lugar a una diferente solucin del sistema (2.51) o (2.52).
1
Cf. Searle (1971), Teorema 8, pg. 26. a
36
2.7.
Lectura recomendada
Sobre la teor a. Seber (1977), Cap. 3 cubre completamente la materia de este cap tulo. Para las cuestiones de lgebra matricial, proyecciones, etc. a Draper and Smith (1998) tiene un cap tulo completo (el 20) mostrando el problema de la estimacin MCO desde un punto de vista geomtrico, similar o e al empleado aqu Searle (1982), Searle (1971) y Abadir and Magnus (2005) ; son buenas referencias. Sobre matrices inversas generalizadas, en particular, pueden verse, adems de Searle (1982), Ben-Israel and Greville (1974) y Rao a and Mitra (1971). Sobre R. Son de utilidad las referencias indicadas en el Cap tulo precedente. Como se indic, hay mucha documentacin on line sobre R, como o o Venables et al. (1997) (hay traduccin castellana, Venables et al. (2000), un o poco desfasada), Maindonald (2000) o Kuhnert and Venables (2005); una relacin actualizada puede obtenerse en http://cran.r-project.org/. o
2.7. LECTURA RECOMENDADA Complementos y ejercicios

2.1 Que efecto tienen sobre los estimadores cambios en la escala de los regresores en X?. Demustrese. e
37
2.2 Haciendo uso del mismo argumento empleado (en (2.39),

pg. 22) para mostrar que SSE/(N p) es un estimador insesgado de a 2 , comprubese que, dada una muestra aleatoria simple Z1 , . . . , Zn , e el estimador de la varianza
2 Z =
1 n
n i=1
(Zi Z)2
no es insesgado.
2.3 Extindase el teorema de Gauss-Markov, para probar la are macin hecha al nal de la Seccin 2.4 (pg. 21): si c es cualquier o o a forma lineal, en el caso de rango completo el estimador insesgado de varianza m nima de c es c . 2.4 La Denicin 2.2, pg. 34, no individualiza una unica invero a sa generalizada, salvo cuando D es cuadrada de rango completo. Las siguientes condiciones, la primera de las cules coincide con (2.48), a proporcionan una unica denicin de inversa generalizada (la inversa o de Moore-Penrose):
DD D = D; D DD = D ; D D y DD simtricas. e
A la unica matriz D as especicada se la denomina inversa de Moore Penrose. Sobre inversas generalizadas e inversas de Moore-Penrose puede consultarse Searle (1971) y Rao and Mitra (1971)
2.5 ( 2.4) Cuando la funcin lsfit de R encuentra una matriz o de dise o de rango incompleto, proporciona no obstante una solucin n o haciendo un cmputo en esencia equivalente a = (X X) X y . de , o Podemos llevar a cabo el clculo de la inversa generalizada de Moorea Penrose mediante la funcin ginv del paquete MASS (asociado al libro o Venables and Ripley (1999a))
> library(MASS) > XX <- matrix(c(2, 0, 0, 0), + 2, 2) > XX [1,] [2,] [,1] [,2] 2 0 0 0
38

> XXig <- ginv(XX) > XXig [,1] [,2] [1,] 0.5 0 [2,] 0.0 0 Observemos que las condiciones que denen a la inversa de MoorePenrose se verican. > XX %*% XXig %*% XX [,1] [,2] [1,] 2 0 [2,] 0 0 > XXig %*% XX %*% XXig [,1] [,2] [1,] 0.5 0 [2,] 0.0 0 > XXig %*% XX [,1] [,2] [1,] 1 0 [2,] 0 0 > XX %*% XXig [,1] [,2] [1,] 1 0 [2,] 0 0
2.6 ( 1.13) Resulvase el problema 1.13, pg. 13, haciendo uso e a

de regresin lineal. (Ayuda: basta normalizar el primer vector y reo gresar el segundo sobre l. El vector de residuos de esta regresin es e o ortogonal al primero.)
2.7 ( 2.6) Escr base una funcin en R que resuelva el probleo ma 2.6 de un modo completamente general: debe admitir como unico argumento una matrix de rango completo cuyas columnas contengan los vectores a ortonormalizar, y devolver una matrix de las mismas dimensiones cuyas columnas sean los vectores ortonormalizados.
2.7. LECTURA RECOMENDADA 2.8 Justif quese la armacin hecha en la Observacin 2.7, pg. 30, o o a
de acuerdo con la cual el ajuste, medido en trminos de SSE, no puede e empeorar al a adir regresores. n
39
2.9 Cundo incluir y cundo no una columna de unos? En a a general, siempre convendr hacerlo. Las unicas situaciones en que no a ser conveniente son aqullas en que la columna de unos crear una a e a dependencia lineal exacta entre las columnas de la matriz X. El no incluir columna de unos fuerza a la recta (o hiperplano) de regresin a pasar por el origen. Salvo que haya buenos motivos para o ello, no querremos forzar tal cosa en nuestra regresin, especialmente o si, como sucede en multitud de ocasiones, el origen es arbitrario. 2.10 ( 2.1)( 2.9) Pensemos en la siguiente situacin: un inveso tigador est interesado en dilucidar si la velocidad de sedimentacin a o de un uido (y, medida en unidades adecuadas) est inuida por la a temperatura (X1 , medida en grados cent grados). Cuenta con las siguientes observaciones:
5,8 4,7 y = 4,9 3,8 2,1

Imaginemos que ajusta una regresin a dichos datos. Los resultados o pueden verse en el siguiente fragmento en R: > + > + > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(X, y, intercept = FALSE) ajuste$coefficients
10 6,2 X1 = 2,5 3,0 4,6
X -0.44798 El coeciente que afecta a la unica variable es negativo (= 0,447984), lo que estar amos tentados de interpretar as por cada grado que au: menta la temperatura, disminuye en 0.447984 la velocidad de sedimentacin. (Quedar por ver si la estimacin del coeciente de regresin o a o o es de ar, cuestin que abordaremos ms adelante.) o a Supongamos ahora que otro investigador repite el mismo anlisis, a pero en lugar de expresar las temperaturas en grados cent grados (C)
40

lo hace en grados Fahrenheit (F) cuya relacin con los cent o grados 9 5 a viene dada por C = 9 (F 32) ( F = 5 C + 32). Los clculos, siempre haciendo una regresin pasando por el origen, ser ahora: o an > + > + > > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) X <- (9/5) * X + 32 ajuste <- lsfit(X, y, intercept = FALSE) ajuste$coefficients
X 0.12265 Ahora el coeciente afectando a la variable temperatura es positivo, dando la impresin de una asociacin directa entre temperatura y o o velocidad de sedimentacin! Claramente, tenemos motivo para preoo cuparnos si llegamos a conclusiones diferentes dependiendo de nuestra eleccin de los sistemas de medida enteramente convencionales o ambos. El problema desaparece si incluimos una columna de unos en ambos anlisis, para dar cuenta de los diferentes or a genes. > + > + > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(X, y) ajuste$coefficients X -0.20667
Intercept 3.80119
> X <- (9/5) * X + 32 > ajuste <- lsfit(X, y) > ajuste$coefficients Intercept 7.47538 X -0.11482
> ajuste$coefficients[2] * + (9/5) X -0.20667
2.7. LECTURA RECOMENDADA

Los coecientes de X no son ahora iguales (porque los grados Fahrenheit son ms peque os), pero si relacionados por un factor de a n escala y dar lugar a la misma conclusin de asociacin inversa enan o o tre ambas magnitudes. La inversin del signo del coeciente se explica o comparando en la Figura 2.2 los puntos muestrales (en escalas comparables) y las respectivas rectas de regresin. Dichas rectas de regresin o o y las grcas se han generado mediante a > + + > > + > + > > > > + > > > > > > + > > > > postscript(file = "demo2d.eps", horizontal = FALSE, width = 5, height = 10) par(mfcol = c(2, 1)) y <- c(5.8, 4.7, 4.9, 3.8, 2.1) C <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(C, y, intercept = FALSE) par(xlim = c(-25, 5)) par(ylim = c(-0.5, 6)) plot(C, y, ylim = c(-0.5, 6), xlim = c(-25, 5)) title(main = "Ajuste en grados centigrados") abline(a = 0, b = ajuste$coefficients) text(x = 0, y = 0, labels = "(0,0)") F <- (9/5) * C + 32 ajuste <- lsfit(F, y, intercept = FALSE) plot(F, y, ylim = c(-0.5, 6), xlim = c(-13, 41)) title(main = "Ajuste en grados Fahrenheit") text(x = 0, y = 0, labels = "(0,0)") abline(a = 0, b = ajuste$coefficients) scratch <- dev.off()
41
Puede verse que el forzar a ambas a pasar por el origen las obliga a tener pendiente de signo opuesto para aproximar la nube de puntos.
42
Figura 2.2: En un ajuste sin trmino constante, la pendiente depende de la e eleccin arbitraria del origen o
Ajuste en grados centigrados

6 y 1 2 3 4 5
(0,0)
0 25
20
15
10 C
Ajuste en grados Fahrenheit

6 y 1 2 3 4 5
(0,0)
0 10
10 F
20
30
40
Cap tulo 3
Identicacin. Colinealidad o exacta
3.1.
Modelos con matriz de dise o de rango n deciente.
Uno de los que hemos llamado supuestos habituales (Seccin 1.3, pg. 5, o a apartados 1 a 3) es que el rango de la matriz de diseo X coincide con n el nmero de sus columnas, p. Cuando sto no ocurre, sigue habiendo una u e unica proyeccin de y sobre M = R(X), tal como ha quedado demostrado. o (Recurdese que R(X) designa el subespacio generado por las columnas de e X.) Ocurre sin embargo (Lema 2.9) que = (X X) X y no es unico. La Figura 3.1 resulta iluminante a este respecto; el plano horizontal representa M, y en l yacen los vectores X0 , . . . , Xp1 que lo generan. La proyeccin e o es unica. Si X0 , . . . , Xp1 son linealmente independientes, forman base X del espacio que generan, y los coecientes 0 , . . . , p1 que permiten expresar PM y como combinacin lineal de dichos vectores son unicos. o Si, como acontece en el caso de rango deciente de la matriz X, los vectores X0 , . . . , Xp1 no son linealmente independientes, hay innidad de maneras de expresar PM y como combinacin lineal de ellos. No hay por tanto o una unica estimacin m o nimo cuadrtica del vector . Se dice que hay mula ticolinealidad exacta entre las columnas de la matriz de diseo X. n 43
44
CAP ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA Figura 3.1: Regresin en el caso de matrix X de rango deciente. o
X p1
X1 X0
Una matriz de diseo de rango deciente es demasiado pobre para desn lindar todos los efectos de inters: no podemos con la informacin disponible e o deslindar la relacin de cada uno de los regresores con la variable respuesta, o pero puede ocurrir que si lo podamos deslindar con algunos. El Ejemplo 3.1 a continuacin lo ilustra. o Ejemplo 3.1 Imaginemos una matriz de dise o como n
Observemos que la primera columna, X0 , es igual a la segunda, X1 , dividida entre dos. La Figura 3.2 ilustra una situacin similar. Puede o verse que X0 y X1 yacen uno sobre otro, diriendo slo en el mdulo. o o En un caso as la proyeccin, PM y , puede expresarse de manera , o unica como combinacin lineal de X 2 y uno de los vectores X 0 X 1 . o o Podemos estimar 2 , pero no 0 1 : no es posible adscribir a uno de o ellos la parte de PM y colineal con la direccin com n de X 0 y X 1 . o u
1 1 2 2 1 1
2 2 4 4 2 2
3 5 1 . 7 8 4
3.2. FUNCIONES ESTIMABLES.
45
Figura 3.2: Caso de un vector parcialmente estimable.
X2 X0 X1 PM y
Fin del ejemplo
La nocin de funcin estimable a continuacin permite caracterizar situao o o ciones como la mostrada en el ejemplo anterior.
3.2.
Funciones estimables.
vocamente Incluso aunque el vector no sea estimable por no estar un determinado, puede haber algunos parmetros o combinaciones lineales de a parmetros que s puedan estimarse. a Denicin 3.1 Decimos que una funcin lineal de los parmetros a es o o a estimable si existe un vector c de constantes tal que: E[c Y ] = a El Teorema a continuacin permite caracterizar las funciones estimables. o Teorema 3.1 La funcin lineal a es estimable si a R(X ). o
46
CAP ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
Demostracion: a = E[c Y ] = E[c (X + )] = c X (3.1)
Como (3.1) ha de vericarse para cualesquiera valores de , ha de existir c tal que: c X = a , lo que demuestra que a R(X ).
Observacin 3.1 El teorema anterior incluye como caso partio cular el de parmetros aislados, i . En efecto, podemos ver i como la a funcin lineal e i+1 , en que e i es un vector de ceros con un 1 en posio cin isima. Entonces, i es estimable si e i R(X ). La totalidad de o e los parmetros sern estimables si {e 1 , . . . , e p } (que son linealmente a a independientes) estn en R(X ). Esto requiere que la dimensin de a o R(X ) sea p, es decir, que X sea de rango completo. Observacin 3.2 El enunciado del Teorema 3.1 tiene gran cono tenido intuitivo. Son estimables aqullas combinaciones lineales de los e parmetros cuyos coecientes coinciden con los dados por las de X. a En efecto, si queremos estimar a y a coincide con la j-sima la e xj de la matriz X, es claro que Yj ser un estimador insesgado de a a , pues:
E[Yj ] = E[xj + j ] = E[a + j ] = a . De manera anloga se demuestra que si a puede expresarse como a combinacin lineal de las de X, la combinacin lineal anloga de o o a observaciones en el vector Y es un estimador insesgado de a .
3.3.
Restricciones de identicacin. o
Hemos visto que la inestimabilidad de los parmetros es consecuencia de a la indeterminacin del sistema de ecuaciones normales: o (X X) = X y Si contamos con informacin adicional sobre que podamos imponer sobre o el vector de estimadores , podemos aadir al anterior sistema ecuaciones n adicionales que reduzcan o resuelvan la indeterminacin. Por ejemplo, si suo piramos que A = c, podr e amos formar el sistema: (X X) = X y A = c (3.2) (3.3)
3.3. RESTRICCIONES DE IDENTIFICACION.
47
y, dependiendo del rango de X X y A, obtener estimaciones unicas de . Se = c son restricciones de identicacin. dice entonces que las relaciones A o Ejemplo 3.2 Retomemos el Ejemplo 3.1. Vimos que era parcialmente estimable, y que el problema resid en que la componente a de PM y colineal con la direccin (com n) de X0 y X1 no puede ser o u distribuida entre ambos. Si, no obstante, supiramos que 0 = 1, el e problema dejar de existir. Por tanto, A = 1 con a
A= 1 0 0 es una restriccin de identicacin. o o Fin del ejemplo
Una matriz de diseo de rango incompleto se puede presentar por falta de n cuidado al disear el experimento, pero, ms frecuentemente, es intencional. n a El Ejemplo 3.1 ilustra este punto. R: Ejemplo 3.1 Supongamos que se investiga el efecto de tres diferentes tratamientos trmicos sobre la dureza de un acero. Podemos e pensar en el modelo:
Y = 1 X1 + 2 X2 + 3 X3 + ; (3.4)
Habremos de realizar mediciones de la dureza con varias probetas de acero elaborado con los distintos tratamientos, y estimar dicho lmodelo. La variable explicativa o regresor i-simo tomar el valor 1 e a cuando se emplee el tratamiento i-simo, y cero en caso contrario. e Con esta especicacin i , (i = 1, 2, 3), se interpretar como la dureza o a estimada derivada de utilizar el tratamiento i-simo. Consideremos los e datos siguientes: > cbind(X, y) [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [,1] [,2] [,3] [,4] 1 0 0 4.8150 1 0 0 4.3619 1 0 0 4.3579 0 1 0 4.8403 0 1 0 5.2419 0 1 0 6.2087 0 0 1 3.9853 0 0 1 4.0601 0 0 1 3.4247
48

Podemos estimar los parmetros mediante a > ajuste1 <- lsfit(X, y, intercept = FALSE) > ajuste1$coefficients X1 X2 X3 4.5116 5.4303 3.8234 > ajuste1$residuals [1] [6] 0.30342 -0.14972 -0.15371 -0.58995 -0.18841 0.77837 0.16193 0.23672 -0.39865
> SSE <- sum(ajuste1$residuals^2) > SSE [1] 1.3687
Podr amos pensar, sin embargo, en adoptar una diferente parametrizacin: o Y = 0 + 1 X1 + 2 X2 + 3 X3 + ; (3.5) En esta nueva parametrizacin, 0 ser una dureza media y 1 a o a 3 recoger el efecto diferencial (respecto de dicha dureza media) an resultado de emplear cada uno de los tres tratamientos. Para introducir en el modelo 0 multiplicando a una columna de unos, basta omitir el argumento intercept=FALSE, con lo que obtenemos: > ajuste2 <- lsfit(X, y, intercept = TRUE) > ajuste2$coefficients Intercept 3.82339 X1 0.68824 X2 1.60690 X3 0.00000
> ajuste2$residuals [1] [6] 0.30342 -0.14972 -0.15371 -0.58995 -0.18841 0.77837 0.16193 0.23672 -0.39865
> SSE <- sum(ajuste1$residuals^2) > SSE [1] 1.3687
3.4. MULTICOLINEALIDAD EXACTA Y APROXIMADA

Observemos que los dos ajustes son idnticos, como muestran los resie duos, que son iguales, y SSE =1.3687, igual en los dos casos; resultado lgico, dado que los subespacios que generan X1 , . . . , X3 y estos tres o vectores ms la columna de unos son idnticos. Las proyecciones han a e de serlo tambin. e En el segundo ajuste, lsfit ha proporcionado una estimacin de o los parmetros, a pesar de que el rango de la matriz X ampliada con a una columna deunoses incompleto. lsfit ha tomado una restriccin o identicadora arbitraria ha hecho 3 = 0 y proporcionado una de las innitas soluciones equivalentes. La restriccin adoptada hace 3 = 0. El tratamiento 3 pasa as a o convertirse en caso de referencia y la dureza atribuible al mismo viene medida por 0 =3.8234. Los valores estimados 1 y 2 miden as las diferencias de dureza de los tratamientos 1 y 2 respecto del caso de referencia, o tratamiento 3. Podr amos adoptar restricciones de identicacin diferentes. Una o muy habitual ser en el caso que nos ocupa, 1 + 2 + 3 = 0. Esto a, equivale a forzar que los efectos diferenciales de los tres tratamientos no puedan ser todos positivos o negativos. Con esta restriccin, 0 o tendr la interpretacin de dureza media y 1 , 2 , 3 ser desviaa o an ciones respecto de esta dureza media. Fin del ejemplo
49
3.4.
Multicolinealidad exacta y aproximada
La existencia de dependencia lineal exacta entre las columnas de la matriz de diseo X, es, como se ha visto, fruto habitualmente de una decisin n o consciente. Escogemos un diseo de rango incompleto, pero lo suplementamos n con restricciones de identicacin que solventan el problema de la estimacin o o y dotan a los parmetros de la interpretacin que deseamos. a o En la medida en que la matriz X sea de nuestra eleccin, siempre podemos o eludir el problema. Si, por el contrario, no podemos disear nuestro experin mento y nos vemos obligados a utilizar unos datos X, y dados, puede ocurrir que la matriz X, aunque no precisamente de rango incompleto, proporcione una matriz (X X) casi singular. Esto se traduce en dicultades numricas e para resolver las ecuaciones normales, dicultades para seleccionar un modelo adecuado, grandes varianzas de los estimadores y otros inconvenientes a los que nos referiremos en el Cap tulo 9.
50
3.5.
Pueden verse Seber (1977), Seccin 3.8, o Draper and Smith (1998), Seco cin 20.4, por ejemplo. o
Cap tulo 4
Estimacin con restricciones o
4.1.
Planteamiento del problema.
En ocasiones deseamos imponer a las estimaciones de los parmetros a ciertas condiciones, ya para hacer el modelo interpretable ya porque as lo imponen criterios extra-estad sticos. Ntese que no nos estamos reriendo exclusivamente a restricciones de o identicacin. Puede que el conjunto de restricciones que impongamos sea o tal que, junto con las ecuaciones normales, determine un unico vector de en un problema que previamente admit mltiples soluciones estimadores , a u (como suced en el Ejemplo 3.2). En tal caso, todo se reduce a resolver el a sistema (3.3). Las restricciones se han limitado a remover la indeterminacin o presente en las ecuaciones normales. En otras ocasiones, sin embargo, partimos de un modelo ya identicable (con solucin unica para las ecuaciones normales), pero no obstante deseamos o imponer una restriccin que viene dictada al margen de los datos, como ilustra o el ejemplo a continuacin. o Ejemplo 4.1 Si quisiramos estimar los parmetros de una fune a
cin de produccin Cobb-Douglas Q = L K , podr o o amos desear que las estimaciones de los parmetros y vericaran la condicin a o + = 1 (rendimientos constantes a escala). Con tres o ms observaa ciones es perfectamente posible estimar , y ; la restriccin es inneo cesaria desde el punto de vista de la estimabilidad de los parmetros. a No obstante, puede formar parte de la especicacin que deseamos: o
51
52
CAP ITULO 4. ESTIMACION CON RESTRICCIONES

no queremos ajustar cualquier funcin de produccin Cobb-Douglas a o o nuestros datos, sino una con rendimientos constantes a la escala. Fin del ejemplo
De un modo general, nos planteamos el problema siguiente: m y X n

2
condicionado a : A = c
(4.1)
Est claro que no podemos esperar obtener la solucin de este problema a o resolviendo un sistema como (3.3), que en general ser incompatible. a Hay al menos dos v para resolver un problema como el indicado. Poas demos recurrir a resolver el problema de optimizacin condicionada (4.1) o escribiendo el lagrangiano,
N
L(0 , . . . , p1 ) =
i=1
(yi 0 xi0 . . . p1 xi,p1 )2 (A c);
derivando respecto a 0 , . . . , p1 y a los multiplicadores de Lagrange en el vector , e igualando las derivadas a cero, obtendr amos una solucin o que mediante las condiciones de segundo orden podr amos comprobar que corresponde a un m nimo. Resolveremos el problema por un procedimiento diferente, anlogo al sea guido con el problema incondicionado: proyectando y sobre un subespacio adecuado. Para ello habremos de transformar el problema en otro equivalente, que nos permita utilizar la tcnica de la proyeccin. Previamente precisamos e o algunos resultados instrumentales, de algunos de los cuales nos serviremos repetidamente en lo que sigue.
4.2.
Lemas auxiliares.
Lema 4.1 Si K(C) designa el ncleo de la aplicacin lineal representada por u o la matriz C, se tiene: K(C) = [R(C )] Demostracion: x K(C) Cx = 0 x C = 0 x R(C )
4.2. LEMAS AUXILIARES.
53
Lema 4.2 Si h M H, y Ph , PM son las matrices de proyeccin sobre o los subespacios respectivos, se verica: PM Ph = Ph PM = Ph Demostracion: Para cualquier v H, Ph v h M PM Ph v = Ph v PM Ph = Ph
La simetr de PM y Ph (Lema 2.4) implica entonces que: Ph = Ph = Ph PM = a Ph PM .
Lema 4.3 Si h M H, se tiene: PM Ph = PM h Demostracion: Partimos de la identidad, PM v = Ph v + (PM v Ph v) en la que Ph v h M mientras que (PM v Ph v) M. Por otra parte, < Ph v, (PM v Ph v) > = v Ph (PM v Ph v) = v (Ph PM Ph )v = 0, la ultima igualdad en virtud del Lema 4.2. Por consiguiente, (PM Ph ), que es simtrica idempotente, proyecta sobre un subespacio ortogonal a h e inclu e do en M; lo denotaremos mediante M h .
Lema 4.4 Sea B una matriz cualquiera, y K(B) el ncleo de la aplicacin u o lineal que representa. Sea M un subespacio de H y h = M K(B). Entonces, M h = R(PM B ). La demostracin puede hallarse en el Apndice E.2, pg. 254. o e a
54
4.3.
Estimacin condicionada. o
Los Lemas anteriores proporcionan todos los elementos para obtener de forma rpida el estimador condicionado que buscamos. (Supondremos X y a A de rango completo, pero es fcil generalizar el tratamiento reemplazando a las inversas por inversas generalizadas.) Aunque el desarrollo formal es algo farragoso, la idea es muy simple. Vamos a transformar el modelo de modo que las restricciones A = c se conviertan en A = 0 . Lo haremos mediante la transformacin o y = y X = , (4.2) (4.3)
siendo una solucin cualquiera de A = c (de no existir tal solucin, no o o tendr sentido el problema; estar a amos imponiendo condiciones a los para metros imposibles de satisfacer). Se tiene entonces que: y A = X + = y X = X X + = y = X + = c = A( + ) = c = A = c A = A = 0
y el problema original (4.1) puede ahora reescribirse as : m y X n o, alternativamente, m y X n

2 2
condicionado a A = 0,
condicionado a : A(X X)1 X (X ) = 0.
(4.4)
Qu ventajas presenta la expresin (4.4) del problema comparada con la e o original? Una importante: muestra que el X buscado no es sino la proyeccin o 1 de y sobre un cierto subespacio: h = M K(A(X X) X ). Hay garant de a que h es un subespacio porque M y K(A(X X)1 X ) lo son. Basta proyectar y sobre h para obtener X y, si X es de rango completo, ; y esta proyeccin o se puede obtener fcilmente con ayuda de los Lemas anteriores. a Si denotamos por h las estimaciones m nimo cuadrticas condicionadas a o restringidas por A = 0, tenemos que: X h = Ph y = (PM PM h ) y 1 y = [X(X X) X PM h ] (4.5) (4.6) (4.7)
4.3. ESTIMACION CONDICIONADA.
55
en que el paso de (4.5) a (4.6) ha hecho uso del Lema 4.3. Pero es que, de acuerdo con el Lema 4.4, M h = R[X(X X)1 X X(X X)1 A ] = R[X(X X)1 A ]
PM B Z
a Por consiguiente, PM h es, de acuerdo con el Lema 2.9, pg. 35, PM h = Z(Z Z)1 Z , ecuacin que, llevada a (4.7), proporciona: o X h = X(X X)1 X y X(X X)1 A [A(X X)1 A ]1 A(X X)1 X y 1 1 1 = X X(X X) A [A(X X) A ] A , (4.9) en que es el vector de estimadores m nimo-cuadrticos ordinarios al regresar a y sobre X. Si X es de rango total, como venimos suponiendo, de (4.9) se deduce: h = (X X)1 A [A(X X)1 A ]1 A . (4.10) (4.8)
(vase el Ejercicio 4.3.) e Hay algunas observaciones interesantes que hacer sobre las ecuaciones (4.9) y (4.10). En primer lugar, el lado izquierdo de (4.9) es una proyeccin. o 2 1 Ello garantiza de manera automtica que y X h es m a nimo . Adems, a el tratamiento anterior se generaliza de modo inmediato al caso de modelos de rango no completo, sin ms que reemplazar en los lugares procedentes a matrices inversas por las correspondientes inversas generalizadas. En segundo lugar, dado que los estimadores m nimo cuadrticos ordinaa rios estiman insesgadamente los correspondientes parmetros, tomando valor a medio en (4.10) vemos que: E[h ] = (X X)1 A [A(X X)1 A ]1 A lo que muestra que h es un estimador insesgado de si A = 0. Es decir, la insesgadez se mantiene si los parmetros realmente verican las condiciones a impuestas sobre los estimadores.
Si hubiramos llegado al mismo resultado minimizando una suma de cuadrados por e el procedimiento habitual (derivando un lagrangiano) tendr amos a n que mostrar que el u punto estacionario encontrado es un m nimo y no un mximo. a
1
56
En tercer lugar, si denimos: G = (X X)1 A [A(X X)1 A ]1 A tenemos que: h = (I G) . Por consiguiente, h = = = = (I G) (I G ) 2 (I G) (X X)1 (I G ) 2 [(X X)1 G(X X)1 (X X)1 G + G(X X)1 G ] 2 [(X X)1 G(X X)1 G ]
que muestra, dado que el segundo sumando tiene claramente elementos no negativos en su diagonal principal (la matriz (X X)1 es denida no negativa), que h tiene en la diagonal principal varianzas no mayores que las correspondientes en . Podemos concluir, pues, que la imposicin de restrico ciones lineales sobre el vector de estimadores nunca incrementa su varianza, aunque eventualmente, si las restricciones impuestas no son vericadas por los parametros a estimar, puede introducir algn sesgo. u Hemos razonado en las l neas anteriores sobre el modelo transformado. Podemos sustituir sin embargo (4.3) en (4.10) y obtener la expresin equivao lente en trminos de los parmetros originales: e a h = (X X)1 A [A(X X)1 A ]1 (A c) R: Ejemplo 4.1 (estimacin condicionada) o
No hay en R una funcin de propsito general para realizar estio o macin condicionada. La extensibilidad del lenguaje hace sin embargo o extraordinariamente fcil el denirla. El fragmento a continuacin ilusa o tra el modo de hacerlo y como utilizarla. No se ha buscado la eciencia ni elegancia sino la correspondencia ms directa con la teor expuesta a a ms arriba. a Denimos en primer lugar una funcin para uso posterior: o > lscond <- function(X, y, A, d, beta0 = TRUE) { + ajuste <- lsfit(X, y, intercept = beta0) + betas <- ajuste$coefficients + xxinv <- solve(t(X) %*% X) + axxa <- solve(A %*% xxinv %*% t(A)) + betas.h <- betas - xxinv %*% t(A) %*% + axxa %*% (A %*% betas - d) + betas.h <- as.vector(betas.h) + names(betas.h) <- names(ajuste$coefficients) + return(list(betas = betas, betas.h = betas.h, + ajuste.inc = ajuste)) + }
(4.11)

Generamos a continuacin los datos y realizamos la estimacin cino o ne donos a la teor del modo ms directo. X es la matriz de dise o, beta a a n contiene los parmetros e y la variable respuesta: a > X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
57
> beta <- c(2, 3, 4) > y <- X %*% beta + rnorm(6) Especicamos la restriccin lineal 1 = 2 tomando la matriz A y o vector d siguientes: > A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE) > d <- 0 y a continuacin realizamos la estimacin condicionada: o o > resultado <- lscond(X, y, A = A, d = d, + beta0 = FALSE) > resultado$betas.h X1 X2 X3 2.8392 3.2647 3.2647 > resultado$betas X1 X2 X3 2.8037 3.0526 3.7138
Fin del ejemplo
58
CAP ITULO 4. ESTIMACION CON RESTRICCIONES Complementos y ejercicios 4.1 Sea un espacio vectorial M cualquiera, de dimensin nita. o Comprubese que siempre existe una matriz C tal que M = K(C). e (Ayuda: considrese una matriz cuyas las fueran una base de M ). e 4.2 ( 4.1) Prubese la igualdad (E.15), pg. 254. e a 4.3 Justif quese el paso de (4.9) a (4.10). 4.4 El Ejemplo 4.1 se sale del marco conceptual en el que nos movemos. Los regresores (K y L, log(K) y log(L) al linealizar la o funcin de produccin) no pueden ser jados por el experimentador: o o dependen de los agentes econmicos. Estamos ante datos observados o en oposicin a datos experimentales. Faraway (2005), Sec. 3.8, contiene o una difana discusin de los problemas que ello conlleva. Es tambin a o e interesante, aunque de ms dif lectura, Wang (1993). a cil
Las restricciones que hemos discutido en la Seccin 4.3 o son exactas. Los parmetros las verican de modo exacto. En ocasioa nes se recurre a restricciones estocsticas, llevando a los parmetros a a a vericarlas de forma aproximada. Es muy fcil introducirlas. Recora demos que, al hacer estimacin m o nimo-cuadrtica, los parmetros se a a jan de modo que la suma de cuadrados de los residuos sea la m nima posible. Si tenemos restricciones A = c que queremos imponer de modo aproximado basta que a adamos las las de A a la matriz X y n los elementos correspondientes de c al vector y para obtener: y c = X + A
4.5
y hagamos m nimos cuadrados ordinarios con la muestra ampliada (las las a adidas se denominan en ocasiones pseudo-observaciones). n La idea es que las las a adidas funcionan como observaciones y, por n tanto, el procedimiento de estimacin tender a hacer A c (para o a sean peque os). A n ms: que los residuos correspondientes c A n u a podemos graduar la importancia que damos a las pseudo-observaciones (y por tanto el nivel de aproximacin con que deseamos imponer las o restricciones estocsticas): basta que las multipliquemos por una consa tante adecuada k para estimar y kc = X + . kA (4.12)

Obsrvese que ahora los residuos de las pseudo-observaciones sern e a y si tomamos k elevado el mtodo m k(c A) e nimo cuadrtico tendr a a que prestar atencin preferente a que A c se verique con gran o aproximacin (porque los cuadrados de los residuos correspondientes o entran en SSE afectados de un coeciente k2 ). Cuando k nos acercamos al efecto de restricciones exactas.
59
4.6 ( 4.5) Un caso particular de inters se presenta cuando e en el problema anterior se toma A = I y c = 0 . Se dice entonces que estamos ante el estimador ridge de parmetro k. En 10.3, pg. 142, a a abordamos su estudio y justicacin con detalle. o 4.7 ( 4.5) La estimacin de (4.12) haciendo uso de las o ecuaciones normales proporciona
= (X X + k2 A A)1 (X y + k2 A c ), (4.13)
que admite una interpretacin bayesiana. Supongamos que a priori o N ( 0 , 0 ). Dado , Y se distribuye como N (X , 2 I). La densidad a posteriori de es entonces f ( |y , 2 , 0 , 0 ) exp
1 (y X ) (y X ) 2 2 1 exp ( 0 ) 1 ( 0 ) 0 2 1 = exp 2 (y X ) (y X ) 2
2 ( 0 ) 1 ( 0 ) 0
Tomando el logaritmo neperiano e igualando a cero su derivada respecto a tenemos entonces 1 (2X (y X ) + 2 2 1 ( 0 ) = 0 , 0 2 2
que proporciona (X X + 2 1 ) X y 2 1 0 = 0 , 0 0 y por tanto la moda de la distribucin a posteriori (que fcilmente se o a comprueba es normal multivariante) es: = (X X + 2 1 )1 (X y + 2 1 0 ). 0 0 (4.14)
60

Comparando (4.14) con (4.13) vemos que son idnticas cuando kA = e 0 2 y kc = 0 2 0 : para obtener el estimador bayesiano con informacin a priori como la indicada, basta por tanto con obtener el o estimador MCO en una muestra ampliada con pseudo-observaciones.
1 1
Cap tulo 5
Especicacin inadecuada del o modelo
5.1.
Introduccin. o
En lo que antecede hemos dado por supuesto que el modelo lineal que se estima es el correcto, es decir, que la variable aleatoria Y efectivamente se genera de la siguiente manera: Y = 0 X0 + 1 X1 + . . . + p1 Xp1 + . (5.1)
En la prctica, sin embargo, no tenemos un conocimiento preciso del mea canismo que genera las Y s. Tenemos, todo lo ms, una lista de variables a susceptibles de formar parte de la ecuacin (5.1) en condicin de regresores. o o De ordinario, por ello, incurriremos en errores en la especicacin, que o pueden ser de dos naturalezas: 1. Incluir en (5.1) regresores irrelevantes. 2. Omitir en (5.1) regresores que hubieran debido ser incluidos. Estudiamos en lo que sigue el efecto de estos dos tipos de mala especicacin. o 61
62
CAP ITULO 5. ESPECIFICACION INADECUADA DEL MODELO
5.2.
Inclusin de regresores irrelevantes. o

Y = X + (5.2)
Supongamos que
pese a lo cual decidimos estimar el modelo Y = X + Z + (5.3)
Qu ocurre con los estimadores de los parmetros ? e a Al estimar el modelo sobreparametrizado (5.3) obtendr amos: = X X X Z Z X Z Z
1
X Y Z
(5.4)
En el caso particular de columnas Z ortogonales a las columnas en X, los estimadores de proporcionados por (5.3) son idnticos a los que se obtene dr de (5.2). En efecto, si existe tal ortogonalidad, la matriz inversa en an (5.4) es una matriz diagonal por bloques y = (X X)1 X Y . Fuera de este caso particular, los estimadores de procedentes de (5.4) son diferentes a los que se obtendr de estimar (5.2). a Sin embargo, (5.4) proporciona estimadores insesgados, sean cuales fueren los regresores irrelevantes aadidos1 . En efecto, sustituyendo (5.2) en (5.4) n tenemos: = = X X X Z Z X Z Z
1
X Z
1
X Z X . Z
(5.5) (5.6)
X X X Z + Z X Z Z 0
Al tomar valor medio en la ecuacin anterior obtenemos: o E[] = , E[ ] = 0. (5.7) (5.8)
De la misma ecuacin (5.6) obtenemos que la matriz de covarianzas del vector o ) es: ( =
1
X X X Z Z X Z Z
(5.9)
De los que lo unico que supondremos es que no introducen combinaciones lineales exactas que hagan inestimables los parmetros. a
5.2. INCLUSION DE REGRESORES IRRELEVANTES.
63
El bloque superior izquierdo de (5.9) es la matriz de covarianzas de los obtenidos en el modelo sobreparametrizado. Debemos comparar dicho bloque con 2 (X X)1 , matriz de covarianzas de los obtenidos al estimar el modelo (5.2). Haciendo uso del Teorema A.3, pg. 228, vemos que el bloque que nos a interesa de (5.9) es 2 multiplicado por (X X)1 + (X X)1 X Z[Z Z Z X(X X)1 X Z]1 Z X(X X)1 . Por simple inspeccin vemos que el segundo sumando es una matriz denida o no negativa2 , y por tanto la expresin anterior tendr en su diagonal princio a pal elementos no menores que los de la diagonal principal de (X X)1 . En consecuencia, la inclusin de regresores irrelevantes no disminuye, y en geneo ral incrementa, las varianzas de los estimadores de los parmetros relevantes. a No afecta sin embargo a su insesgadez. De cuanto antecede se deduce que Y X Z (5.10)
es un vector aleatorio de media cero. Denominando, L = = X Z , ,
un desarrollo enteramente similar al realizado en el Teorema 6.1, pg. 70, a muestra que en el modelo sobreparametrizado SSE = Y (I L(L L)1 L )Y = (I L(L L)1 L ) (5.11)
es, bajo los supuestos habituales ms normalidad, una forma cuadrtica con a a 2 2 distribucin N (p+q) , en que p y q son respectivamente los rangos de X y o Z. En consecuencia, 2 =
2
SSE N (p + q)
(5.12)
Llamemos G a dicho segundo sumando. Para mostrar que es denida no negativa, basta ver que para cualquier a se verica a Ga 0. Pero a Ga = b (Z Z Z X(X X)1 XZ)1 b con b = Z X(X X)1 a; ya slo tenemos que comprobar que (Z Z Z X(X X)1 XZ)1 o es denida no negativa, o equivalentemente que (Z Z Z X(X X)1 XZ) lo es. Esto ultimo es inmediato: (Z Z Z X(X X)1 XZ) = Z (I X(X X)1 X)Z, y d Z (I X(X X)1 X)Z d puede escribirse como e (I X(X X)1 X)e con e = Z d . La matriz de la forma cuadrtica en e es la conocida matriz de coproyeccin, denida no negativa por a o ser idempotente (con valores propios cero o uno).
64
es un estimador insesgado de 2 . El unico efecto adverso de la inclusin de los o q regresores irrelevantes ha sido la prdida de otros tantos grados de libertad. e
5.3.
Omisin de regresores relevantes. o
. Sea X = (X1 . X2 ) una matriz de diseo particionada en sendos bloques . n . . de p y r columnas. Sea = ( 1 . 2 ) el correspondiente vector de p + r parmetros. Consideremos el caso en que el modelo correcto es a Y = X + = X1 1 + X2 2 + , (5.13)
pese a lo cual estimamos el modelo escaso Y = X1 1 + . (5.14)
Estimar (5.14) es lo mismo que estimar (5.13) junto con las restricciones h : 2 = 0, expresables as : 0 0 0 I 1 2 = 0 0 (5.15)
En consecuencia, podemos deducir cuanto necesitamos saber haciendo uso de los resultados en la Seccin 4.3. Las siguientes conclusiones son as o inmediatas: (h) El estimador 1 obtenido en el modelo escaso (5.14) es, en general, sesgado. El sesgo puede obtenerse haciendo uso de (4.11). Tenemos as que (h) 1 0 = 1 1 1 1 (X X) A [A(X X) A ] (A 0), 2
y en consecuencia E[1 1 ] = (X X)1 A [A(X X)1 A ]1

(h)
0 2
(5.16)
(p1)
en que [M](pq) designa el bloque superior izquierdo con p las y q columnas de la matriz M. La ecuacin (5.16) muestra que el sesgo o introducido depende de la magnitud de los parmetros asociados a los a regresores omitidos.
5.4. CONSECUENCIAS DE ORDEN PRACTICO
65
La ecuacin (5.16) muestra tambin que hay un caso particular en que o e (h) 1 es insesgado para 1 ; cuando las columnas de X1 y las de X2 son ortogonales, X1 X2 = 0, la matrix (X X)1 es diagonal por bloques, y
X1 X1 0 (X X) A = 0 X2 X2 1 1
0 0 0 I
(5.17)
tiene sus primeras p las de ceros. Ello hace que el bloque considerado en (5.16) est formado por ceros. e El estimador de la varianza de la perturbacin o (h) (h) (Y X1 1 ) (Y X1 1 ) SSE = = N p N p
2
(5.18)
no es insesgado. En efecto, puede verse que no es de aplicacin a (5.18) o el Teorema 2.3, pg. 21. a
5.4.
Consecuencias de orden prctico a
Los resultados de las dos Secciones anteriores pueden ayudarnos a tomar decisiones a la hora de especicar un modelo. Hemos visto que sobreparametrizar no introduce sesgos: tan slo incrementa la varianza de los estimadores o y resta grados de libertad. Errar por exceso tendr por ello en general a consecuencias menos graves, y tanto menos importantes cuanto mayor sea el tamao muestral. La prdida de un grado de libertad adicional originada n e por la inclusin de un parmetro es menos importante cuando los grados de o a libertad restantes (N p) siguen siendo muchos. La sla circunstancia en que la inclusin de un regresor innecesario puede o o perjudicar gravemente la estimacin se presenta cuando la muestra es muy o pequea o el parmetro adicional es aproximadamente combinacin lineal de n a o los ya presentes. A esta ultima cuestin volveremos en el Cap o tulo 9. Omitir regresores relevantes tiene consecuencias en general ms graves y a (h) que no se atenan al crecer el tamao muestral: el sesgo de 1 en el modelo u n escaso (5.14) no decrece hacia cero al crecer N. En este cap tulo hemos rastreado las consecuencias de dos posibles errores de especicacin puros: falta o sobra de regresores. En la prctica los dos o a tipos de errores se pueden presentar conjuntamente y sus efectos se combinan. Conocidos los problemas de una mala especicacin se plantea el proo blema de cmo lograr una buena. Esta cuestin se trata en el Cap o o tulo 12. Algunas tcnicas de anlisis grco de residuos que pueden ser de ayuda en e a a la especicacin de modelos se consideran en la Seccin 13.2.1. o o
66
Cap tulo 6
Regresin con perturbaciones o normales.
6.1.
Introduccin. o
Si a los supuestos habituales (Seccin 1.3, pg. 5) aadimos1 el de que o a n N(0, 2 I), todos los resultados anteriores se mantienen; obtendremos no obstante muchos adicionales, relativos a la distribucin de diferentes estao d sticos. Podremos tambin efectuar contrastes de hiptesis diversas. Buena e o parte de estos resultados son consecuencia casi inmediata de alguno de los siguientes lemas. Lema 6.1 Si u N(0, 2 I) y A es una matriz simtrica idempotente de e u Au 2 orden n y rango r, entonces: 2 r . Demostracion: Sea D la matriz diagonalizadora de A. Siendo A simtrica, D es una e matriz ortogonal cuyas columnas son vectores propios de A, vericndose: a D AD = , en que es una matriz en cuya diagonal principal aparecen los
El s mbolo denotar en lo sucesivo que el lado izquierdo es una variable aleatoria a con la distribucin que especica el lado derecho. o
1
67
68 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES. valores propios de A. Como A es idempotente, es de la forma r (n r) I 0 , 0 0
en que I es una matriz unidad de rango r, y los bloques de ceros que la circundan son de rdenes adecuados para completar una matriz cuadrada de o orden n n. Si hacemos el cambio de variable v = D u ( u = Dv), el nuevo vector v sigue tambin una distribucin N(0, 2 I). Entonces, e o v D ADv v I 0 v u Au = = = 2 2 0 0
2 vi . 2 i=1 r
(6.1)
Pero el lado derecho de (6.1) es una suma de cuadrados de r variables aleatorias N(0, 1) independientes, y por tanto sigue una distribucin2 2 . o r
Lema 6.2 Sea B una matriz simtrica nn y P una matriz simtrica ideme e potente del mismo orden y rango r. Sea u un vector aleatorio n-variante, u N(0, 2 I), y supongamos que se verica BP = 0. Entonces, u Bu y u P u son variables aleatorias independientes. Demostracion: Sea D la matriz diagonalizadora de P . Al igual que antes, denamos v = D u, (lo que implica u = Dv). Tenemos que: BP = 0 D BDD P D = 0 r (n r) I 0 0 0 (6.2) (6.3) =0 (6.4) (6.5) (6.6)
D BD
D BD tiene sus r primeras columnas nulas

2
El rec proco es tambin cierto; vase en Searle (1971), Teorema 2, pag. 57 una versin e e o ms potente de este teorema. a
6.1. INTRODUCCION. Por tanto: r (n r) r (n r) 0 L12 0 L22
69
D BD =
=0
(6.7)
Como, adems, D BD es simtrica, L12 ha de ser tambin un bloque de a e e ceros, y: r (n r) 0 0 v 0 L22
u Bu = v D BDv = v Por otra parte:
(6.8)
u P u = v D P Dv = v
r (n r) I 0 v 0 0
(6.9)
De (6.8) y (6.9) se deduce que ambas formas cuadrticas consideradas a dependen de distintas componentes del vector v, y son por tanto independientes.
Lema 6.3 Sea M una matriz simtrica idempotente de rango r y dimene siones n n. Sea A una matriz que verica AM = 0, y u N(0 , 2 I). Entonces Au y u Mu son variables aleatorias independientes. Demostracion: Sea D la matriz que diagonaliza M. Al igual que antes, denamos v = D u ( u = Dv). Como AM = 0, y D MD es una matriz diagonal con r unos y (n r) ceros en la diagonal principal, se verica que AM = ADD MD = 0 AD =
r (n r) 0 | L2 ,
(6.10)
es decir, AD tiene sus primeras r columnas de ceros. Por consiguiente, r (n r) 0 | L2 v.
Au = ADv =
(6.11)
70 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES. Como r (n r) I 0 v, 0 0
u Mu = v D MDv = v
(6.12)
deducimos de (6.11) y (6.12) que ambas variables aleatorias consideradas dependen de distintas componentes de v, y son consecuentemente independientes.
Podemos ahora, con ayuda de los Lemas precedentes, demostrar el siguiente resultado:
Teorema 6.1 Si Y = X + , N(0, 2 I), y X es de orden N p y rango p, se verica: 1. 2. 3. 4. N( , 2 (X X)1 ) ( ) (X X)( ) 2 2 p (N p) 2 = SSE 2 2 p N y 2 son variables aleatorias independientes.
Demostracion: El apartado 1) es inmediato. Si se verican los supuestos habituales, fue ya demostrado (Teorema 2.2, pg. 19) que es un estimador insesgado de a con la matriz de covarianzas indicada. Como, adems, es una combinacin a o lineal de variables aleatorias normales e independientes, es tambin normal. e El apartado 2) es consecuencia inmediata del Lema 6.1, una vez que 1 observamos que (X X) 2 ( ) N(0 , 2 I).
6.1. INTRODUCCION. Para demostrar el apartado 3) observemos que: SSE 2 (Y X ) (Y X ) = 2 (Y X(X X)1 X Y ) (Y X(X X)1 X Y ) = 2 1 Y [I X(X X) X ]Y = 2 (X + ) [I X(X X)1 X ](X + ) = 2 1 [I X(X X) X ] = 2 M = 2 2 p , N
71
(6.13) (6.14) (6.15) (6.16) (6.17) (6.18) (6.19)
donde (6.19) es consecuencia inmediata del Lema 6.1, ya que M es simtrica e idempotente y de rango N p. Para probar 4), basta invocar el Lema 6.3, ya que = (X X)1 X Y , 2 = SSE Y [I X(X X) X ]Y = . N p N p
1
(6.20) (6.21)
De la ecuacin (6.20) deducimos (sustituyendo Y por X + ) que = o 1 + (X X) X . La misma sustitucin en (6.21) muestra que o 2 = Como (X X)1 X [I X(X X)1 X ] = 0, el Lema 6.3, pg. 69, demuestra la independencia de las formas lineal y cuaa drtica anteriores y por tanto de (6.20) y (6.21). a [I X(X X)1 X ] . N p
72 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES. R: Ejemplo 6.1 (ejemplo de simulacin) o
El cdigo que sigue tiene por objeto ilustrar cmo examinar o o amos emp ricamente la concordancia entre lo que la teor predice y lo que a podemos obtener en la prctica. Lo que se hace es generar m ltiples a u muestras articiales, obtener de ellas m ltiples observaciones del esu tad stico de inters (aqu ) y examinar el ajuste de la distribucin e , o emp rica de los mismos a la terica. o Generemos en primer lugar la matriz de dise o X, vector de pan rmetros y los valores medios de la respuesta X : a > X <- matrix(c(1, 1, 1, 1, 1, 1, 9, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 9 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
> beta <- c(2, 3, 4) > Ey <- X %*% beta Deniremos ahora una matriz b de dimensiones 100 3, cada una de cuyas las guardar los parmetros estimados con una muestra a a articial diferente > muestras <- 100 > b <- matrix(0, muestras, 3) e iteremos, generando en cada pasada del bucle for un nuevo vector de perturbaciones (mediante rnorm), un nuevo vector de valores de la variable respuesta y y nuevas estimaciones de los parmetros a (fit$coefficients, que se almacenan en b[i,]): > for (i in 1:muestras) { + y <- Ey + rnorm(6) + fit <- lsfit(X, y, intercept = FALSE) + b[i, ] <- fit$coefficients + }
6.1. INTRODUCCION.
La distribucin terica de los betas es Normal, con vector de medias o o (2, 3, 4) y matriz de covarianzas (X X)1 (la varianza de las perturbaciones generadas por rnorm es 1 si no se especica otra cosa).
73
> cov.betas <- solve(t(X) %*% X)
Por consiguiente, un modo de vericar que los resultados emp ricos son congruentes con la teor consistir en tipicar las estimaciones de los a a parmetros y comparar su distribucin con una N (0, 1). Podemos por a o ejemplo comparar la media y varianza emp ricas con las tericas, o
> beta1.tipif <- (b[, 1] - beta[1])/sqrt(cov.betas[1, + 1]) > mean(beta1.tipif)
[1] 0.19871
> var(beta1.tipif)
[1] 1.1125
dibujar el histograma
> hist(beta1.tipif, ylab = "Frecuencia absoluta", + main = "Histograma de beta1.tipif")
74 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES.
Histograma de beta1.tipif
Frecuencia absoluta
10
15
0 beta1.tipif
o llevar a cabo alg n contraste de normalidad especializado: u > ks.test(beta1.tipif, "pnorm") One-sample Kolmogorov-Smirnov test data: beta1.tipif D = 0.1036, p-value = 0.2334 alternative hypothesis: two-sided > shapiro.test(beta1.tipif) Shapiro-Wilk normality test data: beta1.tipif W = 0.9874, p-value = 0.4679 Lo que antecede ilustra, reducido a sus rasgos esenciales, el llamado mtodo de Monte-Carlo. Puede parecer un ejercicio ocioso en el e caso que nos ocupa (ya sab amos cmo se distribuye a que vieo ne comprobarlo mediante una simulacin?). Sin embargo, tiene una o enorme aplicacin prctica por varias razones: o a
6.2. CONTRASTE DE HIPOTESIS LINEALES.

1. En ocasiones no conocemos la distribucin terica de los estao o d sticos de inters para muestras nitas. Todo lo que podemos e obtener tericamente es la distribucin asinttica (la distribucin o o o o cuando el tama o muestral tiende a innito). En este caso, la sin mulacin permite ver si la aproximacin asinttica es aceptable o o o para un cierto tama o muestral. n 2. En otras ocasiones, ni siquiera la distribucin asinttica es obteo o nible anal ticamente. Este es el caso ms frecuente en la prctica. a a De nuevo el mtodo de Monte-Carlo proporciona un mtodo para e e obtener aproximaciones a la distribucin de cualquier estad o stico. El uso del mtodo de Monte-Carlo reposa en la posibilidad de genee rar mediante un ordenador n meros aleatorios con la distribucin que u o deseemos. En este ejemplo, se ha empleado rnorm para generar variables aleatorias normales. (R ofrece generadores de n meros aleatorios u de las distribuciones ms usuales, como casi cualquier otro paquete a estad stico.) Fin del ejemplo
75
6.2.
Contraste de hiptesis lineales. o
El problema que nos planteamos es el siguiente: dado el modelo lineal Y = X + con los supuestos habituales ms normalidad, queremos, con a ayuda de una muestra, contrastar la siguiente hiptesis lineal o h : A = c (rango de A = q < p), (6.22)
siendo A de dimensiones q p. Cualquier hiptesis lineal sobre los parmetros o a se puede expresar en la forma (6.22). En particular, mediante adecuada eleccin de A se pueden hacer contrastes de nulidad de uno o varios parmetros, o a de igualdad de dos o ms de ellos, etc. a Observacin 6.1 Llamamos hiptesis lineales a las que pueden o o expresarse del modo (6.22); multitud de hiptesis de inters admiten o e tal expresin, como se ver en lo que sigue. Hay hiptesis, sin embargo, o a o que no pueden escribirse de tal forma. Por ejemplo, restricciones de no negatividad sobre los parmetros (i > 0) o sobre el mdulo de a o 2 + 2 = 1). (cosas como 1 2
76 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES. La forma de efectuar el contraste es la habitual. Se busca un estad stico que bajo la hiptesis nula h siga una distribucin conocida; si el valor obtenido o o en el muestreo de dicho estad stico es raro de acuerdo con lo esperable cuando h es cierta, rechazaremos la hiptesis nula. El estad o stico de contraste y su distribucin se deducen del siguiente teorema: o Teorema 6.2 Sea h : A = c una hiptesis lineal, h el vector de estimao 2 dores m nimo cuadrticos condicionados por h, y SSEh = Y X h a Bajo los supuestos habituales ms el de normalidad en las perturbaciones, se a verica: 1. 2. SSEh SSE = (A c ) [A(X X)1 A ]1 (A c ) Si h : A = c es cierta, Qh = (SSEh SSE)/q Fq,N p SSE/(N p)
en que q p es el rango de A. Demostracion:
SSEh SSE
= = = = =
+2 < (Y X ), (X X h ) > 2 X X h ( h ) (X X)( h ).
2 2 Y X h Y X (6.23) 2 2 Y X + X X h Y X (6.24) 2 2 2 Y X + X X h Y X
(6.25) (6.26) (6.27)
Se ha hecho uso en el paso de (6.25) a (6.26) de que es ortogonal a toda combinacin lineal de las columnas de X, lo que garantiza la nulidad o del producto interno en (6.25). Haciendo uso de la ecuacin (4.11), pg. 56, la expresin (6.27) se cono a o vierte en: SSEh SSE = (A c ) [A(X X)1 A ]1 (A c ). = + (X X)1 X , (6.28)
Esto naliza la demostracin del primer apartado. Por otra parte, como o
6.2. CONTRASTE DE HIPOTESIS LINEALES. tenemos que, cuando se verica la hiptesis h, o (A c) = (A A ) = A(X X)1 X , resultado que llevado a (6.28) proporciona: SSEh SSE = X(X X)1 A [A(X X)1 A ]1 A(X X)1 X
G h
77
(6.29) Esta expresin muestra que SSEh SSE es una forma cuadrtica en o a variables normales (las ) de matriz G que fcilmente comprobamos es idema potente. Por tanto, segn el Lema 6.1, pg. 67, SSEh SSE sigue una disu a tribucin 2 2 , con grados de libertad q iguales al rango de G (= rango(A)). o q Tenemos adems (Teorema 6.1) que: a SSE = Y (I PM )Y 2 2 p N (6.30)
Para demostrar que Qh en el enunciado es una variable aleatoria con distribucin F de Snedecor, slo resta comprobar que numerador y denominador o o son independientes: pero sto es inmediato, ya que e (I PM ) X(X X)1 A [A(X X)1 A ]1 A(X X)1 X = 0.
G
El Lema 6.2 garantiza por tanto la independencia.
Observacin 6.2 Hay cuestiones de inters sobre el Teorema o e 6.2. En primer lugar, es claro que, para un nivel de signicacin , o la regin cr o tica estar formada por valores mayores que Fq,N p . En a efecto, son grandes discrepancias entre SSEh y SSE las que cabe considerar evidencia contra h. Desde otro punto de vista, el apartado 1) del Teorema 6.2 muestra que el estad stico tiene en su numerador una forma cuadrtica que crece al separarse A de c. a Observacin 6.3 La presentacin es puramente heur o o stica; se
ha propuesto el estad stico Qh y encontrado su distribucin, indicno a dose, sin otro apoyo que el sentido com n, qu valores debemos consiu e derar en la regin cr o tica. Podr amos llegar a un resultado anlogo si a

construyramos un estad e stico de contraste basado en la razn geneo ralizada de verosimilitudes: = mx g(; y, X) a mx g(h ; y, X) a
h
siendo h aquellos vericando h : A = c. Ello proporciona una justicacin al estad o stico anterior.
Observacin 6.4 Del enunciado del teorema anterior se sigue o

con facilidad que cuando h no es cierta (y en consecuencia A c = d = 0, Qh sigue una distribucin F de Snedecor no central, con o 2 = t t (vase Apndice B.1), siendo e e parmetro de no centralidad a t = [A(X X)1 A ] 2 (A c ). Ello permite calcular fcilmente la potencia de cualquier contraste a frente a alternativas prejadas, si se dispone de tablas o bacos de la a F de Snedecor no central. En R se dispone de la funcin pf que admite o un parmetro de no centralidad. Alternativamente, puede estimarse la a potencia por simulacin. o
1
R: Ejemplo 6.2 (contraste de una hiptesis lineal) o

Veamos el modo en que contrastar amos una hiptesis lineal geo neral sobre los parmetros de un modelo de regresin lineal. Nos sera o viremos de la funcin lscond para realizar estimacin condicionada o o presentada en el Ejemplo 4.1, pg. 56. a > lscond <- function(X, y, A, d, beta0 = TRUE) { + ajuste <- lsfit(X, y, intercept = beta0) + betas <- ajuste$coefficients + xxinv <- solve(t(X) %*% X) + axxa <- solve(A %*% xxinv %*% t(A)) + betas.h <- betas - xxinv %*% t(A) %*% + axxa %*% (A %*% betas - d) + betas.h <- as.vector(betas.h) + names(betas.h) <- names(ajuste$coefficients) + return(list(betas = betas, betas.h = betas.h, + ajuste.inc = ajuste)) + } Deniremos ahora una nueva funcin, contraste.h, que calcula SSE, o SSEh (utilizando lscond), el estad stico Qh y su nivel de signicacin. o

> contraste.h <- function(X, y, A, d, beta0 = TRUE) { + lscond.result <- lscond(X, y, A, d, + beta0 = beta0) + betas <- lscond.result$betas + betas.h <- lscond.result$betas.h + SSE <- sum((y - X %*% betas)^2) + SSE.h <- sum((y - X %*% betas.h)^2) + numer <- (SSE.h - SSE)/nrow(A) + denom <- SSE/(nrow(X) - ncol(X)) + Qh <- numer/denom + p.value <- 1 - pf(Qh, nrow(A), nrow(X) + ncol(X)) + return(list(Qh = Qh, p.value = p.value)) + } Generemos datos articiales: > X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
79
> beta <- c(2, 3, 4) > y <- X %*% beta + rnorm(6) Sabemos, porque los datos han sido articialmente generados, que 1 = 3 y 2 = 4. Probaremos a continuacin a contrastar la hiptesis o o 1 = 2 , que debiera ser rechazada. La matriz A y vector c especicando dicha hiptesis pueden construirse as o : > A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE) > d <- 0 El contraste puede entonces llevarse a cabo as :

> result <- contraste.h(X, y, A = A, d = d, + beta0 = FALSE) > result$Qh [1] 161.11 > result$p.value [1] 0.0010548 Rechazar amos por consiguiente la hiptesis contrastada para cualo quier nivel de signicacin > 0.0010548. o Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hiptesis de inters de manera ms simple. o e a En el caso que nos ocupa, si realmente 1 = 2 , Y = 0 X0 + 1 X1 + 2 X2 + es equivalente a Y = 0 X0 + 1 (X1 + X2 ) + y las sumas de cuadrados SSE y SSEh podr obtenerse as an : > > > > + SSE <- sum(lsfit(X, y)$residuals^2) Xmod <- cbind(X[, 1], X[, 2] + X[, 3]) SSE.h <- sum(lsfit(Xmod, y)$residuals^2) Qh <- ((SSE.h - SSE)/1)/(SSE/(nrow(X) ncol(X))) (6.32) (6.31)
Puede verse que el valor de Qh as calculado es idntico al obtenido e ms arriba: a > Qh [1] 161.11 Esta tcnica de calcular las sumas de cuadrados SSE y SSEh en dos e regresiones ad-hoc puede ser muy frecuentemente utilizada. En el caso frecuente de hiptesis de exclusin (alguno o varios betas iguales a o o cero), puede obtenerse SSEh de una regresin en que los regresores o correspondientes estn ausentes. Si en nuestro ejemplo quisiramos a e contrastar h : 1 = 2 = 0, podr amos obtener SSE de la regresin o (6.31) y SSEh de la regresin o Y = 0 X0 + , para calcular el estad stico Qh as :

> > > + > SSE <- sum(lsfit(X, y)$residuals^2) SSE.h <- sum(lsfit(X[, 1], y)$residuals^2) Qh <- ((SSE.h - SSE)/2)/(SSE/(nrow(X) ncol(X))) Qh
81
[1] 16956 El valor que dicho estad stico Qh deja en a su derecha en la distribucin o de referencia, > 1 - pf(Qh, 2, nrow(X) - ncol(X)) [1] 8.3193e-07 permite rechazar contundentemente la hiptesis h : 1 = 2 = 0 o contrastada. Fin del ejemplo
6.2.1.
Contraste sobre coecientes i aislados.
El Teorema 6.2 permite obtener como casos particulares multitud de contrastes frecuentemente utilizados. Por ejemplo, la hiptesis h : i1 = 0 puede o contrastarse tomando c = 0 y A = 0 1 0 , ocupando el unico uno la posicin i-sima (recurdese que los parmetros se numeran a o e e a partir de 0 ). En tal caso, Qh puede escribirse as : Qh = (i1 0) [(X X)1 ]1 (i1 0) ii 2 (6.33)
donde (X X)1 = [A(X X)1 A ] designa el elemento en la posicin i-sima o e ii 1 de la diagonal principal de (X X) . Bajo la hiptesis h, (6.33) sigue una o 1 2 2 distribucin F1,N p , y como (X X)ii = tenemos que: o
i1
Qh =
i1 i1
F1,N p tN p
(6.34)
La regla de decisin que se deduce de (6.34) es: o
82 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES. Rechazar h : i1 = 0 al nivel de signicacin si o i1 /2 > tN p . i1 stico t o t-ratio. De El estad stico |i1 /i1 | recibe el nombre de estad forma anloga se contrasta la hiptesis h : i1 = c. a o
6.2.2.
Contraste de signicacin conjunta de la regreo sin. o
Otra hiptesis frecuentemente de inters es: h : 1 = = p1 = 0 es o e decir, nulidad de todos los parmetros, salvo el correspondiente a la columna a de unos, 0 . En este caso,
N
SSEh =
i=1
(Yi Y )2
y la hiptesis h puede expresarse en la forma A = c siendo: o 0 0 A = . . .
una matriz con (p 1) las y p columnas, y:
0 0 0 1 0 0 . . . = 0 | I . . . . . . 0 0 0 0 1 c = 0 0 0
1 0 . . .
Pero SSEh en este caso particular es lo que hemos denido (Teorema 2.4, pg. 28) como SST . Por tanto, a Qh = = = (SST SSE)/(p 1) SSE/(N p) N p (SST SSE) p1 SSE R2 N p p1 (1 R2 )
siendo R el coeciente de correlacin mltiple denido en el Teorema 2.4, pg. o u a 2 29. El contraste de h requiere solamente conocer R . Cuando h es cierta, Qh se distribuye como una Fp1,N p.
6.3. INTERVALOS DE CONFIANZA PARA LA PREDICCION
83
6.3.
Construccin de intervalos de conanza o para la prediccin. o
Supongamos de nuevo que trabajamos sobre el modelo Y = X + con los supuestos habituales ms el de normalidad en las perturbaciones. a Frecuentemente es de inters, adems de la estimacin de los parmetros, la e a o a utilizacin del modelo con nalidad predictiva. o Sea x un vector p 1 de valores a tomar por los regresores. La correspondiente Y ser: Y = x + . Una prediccin Y del valor a tomar por a o = x . la Y es: Y Teorema 6.3 Se verica lo siguiente: 1. 2. E(Y Y ) = 0 E(Y Y )2 = 2 (1 + x (X X)1 x )
Demostracion: El apartado 1) se sigue inmediatamente de las ecuaciones (6.35) y (6.36) a continuacin, consecuencia la primera de los supuestos habituales, y la o segunda de la insesgadez de (Teorema 2.2, pg. 19). a E(Y ) = E(x + ) = x E(Y ) = E(x ) = x (6.35) (6.36)
Se dice que Y es una prediccin insesgada de Y . Observemos que: o E(Y Y )2 = E[x + x ]2 = E[x ( ) + ]2
(6.37) (6.38) (6.39) (6.40) (6.41) (6.42) (6.43)
= E[x ( )]2 + E[ ]2 = E[x ( )( ) x ] + E[ ]2 = x x + 2
= x 2 (X X)1 x + 2 = 2 [1 + x (X X)1 x ]
En el paso de (6.38) a (6.39) se ha hecho uso de la circunstancia de que y son independientes ( depende solamente de , y es perturbacin o de una observacin adicional, distinta de las que han servido para estimar o e independiente de ellas).
84 CAP ITULO 6. REGRESION CON PERTURBACIONES NORMALES. El examen de (6.43) muestra dos cosas. Una, que la varianza del error de prediccin es mayor o igual que la varianza de la perturbacin (ya que o o x (X X)1 x es una forma cuadrtica semidenida positiva). Esto es lgico: a o incorpora una fuente es del todo impredecible, y, adems, la prediccin Y a o en lugar de . adicional de error, al emplear Por otra parte, (6.43) muestra que la varianza del error de prediccin o depende de x . Habr determinadas Y cuya prediccin ser ms precisa que a o a a la de otras. En el Cap tulo 9 volveremos sobre el particular.
6.4.
Sobre la teor a. Pueden ser consultados los manuales repetidamente citados: Seber (1977), Cap. 4, Draper and Smith (1998) Cap. 8, Stapleton (1995) Sec. 3.8, Pea (2002) Sec. 7.7 son unos cuantos. n Sobre generadores de nmeros aleatorios, pueden consultarse Knuth (1968), u Kennedy (1980), Lange (1998), Thisted (1988) y, en general, cualquier texto sobre computacin estad o stica. Sobre el contraste razn generalizada de verosimilitudes, puede verse Cox o and Hinkley (1974) p. 313 y para su aplicacin al contraste de hiptesis o o lineales generales, Stapleton (1995) Sec. 3.8. Sobre la utilizacin de R. En el Ejemplo 4.1, pg. 56 y siguientes, se o a han denido las funciones lscond y contraste.h por motivos didcticos. En a R hay funciones en varios paquetes que proporcionan anloga funcionalidad. a Puede consultarse por ejemplo la documentacin de linear.hypothesis (pao quete car) y glh.test (paquete gmodels). Por lo que hace a intervalos de conanza, que tambin pueden obtenerse e fcilmente de acuerdo con la teor esbozada en la Seccin 6.3, puede ser de a a o utilidad la funcin confint (paquete stats). o El empleo de dichas funciones, sin embargo, presupone familiaridad con la funcin lm, que es objeto de atencin en el Cap o o tulo 7 a continuacin. o
6.4. LECTURA RECOMENDADA. Complementos y ejercicios 6.1 Demustrese que si G es la matriz denida en (6.29) con A e y (X X) ambas de rango completo, entonces rango(G) = rango(A).
85
Cap tulo 7
Estimacin del modelo de o regresin lineal con R. o

En los cap tulos anteriores han aparecido fragmentos de cdigo ilustrando o el modo de llevar a cabo diversos clculos en R. Se presenta aqu la funcin a o lm y algunas otras, para ilustrar tanto los conceptos tericos adquiridos como o la potencia del entorno de modelizacin proporcionado por R. o Este cap tulo es eminentemente prctico y puede ser omitido sin prdia e da de continuidad por lectores que no estn interesados en utilizar R como e herramienta de clculo. a
7.1.
Tipolog de variables explicativas. a
Interesar distinguir dos tipos de variables: cualitativas (tambin llamaa e das categricas) y numricas. Las variables cualitativas se desglosan a su o e vez en nominales y ordinales. Una variable cualitativa nominal especica una caracter stica o atributo que puede tomar un nmero entero (y habitualmente pequeo) de niveles u n o estados. Por ejemplo, una variable Zona podr tomar los niveles o estaa dos: Europa, Africa, Asia, America y Ocean Requeriremos que las a. categor sean exhaustivas, de forma que todo caso muestral pueda recibir as un valor. Si es preciso, podemos crear una categor especial como Otros o a Resto. 87
88
CAP ITULO 7. REGRESION CON R
Una variable cualitativa ordinal se diferencia unicamente de una nominal en que hay una ordenacin natural entre las categor Por ejemplo, en una o as. variable como Nivel de estudios podr amos tener categor como: Sin as estudios, Primarios, Secundarios, Superiores. La diferencia esencial con las variables nominales es que hay una ordenacin entre los distintos niveles: o cada una de las categor en el orden en que se hay escrito implica ms as a estudios que la categor precedente. No hab en cambio, en el ejemplo a a, anterior una ordenacin natural entre las zonas geogrcas. o a Las variables que hemos denominado numricas pueden en principio poe nerse en correspondencia con un intervalo de nmeros reales. Ser el caso de u a variables como Peso Temperatura (aunque en la prctica el nmero de o a u estados que pueden tomar es nito a causa de la precisin tambin nita de o e los instrumentos de medida que empleamos). En cierto sentido, los tres tipos de variables, en el orden en que se han descrito, reejan una mayor nura o contenido informativo: una variable numrie ca puede convertirse en ordinal jando intervalos: por ejemplo, Temperatura podr convertirse en una variable ordinal con niveles Fr Templado a o, y Caliente, al precio de un cierto sacricio de informacin: dos temperao turas de, por ejemplo, 80C y 93C podr ambas convertirse en Caliente, an perdindose la informacin de que la segunda es superior a la primera. e o Anlogamente, una variable ordinal puede tratarse como nominal, haciena do abstraccin de su orden, tambin al precio de sacricar cierta informacin. o e o
Observacin 7.1 En general, no interesar degradar una vao a riable tratndola como un tipo inferior, aunque en algunos casos, puea de convenirnos hacerlo. Por ejemplo, si examinamos la inuencia de la renta sobre el consumo de un cierto bien en una muestra de familias, medir la renta en euros da al coeciente asociado la interpretacin o de Incremento de consumo asociado a un incremento de renta de un euro. T picamente, tendr un valor muy peque o. Adems, el suponer a n a una dependencia lineal del consumo sobre la renta ser en la mayor a a de los casos poco realista. En tal caso, podr convenirnos redenir a la variable renta en categor Los coecientes estimados sern ms as. a a fcilmente interpretables, y tendremos un modelo ms exible, que no a a fuerza una relacin lineal entre renta y consumo. (Adicionalmente, si o la variable se obtiene por encuestacin, los sujetos podr ser ms o an a veraces al encuadrarse en intervalos amplios de renta que al responder directamente sobre su valor.)
7.2. FACTORES Y DATAFRAMES.
89
7.2.
Factores y dataframes.
R ofrece excelentes facilidades para tratar variables de diferentes tipos como regresores. En la jerga de R, una variable cualitativa se denomina factor. Hay factores ordinarios, que permiten manejar variables cualitativas nominales, y factores ordenados (ordered factors), para variables cualitativas ordinales. El Ejemplo 7.1 a continuacin ilustra la manera de operar con o ellos. R: Ejemplo 7.1 Para que una variable sea un factor, hay que
especicarlo. Observemos el siguiente fragmento de cdigo: o > Zona.chr <- c("Europa", "Europa", "Asia", + "Africa", "America", "Oceana", "Asia") > Zona <- as.factor(Zona.chr) > Zona.chr [1] "Europa" "Europa" "Asia" [5] "America" "Oceana" "Asia" > Zona [1] Europa Europa Asia Africa America [6] Oceana Asia Levels: Africa America Asia Europa Oceana Obsrvese que Zona.chr y Zona se imprimen de manera similar, aune que uno es una cadena de caracteres y otro un factor. La diferencia estriba en las comillas en el primer caso y la l nea adicional especicando los niveles en el segundo. Podemos preguntar la clase de objeto con la funcin class o ver la structura con la funcin str para ver la o o diferencia: > class(Zona.chr) [1] "character" > class(Zona) [1] "factor" > str(Zona.chr) chr [1:7] "Europa" "Europa" "Asia" ... "Africa"
90
> str(Zona)
Factor w/ 5 levels "Africa","America",..: 4 4 3 1 2 5 3 Un factor tiene denidos niveles, en tanto una cadena de caracteres no: > levels(Zona.chr) NULL > levels(Zona) [1] "Africa" "America" "Asia" [5] "Oceana" "Europa"
Veamos ahora como denir un factor ordenado: > Estudios <- ordered(c("Superiores", "Medios", + "Medios", "Primarios", "Ningunos")) Si no se especica lo contrario, el orden de los niveles se determina por el orden alfabtico de sus denominaciones. Esto har que en Estudios e a el nivel Medios precediera a Ningunos, y ste a Primarios, lo que e es indeseable: > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos 4 Levels: Medios < Ningunos < ... < Superiores Para especicar un orden, podemos crear el objeto Estudios as : > Estudios <- ordered(c("Superiores", "Medios", + "Medios", "Primarios", "Ningunos", + "Medios", "Primarios"), levels = c("Ningunos", + "Primarios", "Medios", "Superiores")) > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Ningunos < Primarios < ... < Superiores

Podemos de modo anlogo reordenar los niveles. Si, por ejemplo, quea remos revertir el orden, podemos hacerlo as :
91
> Estudios.1 <- ordered(Estudios, levels = c("Superiores", + "Medios", "Primarios", "Ningunos")) o, mas simplemente podemos revertir el orden de los niveles mediante la funcion rev, sin necesidad de enumerarlos. Comprobemos a continuacin que obtenemos en ambos casos el mismo objeto con el orden o de los niveles deseado: > Estudios.2 <- ordered(Estudios, levels = rev(levels(Estudios))) > Estudios.1 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < ... < Ningunos > Estudios.2 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < ... < Ningunos Una manipulacin que deseamos hacer de ordinario con factores no o ordenados es la de poner en primer lugar uno de los niveles, el nivel de referencia. Podemos lograrlo cmodamente con la funcin relevel o o > Zona [1] Europa Europa Asia Africa America [6] Oceana Asia Levels: Africa America Asia Europa Oceana > Zona <- relevel(Zona, ref = "Asia") > Zona [1] Europa Europa Asia Africa America [6] Oceana Asia Levels: Asia Africa America Europa Oceana Veremos en el Ejemplo 7.5 la utilidad de esto. Denamos ahora dos variables numricas: e
92

> Ingresos <- c(13456, 12345, 3456, 1234, + 6789, 4567, 2300) > Mortalidad <- c(0.003, 0.004, 0.01, 0.02, + 0.006, 0.005, 0.015) Podemos reunir variables de diferentes tipos en una dataframe. A todos los efectos, es como una matriz, pero presenta la peculiaridad de que sus columnas pueden ser de diferentes tipos: > Datos <- data.frame(Zona, Estudios, Ingresos, + Mortalidad) > Datos Zona Estudios Ingresos Mortalidad 1 Europa Superiores 13456 0.003 2 Europa Medios 12345 0.004 3 Asia Medios 3456 0.010 4 Africa Primarios 1234 0.020 5 America Ningunos 6789 0.006 6 Oceana Medios 4567 0.005 7 Asia Primarios 2300 0.015 > str(Datos)
data.frame: $ Zona : $ Estudios : $ Ingresos : $ Mortalidad:
7 obs. of 4 variables: Factor w/ 5 levels "Asia","Africa",..: 4 4 1 2 3 5 1 Ord.factor w/ 4 levels "Ningunos"<"Primarios"<..: 4 3 3 2 1 3 2 num 13456 12345 3456 1234 6789 ... num 0.003 0.004 0.01 0.02 0.006 0.005 0.015
Una dataframe tiene la misma representacin interna que una lista. o Podemos referirnos a sus trminos como a los elementos de una lista, e o proporcionando ndices de la y columna: > Datos$Ingresos [1] 13456 12345 > Datos[[3]] [1] 13456 12345 3456 1234 6789 4567 2300 3456 1234 6789 4567 2300
> Datos[, "Ingresos"] [1] 13456 12345 3456 1234 6789 4567 2300

> Datos[3, 2:3] 3 Estudios Ingresos Medios 3456
93
Fin del ejemplo
Una dataframe provee un entorno de evaluacin. Muchas funciones en R o admiten un argumento data que permite especicar la dataframe en la que es preciso buscar las variables que se nombran. Adicionalmente, la instruccin attach hace que las columnas en una dataframe sean accesibles como o variables denidas en el espacio de trabajo. El Ejemplo 7.2, continuacin del o Ejemplo 7.1, lo ilustra. R: Ejemplo 7.2 Comencemos por eliminar del espacio de trabajo algunas variables: > rm(Zona, Estudios, Ingresos, Mortalidad) Si ahora tecleramos el nombre de alguna de ellas obtendr a amos un error. No obstante, tras invocar la funcin attach sus columnas son o visibles como si variables en el espacio de trabajo se tratase: > attach(Datos) > Zona [1] Europa Europa Asia Africa America [6] Oceana Asia Levels: Asia Africa America Europa Oceana La funcin detach revierte el efecto de attach: o > detach(Datos) Si un objeto existe en el espacio de trabajo, su valor oculta el de la columna del mismo nombre en una dataframe attacheada: > Zona <- c("a", "b", "c") > attach(Datos)
94

The following object(s) are masked _by_ .GlobalEnv : Zona > Zona [1] "a" "b" "c" Fin del ejemplo
7.3.
Frmulas o
Bastantes funciones en R hacen uso de frmulas. Permiten, entre otras o cosas, especicar de modo simple modelos de regresin, simplemente nomo brando a la izquierda del s mbolo ~ la variable respuesta, y a la derecha las variables regresores. Una frmula puede proporcionarse como argumento directamente para o estimar un modelo de regresin lineal ordinaria (mediante la funcin lm; un o o ejemplo en la Seccin 7.4), regresin lineal generalizada (mediante la funcin o o o glm) o regresin no lineal (mediante la funcin nlme en el paquete del mismo o o nombre). Por razones didcticas, sin embargo, exploraremos primero el a modo en que los diferentes tipos de variables son tratados en una frmula o por la funcin model.matrix. o La funcin model.matrix recibe como argumentos una frmula y, opcioo o nalmente, una dataframe en la que los trminos de la frmula son evaluados. e o Proporciona la matriz de diseo asociada al modelo que especicamos en la n frmula. o R: Ejemplo 7.3 Supongamos que deseamos investigar la relacin entre la variable Mortalidad y la variable Ingresos. Podemos o construir la matriz de dise o as n : > X <- model.matrix(Mortalidad ~ Ingresos, + data = Datos) > X 1 2 3 4 (Intercept) Ingresos 1 13456 1 12345 1 3456 1 1234
7.3. FORMULAS
5 1 6 1 7 1 attr(,"assign") [1] 0 1 6789 4567 2300
95
Como podemos ver, se ha a adido automticamente una columna de n a unos. Si esto fuera indeseable por alg n motivo, podr u amos evitarlo incluyendo como regresor -1. > X <- model.matrix(Mortalidad ~ -1 + Ingresos, + data = Datos) > X Ingresos 1 13456 2 12345 3 3456 4 1234 5 6789 6 4567 7 2300 attr(,"assign") [1] 1 Obsrvese que la variable Mortalidad no juega ning n papel en la e u conformacin de la matriz de dise o. Podr o n amos omitirla y dar slo el o lado derecho de la frmula, as o : > X <- model.matrix(~Ingresos, data = Datos) > X (Intercept) Ingresos 1 1 13456 2 1 12345 3 1 3456 4 1 1234 5 1 6789 6 1 4567 7 1 2300 attr(,"assign") [1] 0 1
96

Fin del ejemplo
La comodidad que proporciona la utilizacin de frmulas se hace ms o o a evidente, sin embargo, cuando tenemos regresores cualitativos. El Ejemplo 7.4 lo ilustra. R: Ejemplo 7.4 Consideremos un modelo que tiene como regresores Zona, Ingresos y Estudios. Podemos construir su matriz de dise o as n : > X <- model.matrix(~Zona + Estudios + Ingresos, + data = Datos) Las variables Zona y Estudios son cualitativas. Requieren ser tratadas de manera especial, y la funcin model.matrix as lo hace. Veamos la o matriz de dise o que proporciona: n > X 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 (Intercept) ZonaAfrica ZonaAmerica ZonaEuropa 1 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 ZonaOceana Estudios.L Estudios.Q Estudios.C 0 0.67082 0.5 0.22361 0 0.22361 -0.5 -0.67082 0 0.22361 -0.5 -0.67082 0 -0.22361 -0.5 0.67082 0 -0.67082 0.5 -0.22361 1 0.22361 -0.5 -0.67082 0 -0.22361 -0.5 0.67082 Ingresos 13456 12345 3456 1234 6789 4567 2300
7.3. FORMULAS
attr(,"assign") [1] 0 1 1 1 1 2 2 2 3 attr(,"contrasts") attr(,"contrasts")$Zona [1] "contr.treatment" attr(,"contrasts")$Estudios [1] "contr.poly"
97
La variable Ingresos (numrica) ha sido dejada tal cual. La variable e Zona es cualitativa nominal, y requiere ser desglosada en tantas columnas como niveles tiene (as el asociado a cada columna recoge el efec, to del correspondiente nivel). Eso es lo que ha hecho model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido de otro modo. El nivel omitido (Asia) pasa as a formar parte del caso de referencia: la funcin relevel (ver Ejemplo 7.1) permitir cambiar fcilmente el o a a nivel que forma parte del caso de referencia. El tratamiento de las variables ordinales como Estudios es algo ms elaborado. En una variable ordinal hay una nocin natural de a o proximidad entre niveles: el nivel de estudios Medios est ms cerca del a a nivel Superiores que el nivel Primarios. Lo que hace model.matrix es conceptualmente equivalente a hacer lo siguiente (detalles en la Observacin 7.2, pg. 98): o a 1. Asignar a cada nivel de Estudios un valor entero, respetando el orden de la variable: Ningunos=1, Primarios=2, Medios=3 y Superiores=4. 2. Con la variable Estudios as codicada, crear tantas colum nas para la variable Estudios como niveles tenga, de la forma: (Estudios)0 , (Estudios)1 , (Estudios)2 , (Estudios)3 . La primera columna, que es constante, es automticamente desechada a si en la matriz de dise o existe columna de unos, para evitar la muln ticolinealidad. Las restantes son rotuladas con las letras L (Linear), Q (Quadratic), C (Cubic), y as sucesivamente. Si empleamos todas las columnas que model.matrix crea para una variable ordinal, obtenemos exactamente el mismo subespacio que habr amos obtenido con columnas de ceros y unos como las empleadas para una variable nominal: la ventaja de utilizar una base de dicho subespacio como la que model.matrix construye, es que permite en ocasiones realizar una modelizacin ms simple: podemos, a voluntad, o a emplear en un modelo de regresin algunas, varias o todas las columnas o
98

como regresores, para modelizar un efecto ms o menos suave sobre a la variable respuesta. Fin del ejemplo
Observacin 7.2 Se indica en el Ejemplo 7.4 que el efecto de o

una variable ordinal se recoge de modo conceptualmente equivalente a construir potencias de orden creciente de la variable ordinal codicada por valores enteros que respetan el orden. Ayudar representar grcaa a mente las columnas correspondientes de la matriz X frente a los enteros codicando los niveles de la variable Estudios. Para ello, eliminamos primero niveles duplicados y representaremos los restantes: > > > + + > > x <- as.numeric(Datos[, "Estudios"]) i <- !duplicated(x) plot(x[i], X[i, "Estudios.L"], type = "b", pch = "L", xaxp = c(1, 4, 3), xlab = "x", ylab = "Estudios.{L,Q,C}") points(x[i], X[i, "Estudios.Q"], pch = "Q") points(x[i], X[i, "Estudios.C"], pch = "C")
0.6
C Q
L Q
0.4
Estudios.{L,Q,C}
0.2
0.0
0.2
0.4
Q 0.6 L 1 2 x
Q C 3 4
7.3. FORMULAS
Hemos dibujado una l nea uniendo las L para destacar su crecimiento lineal. Las Q puede verse que se sit an sobre una parbola y u a las C sobre una funcin c bica. o u Un vistazo al grco anterior muestra, sin embargo, que el trmino a e lineal, por ejemplo, no toma los valores 1, 2, 3 4, ni el cuadrtico 1, 4, a 9, 16. En efecto, > X[i, 6:8] 1 2 4 5 Estudios.L Estudios.Q Estudios.C 0.67082 0.5 0.22361 0.22361 -0.5 -0.67082 -0.22361 -0.5 0.67082 -0.67082 0.5 -0.22361
99
En realidad se han rescalado las columnas y se han ortogonalizado: > round(crossprod(X[i, 6:8])) Estudios.L Estudios.Q Estudios.C Estudios.L Estudios.Q Estudios.C 1 0 0 0 1 0 0 0 1
Ello se hace por razones de conveniencia numrica y de interpretacin. e o Aunque por razones didcticas hemos construido primero la matriz a de dise o y extraido luego un subconjunto de las y columnas para n ver como se codicaba la variable Estudios, R proporciona un modo ms simple de hacerlo: a > contrasts(Datos[, "Estudios"]) .L .Q .C Ningunos -0.67082 0.5 -0.22361 Primarios -0.22361 -0.5 0.67082 Medios 0.22361 -0.5 -0.67082 Superiores 0.67082 0.5 0.22361
Observacin 7.3 El anterior es el comportamiento por omio

sin de la funcin model.matrix. Podemos alterarlo especicando o o distintos modos de desdoblar los factores y factores ordenados. Ello se hace invocando la funcin options de modo similar al siguiente: o
100

options(contrasts=c("contr.treatment","contr.poly")) La primera opcin en el argumento contrasts se aplica a los factoo res, la segunda a los factores ordenados. Por ejemplo, para los factores podemos especicar que se desdoblen en tantas columnas como niveles haya, sin incluir ning n nivel en el caso de referencia. Para ello, u deberemos proporcionar contr.sum como primer valor de contrasts: options(contrasts=c("contr.sum","contr.poly")) Vase la documentacin de contrasts para ms detalles. e o a Adicionalmente, podemos invocar directamente las funciones contr.sum, contr.treatment, contr.poly, contr.helmert para obtener informacin sobre el diferente modo en que quedar o a codicado un factor. Por ejemplo, > NivelEstudios <- levels(Datos[, "Estudios"]) > contr.sum(NivelEstudios) [,1] [,2] [,3] Ningunos 1 0 0 Primarios 0 1 0 Medios 0 0 1 Superiores -1 -1 -1 > contr.treatment(NivelEstudios) Ningunos Primarios Medios Superiores Primarios Medios Superiores 0 0 0 1 0 0 0 1 0 0 0 1
> contr.poly(NivelEstudios) .L .Q .C [1,] -0.67082 0.5 -0.22361 [2,] -0.22361 -0.5 0.67082 [3,] 0.22361 -0.5 -0.67082 [4,] 0.67082 0.5 0.22361 Obsrvese que mientras contrasts se invoca tomando como argue mento un factor, las funciones contr.sum y similares toman como argumento el vector de niveles de un factor.
7.4. LA FUNCION LM.
101
7.4.
La funcin lm. o
La funcin lm es un instrumento potente y cmodo de utilizar para el o o anlisis de regresin lineal. Puede utilizarse con tan solo dos argumentos: a o una frmula y una dataframe que suministra los valores para evaluar las o expresiones en dicha frmula. Por ejemplo, as o : ajuste <lm(y ~ x1 + x2 + x4, data=datos)
La funcin lm construye entonces la matriz de diseo mediante la funcin o n o model.matrix y estima el modelo deseado, suministrando un cmulo de inu formacin sobre la estimacin. El Ejemplo 7.5 a continuacin proporciona o o o detalles. R: Ejemplo 7.5 Veamos en primer lugar los datos que utilizaremos. Se trata de datos correspondientes a 47 estados en EE.UU. y referidos al a os 1960. Forman parte del paquete MASS (soporte n del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instruccin library(MASS)). Tras hacerlo, podemos obtener o informacin detallada sobre los datos tecleando help(UScrime). o > library(MASS) > UScrime[1:3, 1:5] M So Ed Po1 Po2 1 151 1 91 58 56 2 143 0 113 103 95 3 142 1 89 45 44 > str(UScrime)
data.frame: $ M : int $ So : int $ Ed : int $ Po1 : int $ Po2 : int $ LF : int $ M.F : int $ Pop : int $ NW : int $ U1 : int $ U2 : int $ GDP : int
47 obs. of 16 variables: 151 143 142 136 141 121 127 131 157 140 ... 1 0 1 0 0 0 1 1 1 0 ... 91 113 89 121 121 110 111 109 90 118 ... 58 103 45 149 109 118 82 115 65 71 ... 56 95 44 141 101 115 79 109 62 68 ... 510 583 533 577 591 547 519 542 553 632 ... 950 1012 969 994 985 964 982 969 955 1029 ... 33 13 18 157 18 25 4 50 39 7 ... 301 102 219 80 30 44 139 179 286 15 ... 108 96 94 102 91 84 97 79 81 100 ... 41 36 33 39 20 29 38 35 28 24 ... 394 557 318 673 578 689 620 472 421 526 ...
102
$ $ $ $ Ineq: Prob: Time: y : int num num int

261 194 250 167 174 126 168 206 239 174 ... 0.0846 0.0296 0.0834 0.0158 0.0414 ... 26.2 25.3 24.3 29.9 21.3 ... 791 1635 578 1969 1234 682 963 1555 856 705 ...
La funcin str permite ver la estructura de cualquier objeto en R. Lo o que muestra en el fragmento anterior es que UScrime es una dataframe. En este caso, todas las variables son numricas, algunas reales (num) y e otras enteras (int). Vemos tambin que tiene 47 las (=observaciones) e y 16 columnas (=posibles regresores). Probemos ahora a hacer una regresin1 . La variable y (tasa de o criminalidad) podemos relacionarla con la desigualdad(Ineq), probabilidad de ser encarcelado (Prob) y con un indicador de Estado sure o n (So): > fit <- lm(y ~ Ineq + Prob + So, data = UScrime) > fit Call: lm(formula = y ~ Ineq + Prob + So, data = UScrime) Coefficients: (Intercept) 1538.36 So 242.99
Ineq -1.58
Prob -8698.46
El objeto fit, al imprimirlo, proporciona una informacin muy suo maria: apenas la descripcin del modelo ajustado y los coecientes o estimados. El empleo de la funcin summary, sin embargo, proporcioo na un estadillo con informacin mucho ms completa. o a > summary(fit) Call: lm(formula = y ~ Ineq + Prob + So, data = UScrime) Residuals: Min 1Q Median -662.8 -163.8 -56.1
1
3Q Max 82.5 1057.4
No se arma que el modelo que ensayamos sea el mejor en ning n sentido: es slo una u o ilustracin. El Cap o tulo 12 abordar la cuestin de cmo seleccionar modelos. a o o
7.4. LA FUNCION LM.

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1538.36 345.84 4.45 6e-05 Ineq -1.58 1.95 -0.81 0.4220 Prob -8698.46 2725.42 -3.19 0.0026 So 242.99 169.48 1.43 0.1589
103
(Intercept) *** Ineq Prob ** So --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 353 on 43 degrees of freedom Multiple R-squared: 0.22, Adjusted R-squared: 0.166 F-statistic: 4.05 on 3 and 43 DF, p-value: 0.0127 Desmenucemos la salida anterior. Se imprime, en primer lugar, el modelo ajustado y unos estad sticos sobre los residuos (m nimo, mximo a y cuartiles, es decir, valores dejando a su izquierda el 25 %, 50 % y 75 % de los residuos; el segundo cuartil es la mediana). A continuacin, teo nemos un estadillo proporcionando para cada regresor mencionado al margen: 1. Su i (bajo Estimate). 2. Su i (bajo Std. Error). 3. Su estad stico t, i i
(bajo t value). 4. La probabilidad bajo la hiptesis nula H0 : i = 0 de obtener un o valor del estad stico t tan o ms alejado de cero que el obtenido a (bajo Pr(>|t|)). A continuacin tenemos o SSE , N p (Residual standard error), que estima , los grados de libertad 2 N p, (43 degrees of freedom), R2 (que toma el valor 0.22) y R (Adjusted R-squared; este ultimo estad stico ser introducido en el a Cap tulo 12). Finalmente, tenemos el estad stico Qh para contrastar
104

signicacin conjunta de la regresin, como se indica en la Seccin 6.2.2 o o o (F-statistic). Aqu toma el valor 4.05. Dicho valor deja a su derecha en una distribucin F3,43 una cola de probabilidad 0.0127, que es el o nivel de signicacin conjunto de la regresin ajustada. o o El objeto compuesto fit contiene la informacin que ha permitido o imprimir todos los anteriores resultados y mucha otra, cuyos nombres son autoexplicativos: > attributes(fit) $names [1] "coefficients" [3] "effects" [5] "fitted.values" [7] "qr" [9] "xlevels" [11] "terms" $class [1] "lm" Podemos referirnos a los componentes de fit y emplearlos en clculos a subsiguientes. Por ejemplo, para obtener la suma de cuadrados de los residuos, SSE, podr amos hacer: > SSE <- sum(fit$residuals^2) > SSE [1] 5363970 El estadillo anterior suger que el regresor Prob era muy signicativo, a en tanto los restantes no lo eran. Podemos contrastar la hiptesis H0 : o Ineq = So = 0 del modo sugerido al nal del Ejemplo 6.2, pg. 80: a ajustamos una segunda regresin eliminando los regresores Ineq y So, o > fit.h <- lm(y ~ Prob, data = UScrime) calculamos la suma de cuadrados de sus residuos, > SSE.h <- sum(fit.h$residuals^2) y a continuacin el estad o stico Qh asociado a la hiptesis y los grados o de libertad del mismo: "residuals" "rank" "assign" "df.residual" "call" "model"
7.4. LA FUNCION LM.

> > > > > N <- nrow(UScrime) q <- 2 p <- 4 Qh <- ((SSE.h - SSE)/q)/(SSE/(N - p)) Qh
105
[1] 1.0417 La probabilidad que el valor 1.0417 del estad stico deja en la cola a su derecha es > 1 - pf(Qh, q, N - p) [1] 0.3616 lo que sugiere que podemos prescindir de dichos dos regresores. La instruccin anova proporciona una descomposicin de la suma o o de cuadrados de los residuos correpondiente a cada regresor cuando se introducen en el orden dado. Comprese por ejemplo, a > anova(fit) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Ineq 1 220530 220530 1.77 0.191 Prob 1 1040010 1040010 8.34 0.006 ** So 1 256417 256417 2.06 0.159 Residuals 43 5363970 124743 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 con: > fit2 <- lm(y ~ Prob + Ineq + So, data = UScrime) > anova(fit2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Prob 1 1257075 1257075 10.08 0.0028 **
106

Ineq 1 3466 3466 0.03 0.8684 So 1 256417 256417 2.06 0.1589 Residuals 43 5363970 124743 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Fin del ejemplo
No hay ninguna necesidad ni aparente ventaja en hacerlo as pero a efec, tos puramente ilustrativos re-estimaremos la regresin anterior convirtiendo o previamente la variable indicadora So (Estado del Sur) en una variable nominal y la variable Ineq en una variable ordinal (o factor ordenado). Para lo primero, basta que reemplacemos la columna So de la dataframe del siguiente modo:
> UScrime[, "So"] <- factor(UScrime[, "So"], + labels = c("Norte", "Sur"))
Para la segunda variable, dividiremos su recorrido en tres intervalos, y a continuacin denimos un factor ordenado con tres categor o as:
> Temp <- ordered(cut(UScrime[, "Ineq"], + breaks = 3), labels = c("Baja", "Media", + "Alta")) > UScrime[, "Ineq"] <- Temp
Podemos ahora repetir la estimacin anterior: o R: Ejemplo 7.6 (continuacin del Ejemplo 7.5) o
> fit3 <- lm(y ~ Prob + Ineq + So, data = UScrime) > summary(fit3) Call: lm(formula = y ~ Prob + Ineq + So, data = UScrime) Residuals: Min 1Q Median -641.9 -195.5 -55.4
3Q Max 124.3 1059.5
7.4. LA FUNCION LM.

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1212.4 134.8 8.99 2.4e-11 Prob -9013.8 2717.7 -3.32 0.0019 Ineq.L -143.2 132.7 -1.08 0.2866 Ineq.Q -10.6 110.4 -0.10 0.9238 SoSur 284.8 184.3 1.55 0.1298
107
(Intercept) *** Prob ** Ineq.L Ineq.Q SoSur --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.232, Adjusted R-squared: 0.159 F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229
La variable ordinal Ineq da lugar a tres trminos (constante, omitido e por colineal con la columna de unos, lineal y cuadrtico). La variable a nominal So se desglosa tambin en dos: el nivel Norte se integra en e el caso de referencia y el parmetro restante mide el efecto deferencial a del nivel Sur respecto al nivel Norte. A t tulo ilustrativo, podemos ajustar la anterior regresin empleando un diferente desdoblamiento o del regresor cualitativo So: > options(contrasts = c("contr.sum", "contr.poly")) > fit4 <- lm(y ~ Prob + Ineq + So, data = UScrime) > summary(fit4) Call: lm(formula = y ~ Prob + Ineq + So, data = UScrime) Residuals: Min 1Q Median -641.9 -195.5 -55.4
3Q Max 124.3 1059.5
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1354.7 151.0 8.97 2.6e-11 Prob -9013.8 2717.7 -3.32 0.0019
108
Ineq.L Ineq.Q So1 -143.2 -10.6 -142.4

132.7 110.4 92.1 -1.08 -0.10 -1.55 0.2866 0.9238 0.1298
(Intercept) *** Prob ** Ineq.L Ineq.Q So1 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.232, Adjusted R-squared: 0.159 F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229 (Vase la Observacin 7.3.) Vemos un slo regresor asociado a So1, el e o o primer nivel de So; el asociado al segundo nivel es su opuesto, ya que contr.sum fuerza los coecientes asociados a un regresor nominal a sumar cero. Si observamos los dos ajustes, vemos que son idnticos. Lo unie co que se altera es la interpretacin de los parmetros. En fit3, el o a tratarse de un Estado del Sur ten como efecto incrementar la tasa a de criminalidad en 284.8, respecto de la tasa prevalente en un Estado del Norte de anlogas caracter a sticas. La parametrizacin en el model o fit4 expresa lo mismo de otro modo: en un Estado del Norte, la criminalidad desciende en -142.4 sobre el nivel promedio de Norte y Sur, mientras que en un Estado del Sur aumenta en 142.4. La diferencia entre ambos niveles contin a siendo 284.8. u Puede encontrarse una discusin exhaustiva de las diferentes opo ciones de parametrizacin disponibles en Venables and Ripley (1999a), o Sec. 6.2. Fin del ejemplo
7.5.
Sobre R. Son ya bastantes las obras que es posible consultar sobre la utilizacin de R como herramienta para los clculos que requiere la regresin o a o lineal. Una excelente referencia es Venables and Ripley (1999a). Exclusivamente orientado a modelos lineales es Faraway (2005).
Cap tulo 8
Inferencia simultnea. a
8.1.
8.1.1.
Problemas que plantea el contrastar m lu tiples hiptesis simultneas o a

Evidencia contra una hiptesis o
Si examinamos la teor sobre contrastes de hiptesis presentada en la a o Seccin 6.2 veremos que el mtodo ha sido el habitual en Estad o e stica no bayesiana. Los pasos se pueden esquematizar as : 1. Fijar una hiptesis H0 sobre los parmetros de un modelo. o a 2. Seleccionar un estad stico cuya distribucin sea conocida cuando H0 es o cierta y que se desv de modo predecible de dicha distribucin cuando a o H0 no es cierta. 3. Calcular el valor del estad stico en una determinada muestra. 4. Si el valor de dicho estad stico es anmalo respecto de lo que o esperar amos bajo H0 , rechazar H0 . La lgica subyacente es: Como cuando H0 es cierta es dif que se de o cil un valor del estad stico como el observado, lo ms plausible es que H0 no sea a cierta. 109
110
CAP ITULO 8. INFERENCIA SIMULTANEA.
Cuando el estad stico que empleamos en el contraste tiene una distribucin continua, todos los valores posibles tienen probabilidad cero. No obstano te, podemos ordenarlos de ms a menos raros de acuerdo con su densidad a respectiva. Ejemplo 8.1 Para una muestra X1 , . . . , Xn procedente de una distribucin N (, 2 ), todos los posibles valores del estad o stico X tienen probabilidad cero. No obstante, la distribucin de dicho estad o stico una N (, 2 /n) genera de modo frecuente observaciones en las cercan de , y slo raramente valores en las colas. Consideraremos a as o estos ultimos raros y favoreciendo el rechazo de H0 . Tienen densidad menor que los cercanos a .
Fin del ejemplo
Tendr inters en lo que sigue la nocin de nivel de signicacin emp a e o o rico 1 . Denicin 8.1 Llamamos nivel de signicacin emp o o rico asociado al valor observado de un estad stico a la probabilidad de obtener en el muestreo (bajo H0 ) valores tan o ms raros que el obtenido. a Ejemplo 8.2 En el Ejemplo 8.1, supongamos que H0 : = 0. Supongamos conocida 2 = 1. Sea una muestra con n = 100, e ima ginemos que obtenemos un valor de X de 0.196 (= 1,96 1001 ). El nivel de signicacin emp o rico (u observado) ser 0.05, porque baa jo H0 hay probabilidad 0.05 de observar valores de X igual o ms a alejados de que el que se ha presentado.
Fin del ejemplo
Si en ocasiones al abordar un contraste de hiptesis prejamos de ano temano el nivel de signicacin que deseamos utilizar (y la regin cr o o tica), es muy frecuente realizar el contraste sin una regin cr o tica preespecicada y tomar el nivel de signicacin emp o rico como una medida del acuerdo (o desacuerdo) de la evidencia con la hiptesis de inters. Niveles de signicacin o e o emp ricos muy pequeos habr as de entenderse como evidencia contra la n an hiptesis nula objeto de contraste. o
1
O p-value, en la literatura inglesa.
8.1. MULTIPLES HIPOTESIS SIMULTANEAS
111
8.1.2.
Cmo de raro ha de ser algo para ser realo mente raro?
El siguiente ejemplo2 ilustra que un resultado aparentemente muy raro puede no serlo tanto. Ejemplo 8.3 Consideremos un mono frente a una mquina de a escribir. Imaginemos que tras un periodo de tiempo observamos el conjunto de folios tecleados por el mono y constatamos que ha escrito sin una sla falta de ortograf Hamlet! o a Bajo la hiptesis nula H0 : mono irracional, tal resultado es abo solutamente inveros mil. La probabilidad de que golpeando al azar el teclado un mono logre tal cosa es rid culamente baja. Supongamos que una obra como Hamlet requiriera, entre blancos y caracteres, de 635000 digitaciones. Supongamos que hay 26 letras ms caracteres de a puntuacin, etc. totalizando 32 posibilidades de digitacin. Componer o o Hamlet totalmente al azar consistir en apretar la tecla correcta sua cesivamente 635.000 veces, algo que, suponiendo las 32 posibilidades de digitacin equiprobables, tendr probabilidad: o a
p= 1 32
635000
5,804527 10955771 .
(8.1)
La observacin de un mono que teclea Hamlet ser prcticamente o a a imposible bajo H0 : habr amos de rechazar H0 y pensar en alguna alternativa (quiz Shakespeare reencarnado en un mono?) a Imaginemos ahora una multitud de monos a los que situamos frente a mquinas de escribir, hacindoles teclear a su entero arbitrio 635.000 a e digitaciones. Espec camente, imaginemos 10955771 monos. Supongamos que examinando el trabajo de cada uno de ellos, nos topamos con que el mono n-simo ha compuesto Hamlet! Lo separar e amos de sus congneres para homenajearlo como reencarnacin de Shakese o peare? Claramente no; porque, entre tantos, no es extra o que uno, n por puro azar, haya tecleado Hamlet. De hecho, si todos los conjuntos de 635.000 digitaciones son equiprobables, del trabajo de 10955771 monos esperar amos obtener en torno a 5,8045 transcripciones exactas de Hamlet. Lo observado no es raro en absoluto. Fin del ejemplo
El ejemplo anterior, deliberadamente extremo e inveros mil, ilustra un punto importante. Algo, aparentemente lo mismo, puede ser raro o no dependiendo del contexto. Observar un mono tecleando Hamlet es rar simo, pero
2
Parfrasis de un clebre comentario de Bertrand Russell. a e
112
si seleccionamos el mono entre una mir ada de ellos precisamente porque ha tecleado Hamlet, ya no podemos juzgar el suceso observado del mismo modo. Hemos seleccionado la observacin por su rareza, no podemos extraarnos o n de que sea rara! Cuando seleccionamos la evidencia, hemos de tenerlo en cuenta al hacer inferencia. De otro modo, estaremos prejuzgando el resultado.
8.1.3.
Anlisis exploratorio e inferencia a
Es importante entender lo que el Ejemplo 8.3 intenta transmitir. El error, frecuente en el trabajo aplicado, es seleccionar la evidencia e ignorar este hecho al producir armaciones o resultados de tipo inferencial como rechazar tal o cual hiptesis con nivel de signicacin p, construir tal o cual intero o valo con conanza (1 p). Es el valor de p que reportamos el que resulta completamente irreal a menos que corrijamos el efecto de la seleccin. o Ejemplo 8.4 Regresemos al Ejemplo 8.3. Imaginemos la segunda situacin descrita en que uno entre los 10955771 monos examinados o compone Hamlet. Ser incorrecto rechazar la hiptesis H0 : Los monos a o son irracionales. atribuyendo a esta decisin un nivel de signicacin o o de 5,804525 10955771 . Por el contrario, la probabilidad de que ninguno de los monos hubiera tecleado Hamlet ser a:
p0 = (1 p)10
955771
1 635000 = 1 32 0,0030138,
10955770
el ultimo valor calculado haciendo uso de una aproximacin de Poisson o (con media = 5,804527). Por tanto, la probabilidad de observar una o ms transcripciones de Hamlet (un suceso tan raro o ms raro que el a a observado, bajo H0 ) es tan grande como 1 0,0030138 = 0,9969862! Dif cilmente considerar amos evidencia contra la hiptesis nula algo o que, bajo H0 , acontece con probabilidad mayor que 0.99. Fin del ejemplo
Nada nos impide, sin embargo, hacer anlisis exploratorio: examinar nuesa tros datos, y seleccionar como interesante la evidencia que nos lo parezca. Ejemplo 8.5 De nuevo en el Ejemplo 8.3, no hay nada reprobable en examinar el trabajo de cada uno de los monos y detenernos con
8.1. MULTIPLES HIPOTESIS SIMULTANEAS

toda atencin a examinar al animal que produce Hamlet. Seguramente o le invitar amos a seguir escribiendo. Ser del mayor inters que ese a e mono produjera a continuacin Macbeth. o Lo que es reprobable es seleccionar el unico mono que teclea Hamlet y reportar el hallazgo como si ese mono fuera el unico observado.
113
Fin del ejemplo
8.1.4.
Inferencia simultnea y modelo de regresin lia o neal ordinario
Pero qu tiene sto que ver con el modelo de regresin lineal, objeto de e e o nuestro estudio? Bastante. En ocasiones, hemos de hacer uso de modelos con un nmero u grande de parmetros. Cuando ello ocurre, hay muchas hiptesis que podea o mos plantearnos contrastar. Si lo hacemos, hemos de ser conscientes de que algunas hiptesis sern objeto de rechazo con una probabilidad mucho mayor o a que el nivel de signicacin nominal empleado para contrastar cada una de o ellas. El siguiente ejemplo lo aclara. Ejemplo 8.6 Supongamos el modelo
Y = 0 X 0 + 1 X 1 + . . . + 99 X 99 + .
Supongamos, por simplicidad, normalidad de las perturbaciones y ortogonalidad de las columnas de la matriz de dise o. Dicho modelo n tiene su origen en nuestra completa ignorancia acerca de cul de las a cien variables regresoras consideradas, si es que alguna, inuye sobre la respuesta. Si quisiramos contrastar la hiptesis H0 : i = 0, i = 0, . . . , 99, e o podr amos (si se verican los supuestos necesarios) emplear el contraste presentado en la Seccin 6.2.2, pg. 82. Podr o a amos ser ms ambia ciosos e intentar al mismo tiempo ver cul o cuales i son distintos de a cero. Ser incorrecto operar as a : 1. Contrastar las hiptesis H0i : i = 0 al nivel de signicacin o o /2 comparando cada t-ratio en valor absoluto con tN p . 2. Si alg n t-ratio excede tN p , rechazar la hiptesis H0i , y por u o consiguiente H0 , reportando un nivel de signicacin . o
/2
114

Es fcil ver por qu es incorrecto. Bajo H0 hay probabilidad tan slo a e o /2 de que un t-ratio prejado exceda en valor absoluto de tN p . Pero la probabilidad de que algn t-ratio exceda de tN p es3 u Prob(Alg n i = 0) = 1 (1 )p . u (8.2)
/2
mayor (en ocasiones mucho mayor ) que . Tomemos por ejemplo el caso examinado en que p = 100 y supongamos = 0,05. La probabilidad de obtener alg n t-ratio fuera de l u mites es 1 0,95100 = 0,9940. Lejos de tener un nivel de signicacin de = 0,05, el que tenemos es o de 0,9940. Contrastar la hiptesis H0 de este modo tiene una probao bilidad de falsa alarma de 0.9940. Si nuestro propsito fuera puramente exploratorio, nada debe dio suadirnos de estimar el modelo con los cien regresores y examinar luego las variables asociadas a t-ratios mayores, quiz estimando un a modelo restringido con muestra adicional. Lo que es inadmisible es dar un nivel de signicacin incorrectamente calculado. o Fin del ejemplo
El problema de inferencias distorsionadas es grave y muchas veces indetectable. Pensemos en el investigador que hace multitud de regresiones, quiz a miles, a cul ms descabellada. Por puro azar, encuentra una pocas con R2 a a muy alto, escribe un art culo y lo publica. Si el experimento es reproducible, cabe esperar que otros investigadores tratarn de replicarlo y, al no lograrlo a 2 el R alto era casualidad, la supercher quedar al descubierto. Pero a a si la investigacin versa sobre, por ejemplo, Ciencias Sociales, en que con o frecuencia una y slo una muestra est disponible, todo lo que sus colegas o a podrn hacer es reproducir sus resultados con la unica muestra a mano. A a menos que el primer investigador tenga la decencia de sealar que el alto R2 n obtenido era el ms alto entre miles de regresiones efectuadas (lo que permia tir calcular correctamente el nivel de signicacin y apreciar de un modo a o realista su valor como evidencia), es fcil que su trabajo pase por ciencia. a De nuevo es preciso insistir: no hay nada objetable en la realizacin de o miles de regresiones, quiz con carcter exploratorio. Tampoco es objetable el a a concentrar la atencin en la unica (o las pocas) que parecen prometedoras. Al o revs, ello es muy sensato. Lo que es objetable es reportar dichas regresiones e como si fueran las unicas realizadas, el resultado de estimar un modelo pre jado de antemano, dando la impresin de que la evidencia muestral sustenta o
Bajo la hiptesis de independencia entre los respectivos t-ratios, hiptesis que se veo o rica por la normalidad de las perturbaciones y la ortogonalidad entre las columnas de la matriz de dise o. n
3
8.2. DESIGUALDAD DE BONFERRONI.
115
una hiptesis o modelo pre-establecidos, cuando lo cierto es que la hiptesis o o o modelo han sido escogidos a la vista de los resultados.
8.2.
Desigualdad de Bonferroni.
Consideremos k sucesos, Ei , (i = 1, . . . , k), cada uno de ellos con probabilidad (1 ). Designamos por E i el complementario del suceso Ei . La probabilidad de que todos los sucesos Ei , (i = 1, . . . , k) acaezcan simulta neamente es: Prob{k Ei } = 1 Prob{k Ei } = 1 Prob{k Ei } 1 k i=1 i=1 i=1 (8.3)
Se conoce (8.3) como desigualdad de Bonferroni de primer orden. Es una igualdad si los Ei son disjuntos. Muestra que la probabilidad conjunta de varios sucesos puede, en general, ser muy inferior a la de uno cualquiera de ellos. Por ejemplo, si k = 10 y Prob{Ei } = 0,95 = 1 0,05, la desigualdad anterior solo permite garantizar que Prob{k Ei } 1 10 0,05 = 0,50. i=1 Consideremos ahora el modelo Y = X + y los siguientes sucesos:
/2 E1 : [(1 1 tN p ) . . . /2 Ek : [(k t ) k N p
cubre 1 ]
(8.4) (8.5)
cubre k ]
(8.6)
Cada Ei por separado es un suceso cuya probabilidad es 1 . De acuerdo con (8.3), sin embargo, todo cuanto podemos asegurar acerca de Prob{k Ei } es que su probabilidad es superior a 1 k. i=1 Las implicaciones son importantes. Si regresramos Y sobre X0 , . . . , Xp1 a y quisiramos obtener intervalos de conanza simultneos para los pare a a metros 0 , , p1, ser claramente incorrecto emplear los que aparecen en a (8.4)(8.6). Si actusemos de este modo, el nivel de conanza conjunto no a ser el deseado de 1 , sino que tan slo podr a o amos armar que es mayor que 1 k. Si queremos intervalos de conanza simultneos al nivel 1 , podr a amos construir intervalos para cada uno de los parmetros con un nivel de conanza a = k . Haciendo sto, tendr e amos que la probabilidad de que todos los i fueran cubiertos por sus respectivos intervalos, ser mayor, de acuerdo con a (8.3), que 1 k = 1 k( k ) = 1 . Ello se logra, sin embargo, al coste de ensanchar el intervalo de conanza correspondiente a cada i quiz ms de a a lo necesario. En lo que sigue veremos procedimientos para lograr el mismo resultado con intervalos en general ms estrechos. a
116
8.3.
Intervalos de conanza basados en la ma xima t.
Supongamos que tenemos k variables aleatorias independientes, t1 , . . . , tk con distribucin t-Student, y nmero comn n de grados de libertad. La vao u u riable aleatoria mx{|t1 |, . . . , |tk |} sigue una distribucin que se halla tabua o lada4 . Sea u el cuantil 1 de dicha distribucin, es decir, un valor que o k,n resulta superado con probabilidad por mx{|t1 |, . . . , |tk |}. Entonces, a Prob{k [|ti | u ]} = 1 , i=1 k,n dado que si u acota con probabilidad 1 al mximo, acota simultneaa a k,n mente con la misma probabilidad la totalidad de las variables aleatorias. Si ai /ai (i = 1, . . . , k) fueran independientes, y la hiptesis nula o h : ai = 0 (i = 1, . . . , k) fuera cierta, tendr amos que:
a i Prob u = 1 k,n ai i=1
k
(8.7)
Es claro que ai /ai (i = 1, . . . , k) no son independientes. Sin embargo, la distribucin aludida del mximo valor absoluto de k variables t de Student o a est tambin tabulada cuando dichas variables tienen correlacin por pares. a e o (Esto sucede en algunos casos particulares, como el de ciertos diseos de n Anlisis de Varianza equilibrados: la correlacin entre parejas de t-ratios a o es la misma, y fcil de calcular.) a An cuando la correlacin por pares de t-ratios no sea siempre la misma, u o (8.7) es de utilidad. Suministra intervalos simultneos de conanza aproxia mada 1 . En caso de que conozcamos , podemos emplear la expresin o (8.7) con uk,n reemplazado por uk,n,, extra ste ultimo de la tabla corresdo e pondiente; en caso de que no conozcamos , o sta no sea constante, podemos e utilizar u k,n,=0 , lo que hace en general los intervalos calculados con ayuda de (8.7) conservadores (es decir, la probabilidad conjunta en el lado izquierdo de (8.7) es mayor que 1 ). Es importante sealar que, si nuestro objetivo es contrastar una hiptesis n o del tipo h : A = c con rango(A) > 1, tenemos que emplear un contraste como el descrito en la Seccin 6.2, pg. 75. El comparar cada una de las o a /2 variables aleatorias (ai ci )/ai (i = 1, . . . , k) con una tN p supone emplear un nivel de signicacin mayor que . Como caso particular, es o
4
Vase, por ej., Seber (1977), Apndice E. e e
8.4. METODO S DE SCHEFFE.
117
inadecuado contrastar la hiptesis h : 1 = = p = 0 comparando cada o /2 uno de los t-ratios con tN p ; tal contraste tendr un nivel de signicacin a o sensiblemente superior a , en especial si p es grande. En el caso de que el contraste conjunto rechace h : A = c y queramos saber qu las de A son culpables del rechazo, podr e amos comparar u o (ai ci )/ai (i = 1, . . . , k) con uk,n (k = nmero de las de A). N tese que es perfectamente posible rechazar la hiptesis conjunta y no poder o rechazar ninguna de las hiptesis parciales correspondientes a las las de A. o
8.4.
Mtodo S de Sche. e e
Este mtodo permite la construccin de un nmero arbitrario de intervalos e o u de conanza simultneos, de manera muy simple. Necesitaremos el siguiente a lema: Lema 8.1 Sea L una matriz simtrica de orden k k denida positiva, y c, e b vectores k-dimensionales cualesquiera. Se verica que: [c b]2 sup c Lc c=0 Demostracion: Siendo L denida positiva, existe una matriz R cuadrada no singular tal que: L = RR . Si denimos: v = R c u = R1 b y tenemos en cuenta que por la desigualdad de Schwarz, < u, v >2 u 2 v 2 1 (8.11) (8.9) (8.10)

b L1 b
(8.8)
entonces sustituyendo (8.9) y (8.10) en (8.11) obtenemos (8.8).
Podemos ahora abordar la construccin de intervalos de conanza simulo tneos por el mtodo de Sche. Supongamos que tenemos k hiptesis lineales a e e o hi : ai = ci (i = 1, . . . , k) cuyo contraste conjunto deseamos efectuar. Si denominamos:
118
a1 a A= 2 ak
c1 c c= 2 ck
(8.12)
dichas k hiptesis se pueden escribir como h : A = c. Cuando h es cierta, o sabemos (Seccin 6.2) que: o (A c) [A(X X)1 A ]1 (A c) Fq,N p q 2 (8.13)
siendo q = m n(d, p), en que d = rango A y p = rango(X X). Las inversas pueden ser inversas generalizadas, si los rangos de las matrices as lo exigen. Llamemos c a A. Bajo h, sabemos que: 1 = Prob ( c ) [A(X X)1 A ]1 ( c ) q 2 Fq,N p (8.14) c c = Prob ( c ) L1 ( c ) q 2 Fq,N p c c (8.15) en que L = [A(X X)1 A ]. Teniendo en cuenta el Lema 8.1, obtenemos:

2
1 = Prob sup =
h =0 Prob h =0
[h ( c )] c q 2 Fq,N p h Lh h ( c ) c h
Lh
1 2
(8.16)
La ecuacin (8.17) muestra que (q 2 Fq,N p) 2 es un valor que acota con o probabilidad 1 un nmero arbitrariamente grande de cocientes como: u h ( c ) c h Lh Por consiguiente, cuantos intervalos para h c construyamos de la forma: h c (h Lh )(q 2 Fq,N p ) (8.19) (8.18)
1 2 2 (q Fq,N p)
(8.17)
tendrn conanza simultnea 1 . a a
119
Esto es ms de lo que necesitamos pues slo quer a o amos intervalos de conanza simultneos para c1 , . . . , ck . El mtodo de Sche proporciona a e e intervalos de conanza conservadores (ms amplios, en general, de lo estrica tamente necesario). Obsrvese que, en el caso particular en que A = Ipp , los intervalos de e conanza en (8.19) se reducen a:
(h (X X)1 h )(p 2 Fp,N p )
(8.20)
expresin que ser frecuente en la prctica. Cuando el conjunto de hiptesis o a a o simultneas que se contrastan congure una matriz A de rango q < p, ser a a sin embargo conveniente tener en cuenta este hecho, ya que obtendremos intervalos menos amplios. R: Ejemplo 8.1 (uso del mtodo de Sche) e e
El siguiente cdigo implementa el mtodo de Sche para contraso e e tar la igualdad entre todas las parejas de parmetros intervinientes a en un modelo. La matriz de dise o es una matriz de ceros y unos. n Si, por ejemplo, Xkl fuera uno cuando la k-sima parcela se siembra e con la variedad l-sima de semilla y la variable respuesta recogiera las e cosechas obtenidas en las diferentes parcelas, los parmetros i ser a an interpretables como la productividad de las diferentes variedades de semilla (suponemos que no hay otros factores en juego; las parcelas son todas homogneas). e En una situacin como la descrita tendr inters contrastar too a e das las hiptesis del tipo: hij : i j = 0. Aquellas parejas para o las que no se rechazase corresponder a variedades de semilla no an signicativamente diferentes. Fcilmente se ve que el contraste de todas las hiptesis de intea o rs agrupadas (h : A = c ) no es de gran inters: no nos interesa e e saber si hay algunas variedades de semilla diferentes, sino cules son. a Fcilmente se ve tambin que, incluso para un n mero moderado de a e u variedades de semilla, hay bastantes parejas que podemos formar y el realizar m ltiples contrastes como hij : i j = 0 requerir el uso de u a mtodos de inferencia simultnea. e a Comencemos por construir una matriz de dise o y generar artin cialmente las observaciones: > X <- matrix(c(rep(1, 5), rep(0, 25)), + 25, 5) > X
120

[,1] [,2] [,3] [,4] [,5] 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [21,] [22,] [23,] [24,] [25,]
> b <- c(3, 4, 4, 5, 5) > y <- X %*% b + rnorm(25, sd = 0.1) Construyamos la matriz deniendo la hiptesis conjunta A = c : o > > > > p <- ncol(X) N <- nrow(X) A <- cbind(1, diag(-1, p - 1)) A [,1] [,2] [,3] [,4] [,5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1
[1,] [2,] [3,] [4,]
> q <- nrow(A)

Aunque por motivos didcticos hemos constru A del modo que a do se ha visto, hay funciones standard que permiten hacerlo con mayor comodidad. > A <- t(contrasts(as.factor(1:5))) > A [1,] [2,] [3,] [4,] 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 5 -1 -1 -1 -1
121
que es equivalente a la A precedente. Habiendo p betas a comparar, habr un total de p(p1) compaa 2 raciones a efectuar. Construimos una matriz cada una de cuyas las corresponde a una comparacin: o > > > + + + + > H <- matrix(0, p * (p - 1)/2, p) j <- 0 for (i in ((p - 1):1)) { H[(j + 1):(j + i), (p - i):p] <- cbind(1, diag(-1, i)) j <- j + i } H [,1] [,2] [,3] [,4] [,5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 0 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 0 1 -1 0 0 0 1 0 -1 0 0 0 1 -1
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
El siguiente fragmento de cdigo construye ahora todos los intero valos de la forma dada por (8.20) y los imprime:
122
> > > > > > + + + + + + + + + +

fit <- lsfit(X, y, intercept = FALSE) betas <- fit$coefficients s2 <- sum(fit$residuals^2)/(N - p) qsf <- q * s2 * qf(0.05, q, N - p) xxi <- solve(t(X) %*% X) for (i in 1:nrow(H)) { cat("Intervalo comp. ", H[i, ]) z <- sqrt(t(H[i, ]) %*% xxi %*% H[i, ] * qsf) d <- t(H[i, ]) %*% betas cat(" es: (", d - z, " , ", d + z, ")") if ((d - z < 0) && (d + z > 0)) cat("\n") else cat(" * \n") }
Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo
comp. comp. comp. comp. comp. comp. comp. comp. comp. comp.
1 1 1 1 0 0 0 0 0 0
-1 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 1 -1 0 0 1 0 -1 0 1 0 0 -1 0 1 -1 0 0 1 0 -1 0 0 1 -1
es: es: es: es: es: es: es: es: es: es:
( ( ( ( ( ( ( ( ( (
-1.0463 , -0.94141 ) * -1.0631 , -0.95825 ) * -2.0886 , -1.9837 ) * -2.0670 , -1.9622 ) * -0.069268 , 0.035591 ) -1.0947 , -0.98989 ) * -1.0732 , -0.96834 ) * -1.0779 , -0.97305 ) * -1.0564 , -0.9515 ) * -0.030881 , 0.073979 )
Vemos que la mayor de intervalos de conanza simultneos no cubren a a el cero. Los correspondientes a 2 3 y 4 5 si lo hacen, como esperbamos, ya que en ambas parejas los parmetros han sido jados a a al mismo valor.
Fin del ejemplo
8.5. EMPLEO DE METODOS DE INFERENCIA SIMULTANEA.
123
8.5.
Empleo de mtodos de inferencia simule tnea. a
Si el desarrollo anterior es formalmente simple, puede no ser obvio, en cambio, en que situaciones es de aplicacin. Las notas siguientes esbozan o 5 algunas ideas sobre el particular . Emplearemos inferencia simultnea cuando a priori, y por cualquier a motivo, estemos interesados en mltiples contrastes (o intervalos de u conanza) y queramos que el nivel de signicacin conjunto sea 1 . o Esta situacin se presenta con relativa rareza en la prctica estad o a stica. Ms importante, emplearemos los mtodos anteriores cuando la eleccin a e o de hiptesis o parmetros objeto de contraste o estimacin se haga a o a o la vista de los resultados. Esta situacin es muy frecuente en el anlisis o a exploratorio. Ser incorrecto, por ejemplo, estimar una ecuacin con a o veinte regresores, seleccionar aquel i con el mximo t-ratio, y comparar a dicho t-ratio con una t de Student con grados de libertad adecuados. Dado que hemos seleccionado el i de inters como el de mayor t-ratio, e hemos de comparar ste con los cuantiles de la distribucin del mximo e o a de k (k = 20 en este caso) variables aleatorias con distribucin t de o Student (u 20 ). 20,N Por ultimo, conviene resaltar la diferencia entre el contraste de varias hiptesis simultneas ai = ci agrupadas en A = c mediante Qh o a (Seccin 6.2) y el que hace uso de (8.7). El primero es perfectamente o utilizable; el segundo ser, en general, conservador menos rechazos de a los que sugiere el nivel de signicacin nominal, pero tiene la ventaja o de arrojar luz sobre cuales de las subhiptesis ai = ci son respono sables del rechazo, caso de que se produzca. Esta informacin queda o sumergida al emplear Qh .
Puede consultarse tambin Trocniz (1987a) Cap. 5 y Cox and Hinkley (1974), Sec. e o
7.4.
124
CAP ITULO 8. INFERENCIA SIMULTANEA. Complementos y ejercicios 8.1 Un investigador sospecha que la concentracin de una toxio na en la sangre puede estar relacionada con la ingesta de alg n tipo de u alimento. Realiza un completo estudio en que para N = 500 sujetos mide la concentracin de dicha toxina y las cantidades consumidas o de 200 diferentes tipos de alimento. Cree razonable proponer como modelo explicativo,
Y = 0 + 1 X1 + . . . + 200 X200 + .
Tras estimar los 201 parmetros del mismo, se plantea contrastar la a hiptesis como H0 : 1 = . . . = 200 y considera las siguientes posibio lidades: Comparar cada uno de los t-ratios i / con el cuantil tN p ;/2 .
i
Idem con el cuantil correspondiente de una distribucin del mo a ximo de k variables t de Student, con grados de libertad apropiados. Calcular el estad stico Qh para la hiptesis H0 : 1 , . . . , 200 = 0 o Juzga los diferentes procedimientos, e indica con cul (o cules) de a a ellos tendr amos garantizada una probabilidad de error de tipo I no superior al prejado. y comparar con F200,500201; .
8.2 Preocupado por el posible impacto de las antenas de telefon mvil sobre la salud de los ni os, un pol a o n tico solicita un listado completo de las 15320 escuelas del pa a menos de 500 metros de una s antena. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia que se han registrado en dichas escuelas. Aparece un caso llamativo: en la escuela X con 650 ni os hay tres n que han contraido la enfermedad, lo que, de acuerdo con los clculos a realizados por nuestro pol tico, asistido por un epidemilogo, acono tecer por azar con probabilidad 0,0003. Al d siguiente acude al a a Parlamento y pide la dimisin del Ministro de Sanidad: Hay dice o evidencia concluyente de que las antenas de telefon mvil inuyen a o en la prevalencia de la leucemia entre la poblacin infantil. Un evento o como el registrado en la escuela X slo se presentar por azar con o a probabilidad 0,0003. Comenta.
Cap tulo 9
Multicolinealidad.
9.1.
Introduccin. o
Hemos visto (Cap tulo 3) que, en presencia de multicolinealidad exacta entre las columnas de la matriz de diseo X, la proyeccin de y sobre M = n o R(X) sigue siendo unica, pero no hay una unica estimacin de . Dec o amos entonces que el vector de parmetros no estaba identicado. a 1 Este Cap tulo analiza esta cuestin con mayor detalle. En particular, o aborda las siguientes cuestiones: 1. Es estimable una cierta combinacin lineal c de los parmetros? o a 2. Si c es estimable, cul es la varianza de la estimacin?. De qu a o e depende la precisin con que pueden estimarse distintas combinaciones o lineales de los parmetros? a 3. Cmo escoger la matriz de diseo X u observaciones adicionales a la o n misma si el objetivo es estimar determinadas combinaciones lineales nima? c con varianza m Responder a la primera requiere que caractericemos las formas lineales estimables. Ntese que cuando c es un vector de ceros con un 1 en una o unica posicin, la primera cuestin incluye, como caso particular, la de si un o o parmetro concreto es estimable. a
1
Basado en Silvey (1969).
125
126
CAP ITULO 9. MULTICOLINEALIDAD.
La segunda cuestin introducir la idea de multicolinealidad aproximada. o a Mientras que desde un punto de vista formal la matriz de diseo es de rango n deciente o no lo es, en la prctica interesa distinguir aqullas situaciones en a e que la matriz de diseo es de rango casi deciente. Cuando esto ocurra, en n un sentido que se aclarar ms abajo, todo es estimable, pero algunas formas a a lineales c lo son con gran imprecisin: la varianza de su mejor estimador o lineal insesgado depende de la direccin del vector c en R(X X). o La tercera cuestin hace referencia a un tema de gran inters; el de diseo o e n ptimo. Admitido que algunas formas lineales quiz slo pueden ser estimadas o a o con gran varianza cmo habr que escoger o ampliar X en los casos en que o a somos libres de ampliar la muestra? El principal hallazgo al responder a las dos primeras cuestiones ser que a combinaciones lineales c con c aproximadamente colineal a un vector propio de (X X) de valor propio asociado pequeo, son las de estimacin n o ms imprecisa. La consecuencia ser que haremos lo posible en nuestros dia a seos experimentales para que, si c es una forma lineal de inters, no n e haya vectores propios de (X X) con valor propio pequeo aproximadamente n en la misma direccin de c . Recurriremos para ello a ampliar la muestra, o si podemos hacerlo, o a procedimientos ad-hoc de manipulacin de dichos o valores propios pequeos para obtener estimadores diferentes del MCO. Esta n cuestin se estudia en el Cap o tulo 10. Realizaremos un anlisis formal de la multicolinealidad en las Seccioa nes 9.4 y siguientes. Previamente ser de inters abordar la cuestin desde a e o una perspectiva informal (en la Seccin 9.2) y examinar los s o ntomas que evidencian problemas de multicolinealidad en una matriz de diseo (Secn cin 9.3). o
9.2.
Una aproximacin intuitiva o
La Figura 9.1 recoge sendas situaciones de multicolinealidad exacta (en el panel superior) y multicolinealidad aproximada (en el inferior). En el panel superior, PM y = 5,3 1,9 X0 = 2,65 0,95 X1 = 1,325 0,475 (9.1)
Puede comprobarse que X0 = 0,5 X1 , por lo que la matriz de diseo n que tuviera a ambos vectores por columnas ser de rango deciente. Cona secuentemente, los estimadores MCO de los parmetros 0 y 1 no estn a a un vocamente determinados. Puede comprobarse que PM y = 0 X0 + 1 X1 (9.2)
9.2. UNA APROXIMACION INTUITIVA
127
Figura 9.1: Multicolinealidad exacta (panel superior) y aproximada (panel inferior).
X0 X1 PM y
X0 X1 PM y
128
se verica con 0 = 2 y 1 = 0 con 0 = 0 y 1 = 4, por ejemplo. De hecho, o cualesquiera 0 , 1 vericando 0 + 21 = 2 son una solucin de (9.2). o En el panel inferior de la Figura 9.1, PM y = 5,3 1,9 X0 = 2,75 0,75 X1 = 1,525 ; 0,675 (9.3)
puede comprobarse que ahora PM y = 0,9544X0 + 1,7544X1 . Si, no obstante, PM y fuera ligeramente diferente, con los mismos regresores, PM y = 5,4 1,8 X0 = 2,75 0,75 X1 = 1,525 0,675 (9.4)
tendr amos que la solucin unica ser PM y = 1,263X0 + 1,2632X1 . Una o a pequea perturbacin en PM y ha originado un cambio drstico en los valores n o a de los estimadores. Si examinamos el panel inferior de la Figura 9.1, podemos entender fcila mente lo que sucede: los regresores son linealmente independientes y generan el plano horizontal, pero tienen una colinealidad acusada. Un leve cambio en la posicin de PM y hace que sea mucho ms colineal con un regresor que con o a otro, y provoca una drstica modicacin en los valores de 0 y 1 . a o Tenemos as que si en situaciones de multicolinealidad exacta los par a metros (o algunos de entre ellos) son radicalmente inestimables, cuando el rango de la matrix X es completo, pero algunas de sus columnas son acusadamente colineales, la estimacin es posible, pero imprecisa. Decimos que o estamos ante una situacin de multicolinealidad aproximada. o La multicolinealidad aproximada es, en esencia, una matriz de diseo pon bre, que no permite deslindar con precisin el efecto de cada regresor sobre o la variable respuesta. Es una situacin muy frecuente en la prctica, a medio o a camino entre la multicolinealidad exacta y la ortogonalidad entre los regresores. La Seccin que sigue detalla algunos s o ntomas que permiten percibir su existencia.
9.3.
Deteccin de la multicolinealidad aproo ximada
Hay algunos indicios y estad sticos que pueden ayudar en el diagnstico o de multicolinealidad.
9.3. DETECCION DE LA MULTICOLINEALIDAD APROXIMADA 129 Elevado R2 y todos los parmetros no signicativos. La multicolia nealidad aproximada se pone de maniesto en elevadas varianzas de los para metros estimados que, como consecuencia, son de ordinario no signicativos y frecuentemente toman signos contrarios a los previstos. Una situacin t o pica es aqulla, aparentemente paradjica, en que todos e o los parmetros en son no signicativos y sin embargo R2 es muy elevado. a Parece que ningn regresor ayuda a ajustar el regresando, y sin embargo u todos en conjunto lo hacen muy bien! Ello se debe a que la multicolinealidad no permite deslindar la contribucin de cada regresor. o Valores propios y nmero de condicin de (X X). La existencia de u o relaciones lineales aproximadas entre las columnas de X se traduce en relaciones lineales aproximadas entre las columnas de (X X). Los mtodos usuales e para examinar el condicionamiento de una matriz en anlisis numrico son a e por tanto de aplicacin. En particular, puede recurrirse a calcular los valores o propios de la matriz (X X); uno o mas valores propios muy pequeos (cero, n en caso de multicolinealidad perfecta) son indicativos de multicolinealidad aproximada. A menudo se calcula el nmero de condicin de la matriz (X X), deniu o do como 1 /p ; nmeros de condicin grandes evidencian gran disparidad u o entre el mayor y menor valor propio, y consiguientemente multicolinealidad aproximada. Hay que notar, sin embargo, que se trata de un indicador relativo, que, en particular, depende de la escala en que se miden las respectivas columnas de la matriz X algo perfectamente arbitrario. Factores de incremento de varianza (VIF). Otra prctica muy usual a consiste en regresar cada columna de X sobre las restantes; un R2 muy elevado en una o ms de dichas regresiones evidencia una relacin lineal aproximaa o da entre la variable tomada como regresando y las tomadas como regresores. Llamemos R2 (i) al R2 resultante de regresar X i sobre las restantes columnas de X. Se dene el factor de incremento de varianza (variance ination factor) VIF(i) as : 1 def VIF(i) = ; (9.5) 1 R2 (i) valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0,90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las restantes columnas de X. Observacin 9.1 El nombre de factores de incremento de vao
rianza tiene la siguiente motivacin. Supongamos que X tiene sus o
130

columnas normalizadas de modo que (X X) es una matriz de correla cin (elementos diagonales unitarios). La varianza de i es 2 (X X)ii , o ii denota el elemento en la la y columna i de la matriz en que (X X) (X X)1 . Si X tuviera sus columnas ortogonales, (X X) (y por tanto (X X)1 ) ser matrices unidad y Var(i ) = 2 ; por tanto, (X X)ii recoge el an factor en que se modica en general Var(i ) respecto de la situacin o de m nima multicolinealidad (= regresores ortogonales). Se puede demostrar que (X X)ii = (1 R2 (i))1 , lo que muestra que se trata precisamente del VIF(i).
9.4.
Caracterizacin de formas lineales estio mables.
Teorema 9.1 La forma lineal c es estimable si, y solo si, c es una combinacin lineal de los vectores propios de X X asociados a valores propios no o nulos. Demostracion: Observemos que el enunciado no es sino una parfrasis del Teorema 3.1, a pg. 45. La siguiente cadena de implicaciones, que puede recorrerse en ambas a direcciones, establece la demostracin. o c estimable d : c = E[d Y ] c = d X c = d X

(9.6) (9.7) (9.8) (9.9) (9.10) (9.11) (9.12)
c=Xd c R(X ) c R(X X) c = 1 v1 + + pj vpj
siendo v1 , . . . , vpj los vectores propios de (X X) asociados a valores propios no nulos. El paso de (9.10) a (9.11) hace uso del hecho de que tanto las columnas de X como las de X X generan el mismo subespacio2 de Rp . La
Es inmediato ver que R(X X) R(X ), pues si v R(X X) a : v = X Xa = X d, siendo d = Xa. Por otra parte, R(X X) no es subespacio propio de R(X ), pues ambos tienen la misma dimensin. Para verlo, basta comprobar que toda dependencia o lineal entre las columnas de X X es una dependencia lineal entre las columnas de X. En efecto, X X b = 0 b X X b = d d = 0 d = 0 X b = 0.
2
9.4. CARACTERIZACION DE FORMAS LINEALES ESTIMABLES. 131 equivalencia entre (9.11) y (9.12) hace uso del hecho de que los vectores propios de R(X X) asociados a valores propios no nulos generan R(X X).
Hay una forma alternativa de llegar al resultado anterior, que resulta interesante en s misma y util para lo que sigue. Sea V la matriz diagonalizadora de X X, y denamos: Z = XV = V
(9.13) (9.14)
Entonces, como V V = I tenemos que: X = XV V = Z (9.15)
y por consiguiente el modelo Y = X + se transforma en: Y = Z + . El cambio de variables y parmetros ha convertido la matriz de diseo en a n una matriz de columnas ortogonales: Z Z = (XV ) (XV ) = V X XV = (9.16)
siendo una matriz cuya diagonal principal contiene los valores propios de X X. Sin prdida de generalidad los supondremos ordenados de forma que e los p j primeros s son no nulos, y los restantes j son cero: p = p1 = = pj+1 = 0. Observemos que de (9.14) se deduce, dado que V es ortogonal, que = V . Por consiguiente, es equivalente el problema de estimar al de estimar , pues el conocimiento de un vector permite con facilidad recuperar el otro. Las ecuaciones normales al estimar son: (Z Z) = = Z y o en forma desarrollada:
(9.17)
1 0 0 2 . . . . . . 0 0 0 0 . . . . . . 0 0
... ... .. .
0 0 . . .
. . . pj . . . 0 = Z y ... 0 . . . 0 . .. . . . . . . ... 0 ... 0
... 0 . . . 0 . . . . . .
(9.18)
132
El sistema (9.18) es indeterminado; solo los (p j) primeros s pueden obtenerse de l. Obsrvese adems que de (9.18 ) se deduce que var(i) 1/i , e e a (i = 1, . . . , p j). Consideremos una forma lineal cualquiera c . Tenemos que: c = c V V = (c V ) = (V c )
(9.19)
y consiguientemente una estimacin de c vendr dada por (V c ) . Por o a tanto, c ser estimable si es estimable, o si c depende slo de aquellos a o s que pueden ser estimados. Es decir, en el caso de rango (p j) correspon diente a las ecuaciones normales (9.18), c podr estimarse si (V c) tiene a nulas sus ultimas j coordenadas, lo que a su vez implica: c vp c vp1 . . . c vpj+1 (9.20) (9.21) (9.22) (9.23)
o Para que c sea estimable, c debe poder escribirse como combinacin lineal de los vectores propios de (X X) que no guran en (9.20)(9.23): c = 1 v1 + + pj vpj . Toda forma estimable debe por tanto ser expresable as : c = (1 v1 + + pj vpj ) , resultado al que hab amos llegado. Recapitulemos: una forma lineal c es estimable si c = 1 v1 + + pj vpj , es decir, no depende de vectores propios de (X X) asociados a valores propios nulos. Tal como suger la Seccin 9.2, podemos sin embargo a o esperar que formas lineales que son estrictamente estimables lo sean muy imprecisamente, en situaciones de multicolinealidad aproximada. La Seccin o que sigue formaliza esta intuicin, mostrando que si c depende de vectores o propios de valor propio cercano a cero, la forma lineal c ser estimable a slo con gran varianza. o (9.24)
9.5. VARIANZA EN LA ESTIMACION DE UNA FORMA LINEAL. 133
9.5.
Varianza en la estimacin de una forma o lineal.
Si premultiplicamos ambos lados de las ecuaciones normales (X X) = X Y por vi , (i = 1, . . . , p j), tenemos: vi (X X) = vi X Y i vi = vi X Y y tomando varianzas a ambos lados: 2 var(vi ) = i = = = De la igualdad (9.25) se deduce que: var(vi ) = Adems, para cualquier i = j se tiene: a cov(vi , vj ) = vi vj = = = = vi (X X)1 vj 2 vi j 1 vj 2 2 j 1 vi vj 0 2 i (9.26) var(vi X Y ) vi X 2 IXvi vi X Xvi 2 i 2
(9.25)
(9.27)
La varianza de cualquier forma estimable c , teniendo en cuenta que puede escribirse como en (9.24), y haciendo uso de (9.26) y (9.27), ser: a var(c ) = var[(1 v1 + + pj vpj ) ] = 2 var(v1 ) + + 2 var(vpj )
1 pj
2 1
= 2
2 2 + + pj 1 pj 2 2 pj 1 ++ 1 pj
(9.28)
134
La expresin (9.28) es reveladora; la varianza en la estimacin de c deo o 2 pender de la varianza de la perturbacin y de la direccin de c. Si c no a o o puede expresarse como combinacin lineal de los vectores propios con valor o propio no nulo, c no es estimable. Si c = 1 v1 + + pj vpj y los s multiplicando a vectores propios con reducido valor propio son sustanciales, los correspondientes sumandos tendern a dominar la expresin (9.28). a o En denitiva, la varianza en la estimacin de una forma lineal c depeno de, fundamentalmente, de cun colineal es c con vectores propios de reducido a valor propio. Hemos razonado en esta Seccin y la precedente en el caso de que j valores o propios de X X son exactamente cero. Es claro que si todos los valores propios son mayores que cero, todas las formas lineales sern estimables, con varianza: a var(c ) = var[(1 v1 + + pj vpj ) ] = 2 var(v1 ) + + 2 var(vp )
1 2 = 1
(9.29)
= 2
2 + + p 1 p 2 2 1 ++ p 1 p
p 2
(9.30)
9.6.
Eleccin ptima de observaciones. o o
La expresin (9.28) y comentario posterior muestran que, para guarecero nos de varianzas muy grandes en la estimacin de algunas formas lineales, o debemos actuar sobre los valores propios ms pequeos de (X X), incremena n 3 tndolos . En lo que sigue, examinamos esta cuestin con ms detalle. a o a Supongamos que tenemos un conjunto de N observaciones (y | X), y nos planteamos ampliar X con una la adicional xN +1 (e y con el correspondiente valor observado de Y ) de modo que se reduzca al mximo la varianza en la a estimacin de una determinada forma lineal c en que estamos interesados. o Supondremos tambin en lo que sigue (X X) de rango completo, aunque e quiz con acusada multicolinealidad4 . Emplearemos los sub a ndices N + 1 y N para designar estimaciones respectivamente con y sin esta observacin o
O suprimindolos. Los mtodos de regresin sesgada del Cap e e o tulo 10 hacen expl cita esta idea. 4 Los resultados se pueden generalizar al caso en que (X X) es de rango deciente, y slo mediante la nueva la xN +1 se hace c estimable. o
3
9.6. ELECCION OPTIMA DE OBSERVACIONES. adicional. Tenemos entonces que: N = 2 (X X)1 N+1 = 2 (X X + xN +1 xN +1 )1
2 c N = 2 c (X X)1 c 2 c N+1 = 2 c (X X + xN +1 xN +1 )1 c
135
(9.31) (9.32) (9.33) (9.34)
Entonces,
2 2 c N c N+1 = 2 c [(X X)1 (X X + xN +1 xN +1 )1 ]c
(9.35)
y el problema es encontrar xN +1 maximizando esta expresin. Sea V la matriz o que diagonaliza a (X X). Denominemos: a = V c z = V xN +1 D = V (X X)V Entonces, (9.35) puede transformarse as :
2 2 c N c N+1 = 2 c V V [(X X)1 (X X + xN +1 xN +1 )1 ]V V c
(9.36) (9.37) (9.38)
= 2 a [D 1 V (X X + xN +1 xN +1 )1 V ]a = 2 a [D 1 (V (X X + xN +1 xN +1 )V )1 ]a = 2 a [D 1 (D + z z )1 ]a D 1 z z D 1 1 + z D 1 z
(9.39)
Pero (vase Teorema A.2, pg. 228): e a (D + z z )

1
=D
(9.40)
Sustituyendo (9.40) en (9.39):

2 2 c N c N+1 = 2 a
D 1 z z D 1 a 1 + z D 1 z
2
(9.41)
= 2
ai zi i i 2 zi 1+ i i
(9.42)
Obsrvese que el problema de maximizar (9.35) carece de sentido si no e imponemos restricciones, pues la expresin equivalente (9.42) es montona o o
136
creciente al multiplicar z por una constante k mayor que la unidad5 . Necesi2 o tamos una restriccin del tipo z z = i zi = K 2 para obtener una solucin o unica. Formando entonces el lagrangiano, ai zi i i 2 zi 1+ i i
2 2 zi K 2
(z ) = 2
(9.43)
y derivando respecto a zi , (i = 1, . . . , p), obtenemos p igualdades de la forma: ai zi ai 1+ i i 1+

i 2 zi i 2 zi i
ai zi i
zi i
zi = 0
(9.44)
Denominando: A =
i
ai zi i
i 2 zi i
(9.45) (9.46)
B =
1+
las p igualdades anteriores toman la forma: ai A zi A2 zi 2 =0 i B i B 2 (9.47)
Multiplicando por zi cada una de las anteriores igualdades y sumndolas, a puede despejarse: = A2 2 K 2B2 (9.48)
y por consiguiente de (9.47) se obtiene: ai A zi A2 A2 2 2 zi = 0 i B i B 2 K B zi

5
(i = 1, . . . , p) (i = 1, . . . , p)
(9.49) (9.50)
1 1 + 2 i K
B ai A i
Observemos que al multiplicar z por k el numerador queda multiplicado por k 2 , en tanto slo una parte del denominador lo hace. Es pues claro que el numerador crece ms o a que el denominador, y el cociente en consecuencia aumenta.
9.6. ELECCION OPTIMA DE OBSERVACIONES. o sea: zi i ai 1 + 1 i K2 = ai 1 + Ki 2
137
(9.51)
para i = 1, . . . , p. Las anteriores p igualdades pueden expresarse en notacin o matricial as : z (I + K 2 D)1 a (9.52)
Por tanto, la la a aadir a X para mejorar al mximo la estimacin de c n a o ser: a xN +1 = (por (9.52)) = (por (9.36)) = = = Vz V (I + K 2 D)1 a V (I + K 2 D)1 V V a V (I + K 2 D)1 V c [V (I + K 2 D)V ]1 c [I + K 2 (X X)]1 c
Recordemos que hemos obtenido una solucin unica para z (y en cono secuencia xN +1 ) slo mediante la imposicin de una restriccin de escala o o o 2 2 o i zi = K . Es decir, podemos determinar la direccin de z , pero no su norma. El examen de (9.42) hace evidente que una norma tan grande como sea posible es lo deseable. Cabe hacer dos comentarios sobre esta ultima armacin. El primero, que o es lgico que as sea. Si 2 es ja, es claro que siempre preferiremos las de o mdulo muy grande, pues si: o Yi = mi + i = 0 + + p1 xi,p1 + i (9.53)
incrementar el mdulo de xN +1 equivale a incrementar |mi |; y haciendo o |mi | i podemos reducir en trminos relativos el peso de i en yi . e En la prctica, sin embargo, hay un l a mite al valor de |mi |, cuyo crecimiento desaforado podr llevarnos a regiones en las que las Yi dejan de ser a una funcin aproximadamente lineal de los regresores. Por ejemplo, si el moo delo intenta ajustar una constante biolgica como funcin lineal de ciertos o o tipos de nutrientes, hay un l mite prctico a los valores que pueden tomar los a regresores: el impuesto por las cantidades que los sujetos bajo estudio pueden ingerir. En denitiva, el desarrollo anterior suministra la direccin en que debe o tomarse una observacin adicional para mejorar al mximo la varianza en o a
138
la estimacin de c . Tomaremos xN +1 tan grande como sea posible en o dicha direccin. Si no tuviramos una forma estimable unica como objetivo, o e una estrategia sensata consistir en tomar observaciones de forma que se a incrementasen los menores valores propios de la matriz (X X). Podr amos tambin aceptar como criterio el de maximizar el determinante de (X X). e Este criterio se conoce como de D-optimalidad6.
Vase Silvey (1980), una monograf que trata el tema de dise o ptimo. e a n o
Cap tulo 10
Regresin sesgada. o
10.1.
Introduccin. o
De acuerdo con el teorema de Gauss-Markov (Teorema 2.2, pg. 19), a los estimadores m nimo cuadrticos ordinarios (MCO) son los de varianza a m nima en la clase de los estimadores lineales insesgados. Cualesquiera otros que consideremos, si son lineales y de varianza menor, habrn de ser sesgados. a Si consideramos adecuado como criterio en la eleccin de un estimador c o def su error cuadrtico medio, ECM = E[ c]2 , y reparamos en que: a c E[ c]2 = E [ E[] + E[] c]2 c c c c 2 c c c c = E [ E[]] + E [E[] c]2 + 2 E [ E[]] [E[] c] c c
=0
= var() + (sesgo c) c
(10.1)
podemos plantearnos la siguiente pregunta: Es posible reducir el ECM en la estimacin tolerando un sesgo? Si la respuesta fuera armativa, podr o amos preferir el estimador resultante que, aunque sesgado, tendr un ECM menor, a producido por una disminucin en la varianza capaz de compensar el segundo o sumando en (10.1). El Cap tulo 9 pon de maniesto que vectores propios de (X X) con valor a propio asociado nulo o muy pequeo eran responsables de la inestimabilidad n (en el caso extremo de valores propios exactamente cero) o estimacin muy o imprecisa de formas lineales c en los parmetros. Analizaremos ahora las a implicaciones del anlisis realizado. a 139
140
CAP ITULO 10. REGRESION SESGADA.
Si los valores propios pequeos son causantes de elevada varianza en las n estimaciones, caben varias soluciones: 1. Incrementarlos mediante observaciones adicionales, segn se indic en u o la Seccin 9.6, pg. 134. o a 2. Incrementarlos mediante procedimientos ad-hoc, que no requieren la toma de observaciones adicionales (ridge regression). 3. Prescindir, simplemente, de ellos (regresin en componentes principales o y regresin en ra latentes). o ces Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para reducir la varianza de los estimadores. De acuerdo con los comentarios anteriores, los procedimientos que diseemos habrn perdido la condicin de n a o insesgados. Observacin 10.1 De ah la denominacin colectiva de mtoo o e dos de regresin sesgada. Denominaciones alternativas son regresin o o regularizada o mtodos de estimacin por encogimiento (shrinkage e o estimators), est ultima abarcando un conjunto de estimadores mua cho ms amplio que el considerado aqu a . Si se utilizan, es con la fundada creencia de que, en presencia de multicolinealidad acusada, la reduccin de varianza que se obtiene compensa la o introduccin de sesgo. Existe incluso un resultado (Teorema 10.1, pg. 145) o a que demuestra la existencia de un estimador sesgado que domina (en trmie nos de ECM) al MCO; su aplicacin prctica est limitada por el hecho de o a a que no es inmediato saber cul precisamente es este estimador. a
10.2.
Una aproximacin intuitiva. o
Antes de introducir los estimadores sesgados ms utilizados en la prctica, a a es util ver sobre un ejemplo simple las ideas que explotan. Ejemplo 10.1 Consideremos la siguiente situacin. Tenemos dos o 2 2 poblaciones con media com n y varianzas respectivas 1 , 2 . Nuesu tro objetivo es estimar , para lo que contamos con dos observaciones, 2 una de cada poblacin. Sean stas X1 , X2 . Sabemos adems que 2 o e a 2. es mucho mayor que 1 Es claro que 1 (10.2) = (X1 + X2 ) 2
10.2. UNA APROXIMACION INTUITIVA.

2 2 es un estimador insesgado de . Su varianza ser Var( ) = 1 /4+2 /4. a Es de m nima varianza? No; y en general puede ser sumamente 2 2 ineciente. Imaginemos, por ejemplo, que 1 = 1 y 2 = 99; entonces, 2 + 2 )/4 = (1 + 99)/4 = 25, mientras que = X , por Var( ) = (1 1 2 ) = 1. ejemplo, ser tambin insesgado con Var( a e La conclusin a la que llegamos es que es mejor prescindir de la o observacin X2 dando muy imprecisa informacin acerca del valor o o de que utilizarla en pie de igualdad con X1 . Si examinamos el ejemplo con ms cuidado, se nos hace evidente a que podemos hacerlo mejor: si nos limitamos a estimadores lineales por simplicidad cualquier estimador insesgado ser de la forma a = 1 X1 + 2 X2
141
con 1 + 2 = 1 (pues de otro modo al tomar valor medio en (10.3), no obtendr amos , como requiere la condicin de insesgadez). o Podemos a continuacin plantearnos cules son 1 y 2 = 1 1 o a o ptimos. De (10.3) deducimos que
2 2 2 2 Var( ) = 1 1 + 2 2 2 = 99 1981 + 1001 2 = 1 1 + (1 1 )2 99
Derivando respecto a 1 e igualando a cero obtenemos 1 = 99/100 y consecuentemente 2 = 1/100. Fcilmente se comprueba que se traa ta de un m nimo. El estimador insesgado de varianza m nima es por tanto: 1 99 X1 + X2 . = 100 100 El resultado parece lgico; debemos ponderar las dos observaciones o dando ms peso a la ms able. La segunda conclusin a que llegamos a a o es que cuando tengamos observaciones con grado de precisin muy o variable, convendr ponderarlas de forma inversamente proporcional a a sus respectivas varianzas. Fin del ejemplo
El ejemplo anterior pretende ilustrar dos principios, que se resumen en uno: es mejor prescindir de informacin imprecisa que hacerle demasiado o caso. El primer estimador construido, , prescind directamente de X2 ; el a segundo, , se serv de dicha observacin pero hacindole poco caso. a o e Se ha razonado sobre estimadores a los que hemos impuesto la condicin o de ser insesgados, por mantener el ejemplo simple, pero esta condicin es o
142
inesencial. (De hecho, como veremos a continuacin, todav ser posible o a a mejorar en trminos de ECM si tolerasemos un sesgo.) e Qu implicaciones tiene lo anterior sobre la estimacin de (o, en genee o ral, de c ) en un modelo lineal? Recordemos la discusin en la Seccin 9.5. o o El estimador de cualquier forma lineal c puede escribirse como combina cin lineal de v 1 , v 2 , . . . , v p , segn muestra (9.29), pg. 134. Adems, o u a a 1 v i para i = 1, . . . , p son variables aleatorias incorreladas con varianzas respectivas Var(vi ) = 2 /i , (9.26), pg. 133. a Tenemos pues c puede escribirse como combinacin lineal de observao ciones v i con varianzas muy diferentes. Al igual que en el Ejemplo 10.1 al estimar , podemos tener inters en prescindir de algunas de estas observae o ciones v i , atenuarlas, si sus varianzas son muy grandes; ello acontecer a cuando los valores propios i sean muy pequeos. n Los estimadores que se presentan a continuacin hacen precisamente esto. o El estimador en componentes principales de la Seccin 10.4 prescinde de alguo a nas v i ; el estimador ridge de la Seccin 10.3 atena las v i ms inestables. o u Volveremos de nuevo sobre la cuestin en la Seccin 10.4.3, pg. 156. o o a
10.3.
10.3.1.
Regresin ridge. o
Error cuadrtico medio del estimador m a nimo cuadrtico ordinario a
Dado que hay varios parmetros a estimar, deniremos como ECM del a estimador MCO:
ECM() = E[( ) ( )]
(10.3)
que podemos ver tambin como el valor medio del cuadrado de la distancia e eucl dea ordinaria entre y . Supondremos (X X) de rango total, y por 1 tanto que (X X) existe (este supuesto se puede relajar). Como E[] =
1
Independientes, si se verica el supuesto de normalidad.
10.3. REGRESION RIDGE. y = 2 (X X)1 , tenemos que:

ECM() = E[traza ( ) ( )] = E[traza ( )( ) ]
143
= 2 traza (X X)1 = 2 traza (X X)1 V V = 2 traza V (X X)1 V p 1 , = 2 i=1 i
(V = diagonalizadora de (X X)1 )
(10.4)
en que los i son los valores propios de la matriz (X X). (Recurdese que e 1 los vectores propios de las matrices (X X) y (X X) son los mismos, y los valores propios de una los inversos de los de la otra.)
10.3.2.
Clase de estimadores ridge

(k) = (X X + kI)1 X Y (10.5)
Denicin 10.1 Deniremos el estimador ridge de parmetro k as o a :
siendo k una constante positiva a determinar. El estimador ridge es idntico al MCO en el caso particular en que k = 0. La e relacin entre ambos para un valor arbitrario de k queda de maniesto en la o siguiente cadena de igualdades: (k) = (X X + kI)1 (X X)(X X)1 X Y = (X X + kI)1 (X X) = = (X X)1 (X X + kI) I + k(X X)1
1 1
(10.6)
= Z
def 1
siendo Z = [I + k(X X)1 ] . El Teorema 10.1, que muestra la superioridad del estimador ridge sobre el MCO para algn valor de k, es consecuencia del Lema 10.1 a continuacin. u o Lema 10.1 El error cuadrtico medio del estimador ridge de parmetro k a a viene dado por la expresin o ECM[ (k) ] =
p 2 k 2 i i + 2 2 i=1 (i + k) i=1 (i + k) p 2
(10.7)
144
en que los i son los valores propios de la matrix (X X) y = V , siendo V una matriz cuyas columnas son vectores propios de (X X). Demostracion: El ECM del estimador ridge que habremos de comparar con (10.4) es: ECM[ (k) ] = E[( (k) ) ( (k) )] (por (10.6)) = E[(Z ) (Z )]
= E[(Z Z + Z ) (Z Z + Z )] = E[(Z Z ) (Z Z )] + (Z ) (Z )
(a) (b)
(10.8) Obsrvese que el primer trmino (a) es la suma de varianzas de los elementos e e (k) , mientras que (b) es la suma de los sesgos al cuadrado de dichos elede mentos. Examinemos por separado los dos sumandos de la expresin anterior: o (a) = E[( ) Z Z( )] = E[traza{( ) Z Z( )}] = E[traza{( )( ) Z Z}] = traza{E( )( ) Z Z} = 2 traza [(X X)1 Z Z]
(10.9)
1
= 2 traza (X X)1 I + k(X X)1
I + k(X X)1
1
= 2 traza (X X) + kI + kI + k 2 (X X)1 = 2 traza (X X) + 2kI + k 2 (X X)1

1
VV (10.10) (10.11) (10.12)
= 2 traza V [(X X) + 2kI + k 2 (X X)1 ]1 V = 2 =

2
1 1 2 i=1 i + 2k + i k i . 2 i=1 (i + k)
p
La obtencin de la expresin (10.9) hace uso de el habitual intercambio de o o los operadores de traza y valor medio, as como del hecho de que si es el es )( )] = 2 (X X)1 timador MCO y X X es de rango completo, E[( (Teorema 2.2, pg. 19). En el paso de (10.10) a (10.11) se ha empleado el a
10.3. REGRESION RIDGE.
145
hecho de que si V diagonaliza a (X X) diagonaliza tambin a cada una de las e matrices en el corchete, y por consiguiente a la matriz inversa de la contenida en el corchete. Tomando ahora el segundo trmino de (10.8), e (b) = (Z ) (Z ) = (Z I) (Z I) = = k 2 ( + kI)2 = traza k ( + kI) =
2 k 2 i 2 i=1 (i + k) p 2 2
I + k(X X)1
I + k(X X)1
I (10.13)
(10.14)
El paso a (10.13) desde la expresin anterior hace uso de que = V . o Sustituyendo (10.12) y (10.14) en (10.8) se obtiene (10.7)
El Teorema 10.1 se sigue casi inmediatamente del resultado anterior. Teorema 10.1 Hay algn valor de k > 0 para el que ECM[ (k) ] dado por u (10.7) es estrictamente menor que el ECM del estimador MCO dado por (10.4). Demostracion: Hemos visto ms arriba que cuando k = 0, el estimador ridge (k) coina cide con el MCO. Por consiguiente, para k = 0 la expresin (10.7) debe o coincidir con (10.4), como en efecto puede comprobarse que sucede. Derivando (??) respecto de k, es fcil comprobar que la derivada en k = 0 existe y a es 2 2 p 2 , claramente negativa. Por consiguiente, siempre podremos i=1 i (incrementando ligeramente k) lograr que: ECM[ (k) ] < ECM[ (0) ] = ECM[] lo que demuestra el teorema. (10.15)
Una percepcin intuitiva del resultado anterior la proporciona la compao racin de las expresiones (10.4) y (10.8), valores medios respectivamente de o
146
Figura 10.1: Componentes del ECM( (k) ) en el estimador ridge. Las l neas de trazos y puntos representa respectivamente la varianza y (sesgo)2 de (k) (k) en funcin de k. La curva slida representa ECM[ ]. La l o o nea horizontal MCO. es la varianza (y ECM) del estimador
0.35
0.30
ECM ridge (a) + (b)
ECM, varianza y (sesgo)2
0.20
0.25
ECM MCO
Sesgo ridge (b)
0.05
0.10
0.15
Var ridge (a)
0.00 0.00
0.02
0.04 k
0.06
0.08
0.10
( ) ( ) y ( (k) ) ( (k) ). Se observa que (10.4) puede hacerse arbitrariamente grande si i 0 para algn i. La expresin (10.12) est a u o a cobijo de tal eventualidad, pues ninguno de los sumandos puede crecer por encima de i /k 2 . La Figura 10.1 muestra en un caso concreto cmo var en funcin de o an o k los componentes (a) y (b) de (10.8), y su suma. Como trmino de come paracin se ha representado mediante una l o nea horizontal la varianza del MCO (igual a su varianza, puesto que es insesgado). Puede verse que, tal como el Teorema 10.1 establece, hay valores de k en que el ECM( (k) ) des ciende por debajo del ECM(); ocurre para valores de k menores que 0.039 aproximadamente.
147
10.3.3.
Eleccin de k o
Sabemos que existe un k (de hecho, un intervalo de valores de k) mejorando el ECM del estimador MCO; pero nada en la discusin anterior nos o permite decidir cul es su valor. En la prctica, se recurre a alguna o varias a a de las siguientes soluciones: Uso de trazas ridge. Se prueban diversos valores de k representndose a las diferentes estimaciones del vector (trazas ridge); se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. La idea es intuitivamente atrayente: pequeos incrementos de k partiendo n de cero tienen habitualmente un efecto drstico sobre , al coste de introducir a algn sesgo. Incrementaremos k por tanto hasta que parezca que su inuencia u sobre se atena hasta que las trazas ridge sean casi horizontales. El u decidir dnde ocurre esto es, no obstante, bastante subjetivo. o Eleccin de k por validacin cruzada. La idea es tambin muy simple, o o e aunque computacionalmente algo laboriosa. Sea y(i),k la prediccin que hace o mos de la observacin yi cuando empleamos el estimador ridge de parmetro o a k obtenido con una muestra de la que excluimos la observacin i-sima. Deo e namos
N
CV (k) =
i=1
(yi y(i),k )2 ;
es decir, CV (k) es la suma de cuadrados de los residuos obtenidos al ajustar cada observacin con una regresin que la ha dejado fuera al estimar los o o parmetros. Entonces, a kCV = arg m CV (k), n
k
y la idea es emplear este valor kCV . En principio, calcular CV (k) para un valor de k requerir llevar a cabo N regresiones, excluyendo cada vez una a observacin distinta. En la prctica, el clculo puede agilizarse de modo cono a a siderable. Eleccin de k por validacin cruzada generalizada (GCV). Es un o o criterio estrechamente emparentado con el anterior. Sean A(k) = X((X X) + kI)1 X y = X (k) = A(k)y ;
148 entonces, elegimos kGCV
= arg m n
k
||(I A(k))y ||2 . [traza(I A(k))]2
(10.16)
Sobre la justicacin de dicha eleccin puede verse Eubank (1988) o Brown o o (1993), por ejemplo; no podemos entrar aqu en detalles. Baste decir que la expresin que se minimiza en (10.16) se reduce a SSE/(N p)2 cuando k = 0 o (m nimos cuadrados ordinarios), como resulta inmediato de la denicin de o A(k); una expresin cuya minimizacin parece razonable. Para otros valores o o de k el numerador de (10.16) contina siendo una suma de cuadrados de u los residuos y el denominador el cuadrado del nmero de grados de libertad u equivalentes. Otros criterios. Nos limitamos a mencionarlos. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes.
kHKB = (p 2) 2 / 2
(10.17)

kLW = (p 2) traza(X X)/(p (X X)) i k i 2 kM U R = arg m 2 n + k2 2 k i i (i + k) i (i + k)
(10.18) (10.19)
El criterio (10.17) fue propuesto por Hoerl et al. (1975) y tiene una justicacin bayesiana. El criterio (10.18) fue propuesto en Lawless and Wang (1976). o El criterio (10.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimacin. o Observacin 10.2 En las ecuaciones (10.17)(10.19), p es el oro
den y rango de la matrix (X X). En caso de que (X X) sea de rango deciente r, r < p, puede sustituirse ste por p tomando como el ese timador m nimo cuadrtico de m a nima longitud; ver detalles en Brown (1993), pg. 63. a
10.3.4.
Comentarios adicionales
Es evidente que la forma del ECM propuesto pondera por igual las discrepancias en la estimacin de un i cuyo valor real es muy grande que o aqullas en la estimacin de uno cuyo valor real es muy pequeo. Por ello, e o n es aconsejable antes de emplear el procedimiento normalizar los regresores. Alternativamente podr reproducirse el desarrollo anterior empleando como a
149
ECM una expresin del tipo: ( ) M( ), siendo M una matriz denida o positiva adecuada2 tipicando los ( ). Es habitual no slo normalizar sino tambin centrar tanto las columnas o e de X como y . El parmetro 0 se sustrae as al proceso de estimacin ridge, a o restaurndolo al nal. a Finalmente, es de inters sealar que el estimador ridge puede verse dese n de distintos puntos de vista. Uno de ellos lo interpreta como un estimador bayesiano, en la l nea esbozada en los Ejercicios 4.6 y 4.7, pg. 59. a R: Ejemplo 10.1 (ejemplo de regresin ridge) o
El siguiente cdigo muestra el uso de regresin ridge sobre un cono o junto de datos acusadamente colineal. La Figura 10.2 muestra las trazas ridge de los seis parmetros estimados y el valor del criterio GCV a para distintos valores de k. En ambas grcas, que comparten la escaa la de abscisas, se ha trazado una recta vertical al nivel de kGCV . Los valores de kHKB y kLW son tambin output de la funcin lm.ridge e o y podr haberse utilizado. El primero es prcticamente idntico a an a e kGCV y no se ha representado en la Figura 10.2; el segundo s . > > > > > > options(digits = 4) options(columns = 40) library(MASS) data(longley) names(longley)[1] <- "y" longley[1:3, ] Unemployed Armed.Forces 235.6 159.0 232.5 145.6 368.2 161.6 Year Employed 1947 60.32 1948 61.12 1949 60.17
y GNP 1947 83.0 234.3 1948 88.5 259.4 1949 88.2 258.1 Population 1947 107.6 1948 108.6 1949 109.8
> longley.mco <- lm(y ~ ., longley) > summary(longley.mco) Call: lm(formula = y ~ ., data = longley) Residuals:
Es decir, empleando una mtrica distinta de la eucl e dea ordinaria para medir la dis crepancia entre y ; M = (X X) ser una eleccin natural. a o
2
150
CAP ITULO 10. REGRESION SESGADA. Figura 10.2: Trazas ridge y GVC para los datos longley
Trazas ridge
kGCV 20 i 10 0.00 0 10
0.02
0.04 k
0.06
0.08
0.10
Criterio GCV
kGCV kLW
GCV
0.120 0.00
0.130
0.140
0.02
0.04 k
0.06
0.08
0.10

Min 1Q Median -2.009 -0.515 0.113 Coefficients: 3Q 0.423 Max 1.550
151
Estimate Std. Error t value (Intercept) 2946.8564 5647.9766 0.52 GNP 0.2635 0.1082 2.44 Unemployed 0.0365 0.0302 1.21 Armed.Forces 0.0112 0.0155 0.72 Population -1.7370 0.6738 -2.58 Year -1.4188 2.9446 -0.48 Employed 0.2313 1.3039 0.18 Pr(>|t|) (Intercept) 0.614 GNP 0.038 * Unemployed 0.258 Armed.Forces 0.488 Population 0.030 * Year 0.641 Employed 0.863 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.19 on 9 degrees of freedom Multiple R-squared: 0.993, Adjusted R-squared: 0.988 F-statistic: 203 on 6 and 9 DF, p-value: 4.43e-09 Ntese la fuerte multicolinealidad, aparente en los reducidos t-ratios o y elevada R2 . Probemos ahora regresin ridge con valores de k (= o lambda) entre 0 y 0.1 variando de milsima en milsima. Imprimiremos e e a continuacin las estimaciones correspondientes a los tres primeros o valores de k ensayados. Cuando k = 0, deben coincidir las estimaciones con las obtenidas por MCO. > longley.rr <- lm.ridge(y ~ ., longley, + lambda = seq(0, 0.1, 0.001)) > summary(longley.rr) Length coef 606 scales 6 Inter 1 lambda 101 Class -none-none-none-noneMode numeric numeric numeric numeric
152
ym xm GCV kHKB kLW 1 6 101 1 1 -none-none-none-none-none-

numeric numeric numeric numeric numeric
> coef(longley.rr)[1:3, ] GNP Unemployed Armed.Forces 0.000 2947 0.2635 0.03648 0.011161 0.001 1896 0.2392 0.03101 0.009372 0.002 1166 0.2210 0.02719 0.008243 Population Year Employed 0.000 -1.737 -1.4188 0.23129 0.001 -1.644 -0.8766 0.10561 0.002 -1.565 -0.5011 0.03029
La funcin select aplicada al objeto que devuelve lm.ridge devuelve o los valores ptimos de tres de los criterios mencionados m as arriba. o n > select(longley.rr) modified HKB estimator is 0.006837 modified L-W estimator is 0.05267 smallest value of GCV at 0.006
Podemos seleccionar el k ptimo de acuerdo, por ejemplo, al criterio o GCV, y hacer regresin ridge con l: o e > nGCV <- which.min(longley.rr$GCV) > lGCV <- longley.rr$lambda[nGCV] > lm.ridge(y ~ ., longley, lambda = lGCV) GNP 1.765e-01 Population -1.328e+00 Unemployed 1.937e-02 Year 2.556e-01
-3.144e+02 Armed.Forces 6.565e-03 Employed -5.812e-02
El cdigo a continuacin genera las grcas en la Figura 10.2. o o a
10.4. REGRESION EN COMPONENTES PRINCIPALES.

> > + + > > > > + + > > > >
153
par(mfrow = c(2, 1)) matplot(longley.rr$lambda, t(longley.rr$coef), type = "l", xlab = expression(k), ylab = expression(beta[i])) abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) title(main = "Trazas ridge") plot(longley.rr$lambda, longley.rr$GCV, type = "l", xlab = expression(k), ylab = "GCV", main = "Criterio GCV") abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) abline(v = longley.rr$kLW) mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)
Fin del ejemplo
10.4.
10.4.1.
Regresin en componentes principales. o

Descripcin del estimador o
Consideraremos, por conveniencia notacional, el modelo habitual en que la columna de unos, si existe, ha sido segregada, y los restantes regresores han sido centrados y normalizados. Esto tiene por unico efecto multiplicar los parmetros y sus estimadores por constantes respectivamente iguales a a la norma de las columnas de X afectadas. Con este convenio, el modelo de regresion lineal que consideramos se puede escribir as : y = 10 + W + (10.20)
Supondremos, consistentemente con la notacin anterior, que es un o vector (p 1) 1, y W una matriz N (p 1). La matriz W W es una matriz con unos en la diagonal principal, simtrica, y denida no negativa. e Existe siempre una diagonalizadora ortogonal V tal que: V (W W )V = ( W W = V V ) (10.21)
154
Sean v1 , . . . , vp1 los vectores columna de V . Llamaremos componentes principales de W a los vectores u1 , . . . , up1 denidos as : u1 u2 up1 o abreviadamente: U = WV (10.23) = W v1 = W v2 . . . = W vp1 (10.22)
La matriz U es N (p 1), con columnas combinacin lineal de las de o W . Es adems aparente que las columnas de U son ortogonales: U U = a V (W W )V = , y que generan el mismo subespacio de RN que las de W . Siendo V ortogonal, (10.20) puede transformarse as : y = 10 + W + = 10 + W V V + = 10 + U +

(10.24) (10.25) (10.26)
Teniendo en cuenta (ver Problema 10.2) que 1 ui , (i = 1, . . . , p 1), el vector de estimadores puede escribirse as : y y 0 = (U U)1 U y = 1 U y (10.27)
Todo lo que hemos hecho hasta el momento es tomar una diferente base del espacio de proyeccin la formada por las columnas de U en lugar de o la formada por las columnas de W . Llegados a este punto, tenemos que recuperar los estimadores de los parmetros originales a partir de . Si a lo hacemos mediante = V estaremos obteniendo exactamente los estimadores MCO. La idea del estima dor en componentes principales CP es emplear slo algunos de los trminos o e en : CP = V (q) . 0 (10.28)
Necesitamos por tanto criterios para escoger los estimadores i que incluimos en (q) y los que reemplazamos por cero en (10.28).
155
10.4.2.
Estrategias de seleccin de componentes prino cipales
Hay varias estrategias. Una discusin ms pormenorizada que el resumen o a a continuacin puede encontrarse en Brown (1993) o en Jollie (1986). o Eleccin basada en i . Como quiera que la varianza de i es 2 1 (vase o e i (9.26), pg. 133), una estrategia consistir en tomar los i asociados a i ms a a a grande (es decir, con menos varianza), despreciando los restantes. El nmero u de componentes principales a retener (= el nmero de i s grandes) es en u buena medida subjetivo. Ntese que puede ocurrir que componentes asociadas a parmetros i con o a mucha varianza y por tanto desechados tengan no obstante gran poder predictivo de y . En este caso, podr ser preferible emplear la estrategia a a continuacin. o Eleccin basada en el contraste de nulidad de los i . Se procede as o : 1. Se calcula PU y
2
= U
= 1 u1 2
+ + p1 up1 2
(10.29)
la ultima igualdad haciendo uso de la ortogonalidad entre las columnas de U. Entonces, SSR = PU y 2 , y SSE = y y 2 U 2 . 2. Se contrasta la hiptesis de nulidad para cada uno de los parmetros, o a (Hi : i = 0, i = 1, . . . , p 1), mediante el estad stico: Qi = N p i2 ui 1 SSE
2
F1,N p
(10.30)
que sigue la distribucin indicada bajo los supuestos habituales ms o a normalidad cuando Hi es cierta. Obsrvese que, gracias a ser ortogonales las columnas de U, la fraccin e o de SSR atribuible a cada regresor es independiente de los que pueda haber ya incluidos en la ecuacin de regresin; por tanto, la diferencia o o de suma de cuadrados explicada con y sin el regresor ui es precisamente i2 ui 2 . 3. Se introducen todos los regresores cuyo estad stico Qi supere un nivel prejado. Sin prdida de generalidad, supondremos que stos son los q e e primeros, formando el vector (q) .
156
4. Los CP se obtienen mediante la transformacin (10.28). o Ntese que mientras que la estrategia precedente consist en desechar o a componentes principales asociadas a reducido i , la presente propone desechar las asociadas a reducido Qi ; frecuentemente, no suele haber conicto entre ambos objetivos: ui 2 = i 0 Qi 0 a menos que simultneamente a i 0. Puede ocurrir, sin embargo, que una componente principal asocia da a un i muy pequeo tenga apreciable valor predictivo (si i es grande). n Proceder incluir dicha componente principal como predictor si el valor de a Qi lo justica y la prediccin es el objetivo del anlisis3 . o a Estrategia mixta. Propuesta por Jollie (1986), ordena los i de menor a mayor i y realiza en este orden un contraste como el del apartado anterior sobre cada uno de ellos. Cuando se encuentra el primer i signicativo, se retiene junto a todos los que le siguen (con i mayor, por tanto). Todos los i retenidos componen el vector (q) . Validacin cruzada. Computacionalmente muy laboriosa. Puede ocurrir o que al omitir distintas observaciones, dos componentes principales permuten su orden. Vanse detalles en Brown (1993). e
10.4.3.
Propiedades del estimador en componentes principales
El sesgo de CP es: E[CP ] = E V y su matriz de covarianzas: = V = 2

i=1 p1 p1 (q) i vi V = 0 i=q+1
(10.31)
CP
2
q
I 0 Iq 0 1 q 0 0 0 0
(10.32) (10.33) (10.34) (10.35)
1 vi vi i 1 vi vi i
i=1
2
3
= 2 (W W )1
Pero este criterio no es unnimemente compartido. Vase Hocking (1976). a e
157
en que el s mbolo indica elementos no mayores en la diagonal principal. La diferencia entre la matriz de covarianzas de los estimadores MCO y la de los estimadores en componentes principales es:
p1
2 i=q+1
1 vi vi i
(10.36)
y ser importante si entre las componentes principales exclu a das como regresores hay alguna asociada a un i muy pequeo. n Las expresiones (10.31) y (10.32)(10.35) muestran el conicto varianzasesgo en el caso de la regresin en componentes principales. De (10.31) se o deduce la siguiente expresin para la suma de los sesgos al cuadrado: o [E(CP ) ] [E(CP ) ] =
p1
(i )2
i=q+1
(10.37)
Es interesante comparar el estimador en componentes principales con el estimador ridge, y examinarlo a la luz del anlisis efectuado en el Cap a tulo 9. En realidad, todo cuanto hace el estimador en componentes principales es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores de los parmetros originales despreciando informacin (algunos i ) de gran a o varianza (si se sigue el criterio de despreciar sin ms componentes principales a stico puede con pequeo i ) o de reducido Qi (i )2 i ; este ultimo estad n contemplarse como relacin seal/ruido. o n El estimador ridge no hace una eleccin tan drstica sino que, mediante o a la introduccin del parmetro k, atena las componentes principales reso a u ponsables en mayor medida de la varianza de . Esto se hace evidente si comparamos la siguiente expresin: o CP = V Iq 0 =V 0 0 Iq 0 1 U y 0 0 (10.38)
con la del estimador ridge equiparable4 : (k) = (W W + kI)1 W y = V V (W W + kI)1 V V W y = V ( + kI)1 U y (10.39) (10.40) (10.41)
En (10.38) slo q columnas de U y se utilizan; en (10.41), todas, si bien las o que corresponden a componentes principales con i ms pequeo reciben una a n
Es decir, tras haber centrado y normado los regresores y segregado la columna de unos.
4
158
ponderacin menor, al ser divididas por i +k en lugar de por i . Por ejemplo, o si 1 = 5, 4 = ,002 y k = 0,01, la primera columna de U y ser dividida a por 5,01 5, mientras que la cuarta resultar dividida por 0,012 0,002, a es decir, su ponderacin se reducir a la sexta parte de la original. o a R: Ejemplo 10.2 (regresin en componentes principales) o
La funcin regCP que sigue traduce directamente de la teor exo a puesta el mtodo para llevar a cabo estimacin en componentes prine o cipales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos: tomar: Vector de ndices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar las tres primeras. a sig: Nivel de signicacin de las componentes principales a reo tener. Se toman todas aqullas sea cual fuere su valor propio e asociado signicativas al nivel sig. La funcin es ineciente, no hace comprobacin de errores y tiene slo o o o inters didctico. e a > regCP <- function(X, y, tomar = NULL, + sig = 0.05) { + X.c <- scale(X, scale = FALSE) + y.c <- scale(y, scale = FALSE) + W <- scale(X.c, center = FALSE)/sqrt(nrow(X) + 1) + WW <- crossprod(W) + factores.escala <- X.c[1, ]/W[1, ] + N <- nrow(X) + p <- ncol(X) + res <- eigen(WW) + V <- res$vectors + landas <- res$values + U <- W %*% V + gamas <- (1/landas) * t(U) %*% y.c + if (is.null(tomar)) { + fit <- lsfit(X.c, y.c, intercept = FALSE) + SSE <- sum(fit$residuals^2) + qi <- (N - p) * (gamas * landas)^2/SSE + tomar <- (1:p)[sig > (1 - pf(qi, + 1, N - p))] + } + betasCPstar <- V[, tomar] %*% gamas[tomar] + betasCP <- betasCPstar/factores.escala

+ + + + + + + + }
159
m.X <- apply(X, 2, mean) m.Y <- mean(y) beta0 <- m.Y - sum(m.X * betasCP) betasCP <- c(beta0, betasCP) names(betasCP) <- c("Intercept", dimnames(X)[[2]]) return(list(betasCP = betasCP, landas = landas, CP.usadas = tomar))
Veamos el modo de emplearla, con los datos longley, frecuentemente empleados como banco de pruebas por su muy acusada multicolinealidad: > > > > > library(MASS) data(longley) y <- longley[, 1] X <- as.matrix(longley[, -1]) regCP(X, y, tomar = 1:3) GNP 2.459e-02 Population 3.391e-01 Unemployed 9.953e-03 Year 4.967e-01
$betasCP Intercept -9.731e+02 Armed.Forces 1.553e-02 Employed 7.239e-01
$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 Una comprobacin util consiste en ver que el estimador en CP, cuando o se utilizan todas las componente principales, coincide con el estimador MCO. Vemoslo: a > regCP(X, y, tomar = 1:ncol(X)) $betasCP Intercept 2946.85636 GNP 0.26353 Unemployed 0.03648
160
Armed.Forces 0.01116 Employed 0.23129

Population -1.73703 Year -1.41880
$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 4 5 6 > lsfit(X, y)$coefficients Intercept 2946.85636 Armed.Forces 0.01116 Employed 0.23129 GNP 0.26353 Population -1.73703 Unemployed 0.03648 Year -1.41880
Para que la funcin seleccione aquellas componentes principales con o un nivel de signicacin de sus parmetros asociados prejado, la ino a vocamos as : > regCP(X, y, sig = 0.1) $betasCP Intercept -961.37468 Armed.Forces 0.01991 Employed 0.66205 GNP 0.02372 Population 0.33197 Unemployed 0.01373 Year 0.49223
$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 Fin del ejemplo
10.5. REGRESION EN RA ICES LATENTES
161
10.5.
Regresin en ra o ces latentes

y = 10 + W + (10.42)
Consideramos el modelo:
o alternativamente: y = W + (10.43)
en que tanto los regresores como la variable respuesta y han sido normalizados y centrados. Es decir, y = 1 (y y) siendo 2 = N (yi y)2 . Si i=1 constru mos la matriz N p siguiente: A = [y | W ] (10.44)
tenemos que la matriz (A A) es una matriz de correlacin (tiene unos en la o diagonal principal, es simtrica y semidenida positiva). Sea V = (v1 | | e vp ) la matriz que la diagonaliza: V (A A)V = V V = A A Entonces, utilizando (10.44), tenemos Avj = v0j y + W vj , dnde vj o
(0) (0)
(10.45)
(j = 1, . . . , p)
(10.46)
es vj desprovisto de su primer elemento: vj = v0j (0) . vj
Tomando norma al cuadrado de (10.46), Avj

2
= =
v0j yi + W vj
N i=1
(0) 2
p1 i
y v0j
+
k=1
Wik vkj
(10.47)
en que vkj es la k-sima coordenada de vj . Como por otra parte e Avj

2
(0)
= vj (A A)vj = j ,
(10.48)
162
igualando (10.47) y (10.48) deducimos que si j 0

p1 yi v0j
Wik vkj
k=1
i [1, . . . , N]
(10.49)
Si, adems, v0j = 0, podemos escribir: a

1 y v0j W vj (0) def
y(j)
(10.50)
Como y = 1 (y y), y = y + y y denominando y(j) = y + (j) y tenemos: (y y(j) ) (y y(j) ) = 2 (y y(j) ) (y y(j) ) = (v0j y v0j y(j) ) (v0j y v0j y(j) ) = (Avj ) (Avj ) = j 2 2 v0j 2 2 v0j (10.52) (10.51)
2 2 v0j
Ntese que la aproximacin de y en (10.50) y suma de cuadrados de los o o residuos en (10.52), hacen uso exclusivamente de una parte de la informacin o disponible; la de que j es aproximadamente cero para un determinado j. Podemos pensar en hacer uso de toda la informacin disponible aproximano do y mediante una combinacin lineal de y(i) (i = 1, . . . , p), debidamente o ponderadas por coecientes di a determinar:
p
y =
i=1 p
di y(i) di y + W (v0i 1 vi )
i=1 p p (0)
[usando (10.50) y (10.51)] =
=
i=1
di y + W
di v0i 1 vi
i=1
(0)
Por otro lado, de (10.42) tenemos 0 1 + W
10.5. REGRESION EN RA ICES LATENTES que junto con la igualdad precedente proporciona: 0 = y =
p
163
di
i=1 p i=1
(10.53)
(0)
di v0i 1 vi
(10.54)
Como los regresores W estn centrados, es claro que 0 = y, y por tanto a p de (10.53) se deduce i=1 di = 1. Haciendo uso de (10.52), (10.53), y (10.54) obtenemos la suma de cuadrados de los residuos: (y y ) (y y ) = 2 (y y ) (y y )
p
y +W
i=1 p
(0) di v0i 1 vi
y +W
i=1
di v0i 1 vi
(0)
= 2
i=1 p
di (0) (y v0i + W vi ) v0i di (0) (y v0i + W vi ) v0i di Avi v0i i d 2 i v0i 2 .

p i=1
= 2
i=1 p i=1 p
di Avi v0i (10.55)

p i=1
= 2
i=1
Podemos ahora minimizar la expresin (10.55) sujeta a que o El lagrangiano es:

p
di = 1.
(d ) = 2
i=1
i d 2 i v0i 2
i=1
di 1
(10.56)
cuyas derivadas d i i (d ) = 2 2 di v0i 2 =0 (i = 1, . . . , p) (10.57)
permiten (multiplicando cada igualdad en (10.57) por v0i 2 1 y sumando) i obtener: = 2

2 2 v0i i=1 i p 1
(10.58)
164
Llevando (10.58) a (10.57) obtenemos: 2 2 di y por tanto: v2 di = 0i i

2 v0i i=1 i p 1
i = = 2 2 2 v0i
2 v0i i=1 i
(10.59)
(10.60)
Los estimadores deseados se obtienen llevando (10.60) a (10.53)(10.54): 0 = y =

p i=1
(10.61) v0i v (0) i i 2 v0i p i=1 i (10.62)
Podr amos detenernos aqu pero hay ms. Cabe distinguir dos tipos de , a multicolinealidades entre las columnas de la matriz [y | W ]; aqullas en e que v0i 0 que llamaremos (multicolinealidades predictivas), y aqullas en e que v0i 0 (multicolinealidades no predictivas); las primeras permiten despejar y , y son aprovechables para la prediccin, en tanto las segundas son o multicolinealidades fundamentalmente entre los regresores. (0) El estimador anterior pondera cada vi en proporcin directa a v0i e o inversa a i . Es lo sensato: lo primero, prima las multicolinealidades predictivas sobre las que lo son menos; lo segundo, a las multicolinealidades ms a fuertes (en que la igualdad aproximada (10.49) es ms ajustada). Pero podea mos eliminar en (10.62) trminos muy inestables, cuando v0i y i son ambos e muy pequeos, para evitar que el sumando correspondiente en (10.62) reciba n gran ponderacin, si parece evidente que se trata de una multicolinealidad o no predictiva. La relacin (10.62) se transformar entonces en: o a =
iP
v0i v (0) i i 2 v0i iP i
(10.63)
siendo P un subconjunto de (1, . . . , p). La determinacin de P es una tarea eminentemente subjetiva; se suele o (0) desechar una multicolinealidad cuando i < 0,10 y v0i < 0,10, si adems vi a se aproxima a un vector propio de W W .
165
10.6.
Lectura recomendada
Sobre regresin ridge, el trabajo original es Hoerl and Kennard (1970) (ver o tambin Hoerl et al. (1975)). Hay una enorme literatura sobre los estimadores e ridge y en componentes principales. Pueden verse por ejemplo Brown (1993), Cap. 4, Trocniz (1987a) Cap. 10 Pea (2002) Sec. 8.3.4, que relaciona el o o n estimador ridge con un estimador bayesiano. Los mtodos de regresin sesgada se contemplan a veces como alternativas e o a los mtodos de seleccin de variables en situaciones de acusada multicolie o nealidad: vase por ejemplo Miller (2002), Cap. 3. De hecho, estudiaremos en e el Cap tulo 12 estimadores como el LASSO y garrote no negativo que pueden tambin verse como mtodos de regresin sesgada. e e o El trabajo original regresin en ra o ces latentes puede verse en Webster et al. (1974). Hay tambin descripciones completas del mtodo en manuales e e como Trocniz (1987a) (pg. 247 y ss.) o Gunst and Mason (1980), Sec. 10.2. o a
166
CAP ITULO 10. REGRESION SESGADA. Complementos y ejercicios 10.1 Al nal de la Seccin 10.3 se propon emplear un criterio o a
del tipo ( ) M ( ) con M = (X X). Dse una justicacin para esta eleccin de M . e o o
10.2 Demustrese que si ui es denida como en (10.22), se vee rica que 1 ui . 10.3 Sea una muestra formada por n observaciones, X1 , . . . , Xn ,
generadas por una distribucin con media. Demustrese que, para alo e a g n c, cX es mejor estimador (en terminos de error medio cuadrtico, u ECM) que X. Es esto un caso particular de alguno de los procedimientos de estimacin examinados en este cap o tulo?
10.4 Es fcil realizar regresin ridge incluso con programas pena o

sados slo para hacer regresin m o o nimo cuadrtica ordinaria. Basta a prolongar el vector con p ceros, y la matriz X con p las adicionay les: las de la matriz kIpp . Llamamos X e y a la matriz de regresores y vector respuesta as ampliados. Al hacer regresin ordinaria de y so o bre X obtenemos: = (X X)1 X y = (X X + kI) = (X X + kI) = (k)
1
(X y + X y
(10.64) kI 0 ) (10.65) (10.66) (10.67)
n Alternativamente, se puede formar X a adiendo a X las las de una matriz unidad, y realizar regresin ponderada (dando a cada obsero vacin normal peso unitario y a las p seudo-observaciones a adidas o n peso k). La alteracin de los pesos es habitualmente ms cmoda o a o que la creacin de una nueva matriz de regresores. Este ser de ordio a nario el mtodo a utilizar cuando hayamos de probar muchos valores e diferentes de k y dispongamos de un programa para hacer regresin o m nimo cuadrtica ponderada. Las funciones lsfit y lm (disponibles a en R) admiten ambas el uso de pesos y por tanto se prestan al uso descrito. La librer MASS contiene no obstante la funcin lm.ridge, a o que hace estimacin ridge de modo ms cmodo para el usuario. o a o
10.5 Supongamos una muestra formada por pares de valores

(yi , xi ), i = 1, . . . , N . La variable Y es peso, la variable X es edad,

y las observaciones corresponden a N diferentes sujetos. Estamos interesados en especicar la evolucin del peso con la edad. Podr o amos construir la matrix de dise o n
X=
167
1 1 1 . . .
x1 x2 x3
x2 1 x2 2 x2 3 x2 N
x3 1 x3 2 x3 3 . . . x3 N
. . . xp1 1 . . . xp1 2 . . . xp1 3 . . . . . . xp1 N
(10.68)
1 xN
y contrastar hiptesis tales como H0 : 2 = 3 = . . . = p1 = 0 o (tendencia no ms que lineal), H0 : 3 = . . . = p1 = 0 (tendena cia no ms que cuadrtica), etc. Sucede sin embargo, como es fcil a a a comprobar, que una matriz como la anterior adolece de una acusada multicolinealidad, sean cuales fueren los valores x1 , . . . , xN . Podr amos ortogonalizar los vectores columna de la matriz de dise o (por ejemplo mediante el procedimiendo de Gram-Schmidt: vase n e Grafe (1985) o cualquier libro de Algebra Lineal), para obtener una nueva matriz de dise o. Los nuevos vectores columna generan el misn mo espacio y el contraste puede hacerse del mismo modo que con los originales, pero sin problemas de multicolinealidad. Otra posibilidad es sustituir las potencias creciente de xi en las columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977), Dahlquist and Bjrck (1974), o o cualquier texto de Anlisis Numrico). a e Ambos procedimientos tienen por nalidad encontrar una base ortogonal o aproximadamente ortogonal generando el mismo espacio que los vectores columna originales de la matriz de dise o. n
10.6 ( 10.5) Por qu, para la nalidad perseguida en el Ejere

cicio 10.5, no ser de utilidad hacer regresin en componentes princia o pales?
168
Cap tulo 11
Evaluacin del ajuste. o Diagnsticos. o

Ya hemos visto en lo que precede estad sticos para evaluar la bondad de 2 sticos que dan una ajuste de un modelo, como R ; pero se trata de estad 2 idea global del ajuste. Puede ocurrir que un R encubra el hecho de que localmente para unas ciertas observaciones el ajuste es muy deciente. En lo que sigue abordaremos esta cuestin, considerando instrumentos o para examinar el ajuste localmente (para observaciones individuales). Examinaremos tambin la cuestin e o ntimamente relacionada de cundo una oba servacin (o varias) son muy inuyentes, en el sentido de condicionar de modo o importante la estimacin del modelo. o
11.1.
Anlisis de residuos. a
En general, como se ha indicado ya en el Cap tulo 12, no conocemos la forma en que se generan los valores de la variable respuesta Y . Todos los modelos que ajustemos son en alguna medida provisionales, y su adecuacin o a los datos debe ser objeto de anlisis. El desarrollo que se hace a continuaa cin sigue principalmente a Cook and Weisberg (1982). Otras referencias de o utilidad son Hawkins (1980), Barnett and Lewis (1978), Belsley et al. (1980), Myers (1990) y Trocniz (1987a). o 169
170
CAP ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
La forma ms natural de examinar el ajuste consiste en considerar los a residuos = y X = (I X(X X)1 X )y = (I X(X X)1 X ) (11.1)
Podemos contemplar los i como estimaciones de las perturbaciones i (inobservables) que han intervenido en la generacin de las Yi . Veremos sin o embargo que, en general, slo vagamente reproduce el comportamiento de o . En particular, Teorema 11.1 Bajo los supuestos habituales se verica que: 1. Los residuos no son, en general, homoscedsticos, incluso cuando las a perturbaciones lo son. 2. Los residuos no son, en general, incorrelados, incluso cuando las perturbaciones lo son. Demostracion: = E[( E())( E()) ] Como E() = 0, (11.2) se reduce a: E = E[(I X(X X)1 X )yy (I X(X X)1 X ) ] = (I X(X X)1 X ) 2 I = 2 (I P ),
(11.2)
(11.3) (11.4) (11.5)
que en general no tiene elementos iguales a lo largo de la diagonal principal. El apartado 2) del enunciado es inmediato a partir de (11.5), dado que (I P ) es una matriz no diagonal. Sea, pij = xi (X X)1 xj (11.6) un elemento genrico de la matriz P (xi denota la i-sima la de X). De la e e igualdad (11.1) se deduce: i = (1 pii )i pij j
i=j
(11.7)
Por tanto, el residuo i-simo es un promedio ponderado de la perturbacin e o correspondiente a dicha observacin y las de todas las dems observaciones, o a con ponderaciones (1 pii ) y (pij ). Dependiendo de los valores que tomen estos coecientes, i recoger con desigual delidad el valor de i . a Los valores pij dependen slo de la matrix de diseo y son del mayor o n inters, como veremos ms abajo. e a
11.1. ANALISIS DE RESIDUOS.
171
11.1.1.
Residuos internamente studentizados.
Los residuos MCO denidos en (11.1) son, por causa de su heterocedasticidad, desaconsejables para la deteccin de observaciones anormales o o diagnstico de modelos de regresin. Es sin embargo fcil corregir dicha heo o a terocedasticidad. De (11.5) se deduce que una estimacin de la varianza de o i viene dada por 2 (1 pii ). Por tanto, ri = i + 2 (1 pii ) (11.8)
para i = 1, . . . , N son residuos de varianza comn. Se llama studentizacin a u o 2 la eliminacin del efecto de un parmetro de escala (aqu ) mediante divio a sin por una estimacin adecuada. Se denomina internamente studentizados o o a los residuos denidos en (11.8). Es de notar que, a pesar de su denominacin, los ri no siguen una distrio bucin t de Student, pues numerador y denominador no son independientes o (i ha intervenido en el cmputo de 2 ). Es fcil demostrar, sin embargo, que o a bajo los supuestos habituales ms el de normalidad en las perturbaciones, a 1 1 2 ri /(N p) sigue una distribucin beta B( 2 , 2 (N p 1)). o Al tener los ri la misma varianza, se prestan mejor a ser examinados grcamente para identicar posibles observaciones anmalas o outliers. a o
11.1.2.
Residuos externamente studentizados.

i + 2 (i)(1 pii )
Denidos por: ti = (11.9)
son formalmente idnticos a los ri , con la unica salvedad de haberse tomado e 2 en el denominador un estimador (i) de 2 que no hace uso de i . Mediante 2 una eleccin adecuada de (i) puede lograrse que ti siga una distribucin o o t de Student con (N p 1) grados de libertad. Esto permite, entre otras cosas, hacer uso de la distribucin del mximo de k variables t de Student o a con correlacin por pares (vase Seccin 8.3, pg. 116) para contrastar la o e o a presencia de outliers. Tomaremos, 2 (i) = i (1 pii )1 i (N p 1) (11.10)
lo que permite probar el siguiente,
172
Teorema 11.2 Con 2 (i) denido como en (11.10), bajo los supuestos ha bituales ms el de normalidad en las perturbaciones, los residuos ti denidos a en (11.9) (externamente studentizados) siguen una distribucin t de Student o con (N p 1) grados de libertad. Demostracion: Podemos escribir i = Gi (I P ) siendo Gi de dimensin 1 N, con o un unico uno en posicin i-sima y ceros en los dems lugares. Llamando o e a A = Gi (I P ) tenemos que: i = A Por otra parte, de (11.10) deducimos: (N p 1) 2 (i) = [I Gi [Gi(I P )Gi]1 Gi ] = (I P )[I Gi [Gi(I P )Gi]1 Gi ](I P )
B
(11.11)
= B
(11.12)
Es fcil comprobar que AB = 0, luego i y 2 (i) son independientes (Lema a 6.3, pg. 69). Por otra parte, es tambin fcil comprobar que B es idempoa e a tente, con rango (= traza) (N p 1). Por consiguiente, i 2 (i)(1 pii ) = i / 2 (1 pii ) 2 (i)/ 2 i / 2 (1 pii ) B /(N p 1) 2 (11.13)
(11.14)
Pero en el numerador y denominador de (11.14) hay respectivamente una variable aleatoria N(0, 1) y una 2 dividida entre sus grados de libertad, ambas independientes, lo que demuestra el Teorema. Para contrastar la hiptesis de presencia de outliers, podemos comparar o el mayor de los residuos externamente studentizados con el cuantil apropiado de la distribucin del mximo valor absoluto de k variables aleatorias t de o a Student (Seccin 8.3, pg. 116). Supondremos que son incorrelados, salvo que o a podamos calcular fcilmente su correlacin por pares, como sucede a menudo a o en Anlisis de Varianza. El texto Seber (1977) reproduce en su Apndice E a e tablas adecuadas. Alternativamente, podemos comparar el mayor residuo internamente studentizado con los valores cr ticos en las tablas de Lund (1975), o emplear la desigualdad de Bonferroni.
11.1. ANALISIS DE RESIDUOS.
173
11.1.3.
Residuos BLUS.
La studentizacin, tanto interna como externa, elimina la heterocedastio cidad de los residuos, pero no la mutua correlacin. No es posible obtener un o vector de N residuos incorrelados y ortogonales a las columnas de X. La razn o se ve fcilmente: R(X) es un vector aleatorio de N coordenadas, pero a constreido a yacer en un subespacio (N p) dimensional. Su distribucin en n o N R es degenerada, y su matriz de covarianzas de rango (N p) (supuesta X de rango completo). Ninguna transformacin ortogonal puede convertir tal o matriz en diagonal de rango N. Si es posible, sin embargo, obtener (N p) residuos incorrelados, homoscedsticos, y de media 0; de hecho, hay multitud de maneras de hacerlo1 , a dependiendo del subconjunto de (N p) residuos que escojamos. Tales residuos, denominados BLUS (o ELIO), son de utilidad para contrastar homoscedasticidad (suministrando una alternativa al conocido mtoe do de Goldfeld-Quandt), normalidad, etc. Un tratamiento detallado puede encontrarse en Theil (1971), Cap. 5.
11.1.4.
Residuos borrados.
Sean X(i) e Y (i) la matriz de diseo y vector respuesta desprovistos de n la observacin i-sima. Sea (i) el vector de estimadores de los parmetros o e a (i) = (X X(i) )1 X Y (i) . Se llama obtenido sin dicha observacin, es decir, o (i) (i) 2 residuos borrados (deleted residuals) a los di denidos as : di = yi xi (i) (11.15)
Hay una relacin muy simple que permite calcular los di sin necesidad de o realizar N regresiones diferentes sobre todos los conjuntos posibles de N 1
Vase Theil (1971), pg. 202 y ss. e a Una denominacin alternativa frecuente en la literatura es la de residuos PRESS (preo dictive sum of squares residuals).
2 1
Un di muy pequeo o nulo indicar que la observacin i-sima no se n a o e separa en su comportamiento del recogido por la regresin sobre las restantes o N 1 observaciones. Lo contrario es cierto si di es muy grande.
174
observaciones. En efecto, de (11.15) se deduce que:

di = yi xi (X(i) X(i) )1 X(i) Y (i) X(i) Y 1 (i) 1
(X X) xi xi (X X) X(i) Y (i) (11.17) (X X)1 x 1 xi i (1 pii )(X X)1 + (X X)1 xi xi (X X)1 = yi xi X(i) Y (i) 1 pii (1 pii )xi (X X)1 + pii xi (X X)1 X(i) Y (i) = yi 1 pii = yi xi (X X)1 + = = = =
xi (X X)1 X(i) Y (i) yi 1 pii (1 pii )yi xi (X X)1 (X Y xi yi ) 1 pii yi xi (X X)1 X Y 1 pii i 1 pii
= yi xi [(X X) xi xi ]
(11.16)
(11.18)
(11.19)
en que el paso de (11.16) a (11.17) hace uso del Teorema A.2, pg. 228. a Veremos en lo que sigue que di est relacionado con la inuencia que la a observacin i-sima tiene sobre la estimacin de los parmetros. o e o a
11.2.
Anlisis de inuencia. a
Es en general indeseable que la estimacin de un parmetro dependa de o a modo casi exclusivo de una sola observacin o de unas pocas, de manera que o su eliminacin conduzca a resultados completamente diferentes. En general, o cuando esto ocurre, es necesario particionar la muestra o replantear el modelo. En todo caso, es necesario saber hasta que punto observaciones aisladas inuencian las estimaciones de los parmetros para obrar en consecuencia. a Puede parecer que para determinar qu observaciones inuyen ms en el e a resultado de la estimacin basta mirar los residuos, brutos o studentizados. o Ello es verdad, pero slo en parte: puede haber observaciones extraordinariao mente inuyentes que resulten muy bien ajustadas por la regresin, como el o ejemplo de la Fig. 11.1 pone de maniesto. Claramente, el punto a tiene una notable inuencia en la estimacin de o la pendiente de la recta, hasta el punto de que su omisin dar lugar a un o a
11.2. ANALISIS DE INFLUENCIA.
175
Figura 11.1: Una observacin como a tiene residuo borrado muy grande, y o gran inuencia en la pendiente de la recta de regresin. o
y 5
0
10
15
20
25
30
10
20 x
30
40
resultado completamente diferente (la recta dibujada con trazo discontinuo). Sin embargo, su residuo MCO es muy pequeo; un exmen de los residuos n a MCO o incluso de los residuos studentizados dif cilmente delatar nina guna anormalidad. El examen de los residuos borrados detectar una situacin como la mena o cionada: a tendr un residuo borrado grande. Pero todav es posible un a a anlisis ms sosticado, que tenga en cuenta, en particular, los parmetros a a a sobre los que una observacin es muy inuyente. Abordamos este anlisis a o a continuacin. o
11.2.1.
La curva de inuencia muestral.
La forma obvia de examinar la inuencia de la observacin i-sima cono e siste en comparar los vectores de estimadores obtenidos con y sin dicha observacin: y (i) respectivamente. En consecuencia, denimos la curva de o inuencia muestral (SIC) as :
SICi = (N 1)( (i) ).
(11.20)
176
El factor (N 1) tiene por misin corregir el efecto del tamao muestral: o n en igualdad de todo lo dems, una observacin altera la estimacin tanto a o o menos cuanto ms grande sea la muestra. a La expresin (11.20) es vector-valorada: recoge, debidamente amplicadas o por (N 1), por la razn apuntada, las diferencias que introduce la inclusin o o de la observacin i-sima sobre cada uno de los p parmetros estimados. o e a Podemos relacionar (11.20) con el residuo borrado i-simo haciendo uso del e siguiente lema. Lema 11.1 Se verica que (X X)1 xi i = (X X)1 xi di . ( (i) ) = (1 pii ) Demostracion: ( (i) ) = (X X)1 X Y ((X X) xi xi )1 (X Y xi yi ) = (X X)1 X Y (X X)1 +
1
(11.21)
En consecuencia,
(X X)1 xi xi (X X)1 X Y = (X X) xi yi 1 pii 1 (X X) xi xi (X X)1 xi yi + 1 pii 1 (X X) xi (1 pii )yi xi + pii yi = 1 pii i = (X X)1 xi 1 pii
(X X)1 xi xi (X X)1 (X Y xi yi ) 1 xi (X X)1 xi
SICi = (N 1)( (i) ) = (N 1)(X X)1 xi
y el clculo de la curva de inuencia muestral SICi correspondiente a la a observacin i no requiere realizar una regresin para cada i; todos los clculos o o a se se pueden hacer con ayuda de los residuos ordinarios y diagonal de la matriz de proyeccin correspondientes a la matriz de proyeccin X(X X)1 X . o o Diferentes versiones de la curva de inuencia disponibles en regresin o lineal puede encontrarse en Cook and Weisberg (1982) y Belsley et al. (1980). Alternativas como la curva de inuencia emp rica EIC y otras, dieren de la curva de inuencia muestral presentada en el grado en que se corrige i (en 2 la EIC se divide entre (1 pii ) , en lugar de entre (1 pii ) como en (11.22).
i 1 pii
11.2. ANALISIS DE INFLUENCIA.
177
11.2.2.
Distancia de Cook.
Tal y como se indica ms arriba, la curva de inuencia en cualquiera de a sus versiones es, en nuestro caso, un vector p1 (p = nmero de parmetros). u a La coordenada k-sima de SICi proporciona informacin sobre la inuencia e o k . Aunque esta informacin de la observacin i-sima en la estimacin de o e o o pormenorizada sea util, en ocasiones queremos una unica medida resumen de la inuencia de una observacin. o (i) el vector de estimadores obtenido sin hacer uso de la observaSea cin i-sima, y el computado con la muestra completa. Una posibilidad es o e ponderar las discrepancias en una unica expresin como: o Di = ( (i) ) S( (i) ) c (11.22)
siendo S una matriz denida no negativa y c una constante positiva. Puesto que ( , 2 (X X)1 ), una eleccin posible que aproximadamente noro maliza (11.22) es: S = (X X) y c = p 2 . Con esta eleccin, la expresin o o (11.22) se denomina distancia de Cook y es una medida global de la inuencia de la observacin (xi , yi). Hay otras posibles elecciones de S y c con o diferencias, en general, slo de matiz3 . o Haciendo uso del Lema 11.1 tenemos que la distancia de Cook puede escribirse as : Di = i xi (X X)1 (X X)(X X)1 xi i 2 (1 p )2 p ii 1 2 pii r = p i 1 pii (11.23) (11.24)
siendo ri el i-simo residuo internamente studentizado. e
11.2.3.
DFFITS.
pii 1 pii p N
Se denen as : DFFITi = ti (11.25)
Se suele considerar observaciones inusuales a aqullas con e |DFFITi | > 2

3
(11.26)
Una relacin de las mismas puede verse en Cook and Weisberg (1982), p. 124. o
178
11.2.4.
DFBETAS.
Se denen por: DFBETAij = j j,(i) ; (11.27)
(X X)1 jj
Los estad sticos DFBETA permiten evaluar la inuencia de la observacin o i-sima sobre el parmetro j-simo. En cierto modo desglosan la informacin e a e o que la distancia de Cook resume en un unico estad stico por observacin. La o motivacin de la expresin (11.27) es clara: la diferencia entre la estimacin o o o de j -simo con y sin la observacin i-sima se divide por una estimacin de e o e o la desviacin t o pica de j . a El criterio que se sigue es el de comparar |DFBETAij | con 2/ N. Ms detalles en Belsley et al. (1980).
11.3.
Anlisis grco de residuos a a
Al margen del uso que pueda hacerse de los residuos en cualquiera de sus variedades para, por ejemplo, contrastar hiptesis de presencia de outliers, o etc., con frecuencia ser conveniente construir algunos grcos. Es mucha, en a a efecto, la informacin que cabe obtener de ellos. Presentamos a continuacin o o algunos de estos grcos; otros aparecern en contexto en los cap a a tulos dedicados a seleccin de modelos (Cap o tulo 12) y transformaciones de las variables (cap tulo 13). Referencias utiles para ampliar lo que se expone a continuacin o incluyen Trocniz (1987a), Myers (1990), Ryan (1997) o Atkinson (1985). o
11.3.1.
Grcos de residuos frente a a ndice de observacin (i, i) o
Frecuentemente, el ndice de cada observacin es el tiempo, es decir, las o observaciones han sido tomadas secuencialmente una despues de otra. El representar i frente a i nos podr poner de maniesto rupturas temporales a por ejemplo, una brusca disminucin del tamao de los residuos a partir o n de un cierto i. En ocasiones podemos ver tambin en un grco de ese a ta naturaleza pautas como agrupamiento de residuos, que puede convenir investigar. Pueden emplearse residuos ordinarios o studentizados en cualquiera de sus variedades.
11.3. ANALISIS GRAFICO DE RESIDUOS
179
11.3.2.
Grcos de residuos frente a variables incluidas a (xij , i)
Los residuos ordinarios son por construccin ortogonales a cualquiera de o los regresores. No obstante, un grco de esta naturaleza puede aportar infora macin acerca del modo en que un regresor interviene en la generacin de la o o respuesta: por ejemplo, podr amos ver una pauta de relacin no lineal entre o i y xij , sugiriendo que xij debe suplementarse con un trmino cuadrtico, e a entrar como funcin exponencial, etc. o
11.3.3.
Grcos de residuos frente a variables excluia das (x , i) ij
La idea es similar a la del apartado precedente, pero x son ahora los ij valores de una variable no incluida (y candidato a serlo) en la regresin. o Un grco de esta naturaleza permitir ver si la parte no explicada de la a a respuesta (los residuos) tiene alguna relacin evidente con la nueva variable. o En su caso, dependiendo de la pauta que dibujaran los residuos, tendr amos pistas acerca de si dicha variable x ha de incluirse tal cual o tras alguna j transformacin funcional. o
11.3.4.
Grcos de variable a adida (Y |Xj , Xj |Xj ) a n
La idea es similar a la del apartado anterior. Se dibujan los residuos de la regresin de Y sobre todas las variables menos Xj sobre los residuos o de regresar dicha variable sobre todas las dems. Los residuos de ambas a regresiones recogen, respectivamente, las partes de Y y Xj ortogonales al subespacio generado por las restantes variables. Si hubiera alguna pauta en dicha grca, podr a amos interpretarla como relacin entre Y y Xj eliminado en ambas el efecto de las restantes variables. o
11.3.5.
Grcos de normalidad de residuos a
Aunque, como se ha visto (Seccin 11.1.1 y siguiente), los residuos studeno tizados no siguen una distribucin normal, a efectos prcticos y para tamaos o a n muestrales moderados (Trocniz (1987a), pg. 174, indica que suele bastar o a N > 20) la aproximacin a la normalidad es muy buena, si las perturbaciones o son a su vez normales. Hay multitud de pruebas utilizables para contrastar ajuste a una distribucin. La de Kolmogorov-Smirnov (vase Trocniz (1987b), pg. 255) es de o e o a uso general con muestras grandes y distribuciones continuas lo que incluye
180
a la normal. Hay contrastes como el de Shapiro-Wilk descrito en Shapiro and Wilk (1965) y Shapiro and Francia (1972), especializados en el contraste de la hiptesis de normalidad. o Tan util como pueda ser una prueba estadistica convencional de normali dad, en ocasiones es util un instrumento que permita visualizar la naturaleza y alcance de la desviacin respecto a la normalidad, si existe. Los grcos en o a papel normal cumplen esta nalidad. El principio es muy simple: dada una muestra {xi }N , si procede de una i=1 distribucin normal los puntos (xi , 1 (F (xi ))), en que F (xi ) es la funcin o o de distribucin emp o rica de la muestra, deben estar aproximdamente alineados. Vase por ejemplo Trocniz (1987b), pg. 270. e o a El grco puede hacerse manualmente sobre papel especial (papel nora mal) en que la escala vertical absorbe la transformacin 1 (.); o puede o hacerse mediante ordenador en cuyo caso basta facilitar los datos y vericar la linealidad del grco resultante. a En cualquiera de los casos se cuenta con un instrumento que permite no slo apreciar si hay desviaciones respecto de la normalidad, sino tambin de o e qu naturaleza son y a qu puntos afectan. e e R: Ejemplo 11.1 (grcos para contraste de normalidad de rea siduos) La Figura 11.2 se genera mediante el fragmento de cdigo reproduo cido a continuacin. Los dos primeros paneles recogen sendos grcos o a de normalidad para una muestra normal y una muestra procedente de una F1,2 ; puede verse la llamativa desviacin de la normalidad en este o ultimo caso.
> > > > > > > > > + + > >
par(mfrow = c(2, 2)) muestra <- rnorm(200) qqnorm(muestra, main = "Q_Q Plot de\n 200 obs. N(0,1)") muestra <- rf(200, 1, 2) qqnorm(muestra, main = "Q-Q Plot de\n 200 obs. F con 1,2 g.l.") rm(muestra) library(MASS) data(UScrime) modelo <- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Prob + Ineq, data = UScrime) qqnorm(stdres(modelo), main = "Q_Q Plot residuos\n int. studentiza qqnorm(studres(modelo), main = "Q_Q Plot residuos\n ext. studentiz
11.3. ANALISIS GRAFICO DE RESIDUOS
181
Figura 11.2: Grcos para contraste de normalidad a

Q_Q Plot de 200 obs. N(0,1)
3 Sample Quantiles Sample Quantiles 2 250 0 50 3 150
QQ Plot de 200 obs. F con 1,2 g.l.
3 3
1 0
1 0
Theoretical Quantiles
Q_Q Plot residuos int. studentizados

Sample Quantiles Sample Quantiles 2 2 2 0 1 3 2 0 1 2 1 0 1 2
Q_Q Plot residuos ext. studentizados
2 1
182

X11cairo 2 Los siguientes dos paneles muestran los grcos de normalidad a correspondientes a los residuos interna y externamente studentizados de un mismo modelo. Puede constatarse que son casi idnticos y que e sugieren un buen ajuste de la muestra a la hiptesis de normalidad. o Fin del ejemplo
11.3.6.
Grcos de residuos ordinarios frente a resia duos borrados (di, i)
Un residuo borrado no necesariamente es indicativo de que una observacin sea muy inuyente. Lo realmente sintomtico es una gran divergencia o a entre el residuo ordinario y el residuo borrado, pues ello indica que al omitir la observacin correspondiente los resultados var mucho, al menos en el o an ajuste de la observacin i-sima. o e Por ello se propone como grco util en el diagnstico de un modelo el de a o i frente a di . En general, deber amos observar puntos aproximadamente sobre la bisectriz: di i . Puntos muy separados de la bisectriz corresponder a an observaciones que alteran sustancialmente la regresin. o
11.3. ANALISIS GRAFICO DE RESIDUOS Complementos y ejercicios

ms normalidad, sigue una distribucin beta, B( 1 , 1 (N p 1)). a o 2 2
2 11.1 Demustrese que ri /(N p), bajo los supuestos habituales e
183
184
Cap tulo 12
Seleccin de modelos. o
12.1.
Criterios para la comparacin. o
En ocasiones, ajustamos un modelo de regresin teniendo una idea clara o de las variables que debemos incluir como regresores. Es ms frecuente, sin a embargo, el caso en que slo tenemos una idea aproximada de la forma adeo cuada para nuestro modelo, y debemos decidir con criterio estad stico qu e regresores deben ser incluidos. Para enfrentar este tipo de situaciones necesitamos, por una parte, criterios de bondad de ajuste, capaces de permitirnos comparar distintos modelos ajustados a una misma muestra. Por otra, necesitamos estrategias de seleccin de variables que construyan de manera automtica o semi-automtica o a a subconjuntos de todos los modelos posibles susceptibles de incluir el mejor. Examinaremos en esta Seccin el primer punto. o Es claro que no podemos preferir un modelo a otro simplemente porque su SSE es menor, dado que toda1 variable que incluyamos en la regresin, tenga o mucha o poca relacin con la variable respuesta, reducir SSE. Tenemos, o a pues, que buscar criterios ms elaborados. a
Las unicas excepciones son aquellas variables correspondientes a columnas de la matriz de dise o X ortogonales a y, o que son combinacin lineal exacta de columnas corresponn o dientes a variables ya presentes entre los regresores.
1
185
186
CAP ITULO 12. SELECCION DE MODELOS.
12.1.1.
Maximizacin de Rp . o
N 1 N p
Se dene el coeciente de determinacin corregido as o :

2 Rp = 1 [1 Rp ] 2
(12.1)
haciendo referencia el sub ndice p al nmero de regresores presentes en el u modelo. Si reescribimos la ecuacin (12.1) en la forma: o
2 1 Rp = [1 Rp ] 2
N 1 N p SSEp N 1 = SST N p
(12.2) (12.3)
vemos que mientras que el primer trmino de la derecha de (12.3) es montono e o no creciente con p, el segundo es montono creciente. Por consiguiente, el o 2 producto de ambos puede crecer o decrecer al crecer p. 2 Es frecuente por ello utilizar Rp como criterio de ajuste. Aunque util, veremos sin embargo que debe complementarse con otros criterios. Su exclusiva aplicacin da lugar con gran probabilidad a modelos sobreparametrizados, o como pone de maniesto el siguiente teorema. o a Teorema 12.1 El estad stico Rp crece con la introduccin de un parmetro en la ecuacin de regresin si el estad o o stico Qh asociado al contraste de signicacin de dicho parmetro verica Qh > 1. o a Demostracion:3 Para contrastar la signicacin del (p + 1)-simo parmetro, empleamos o e a (Seccin 6.2, pg. 75): o a Qh = SSEp SSEp+1 N p 1 SSEp+1 1 (12.4) (12.5)
2
2 2 (Rp+1 Rp ) N p 1 = 2 1 Rp+1 1
2
Expresiones como la anterior con un trmino funcin de la suma de cuadrados de e o los residuos y otro interpretable como penalizacin por la introduccin de parmetros o o a adicionales, son ubicuas en la literatura estad stica. La Cp de Mallows que se examina ms a abajo tiene la misma forma, como muchos criterios de ajuste utilizados sobre todo en el anlisis de series temporales: Criterio de Informacin de Akaike (AIC), FPE, BIC, etc. a o 3 Sigue a Haitovsky (1969).
12.1. CRITERIOS PARA LA COMPARACION. de donde:

2 2 2 (1 Rp+1 )Qh = (Rp+1 Rp )(N p 1)
187
(12.6) (12.8)
2 2 Qh + (N p 1)Rp = Rp+1 [(N p 1) + Qh ] 2 Despejando Rp+1 tenemos: 2 Qh + (N p 1)Rp (N p 1) + Qh 1 2 Q + Rp N p1 h 1 1 + N p1 Qh 2
2 2 2 Qh Qh Rp+1 = (N p 1)Rp+1 (N p 1)Rp (12.7)
2 Rp+1 =
(12.9) (12.10)
De (12.10) y de la denicin de Rp+1 se deduce que: o

2 Rp+1 = 1 [1 Rp+1 ] 2
N 1 (N p 1)
(12.11)
Sustituyendo en esta expresin (12.10) llegamos a: o

2 Rp+1
= 1
N p1+Qh N p1
2 [1 Rp ]
2 = 1 [1 Rp ]
N 1 N p 1 + Qh N p 2 N 1 = 1 [1 Rp ] N p N p 1 + Qh
Rp 2 2
2
N 1 N p1
(12.12) (12.13) (12.14)
Es evidente de (12.14) que Rp+1 Rp si Qh > 1, y viceversa4 . Maximizar 2 Rp implica introducir en la ecuacin de regresin todos aquellos regresores cuo o yo estad stico Qh sea superior a la unidad; pero esto ocurre con probabilidad 0,50 incluso cuando h : i = 0 es cierta. Consecuentemente, el emplear este criterio en exclusiva conducir con gran probabilidad al ajuste de modelos a sobreparametrizados.
Obsrvese que si el trmino t en (12.14) fuera la unidad lo que acontece cuando e e 2 o Qh = 1, el lado derecho ser precisamente Rp . Si Qh > 1, t es menor que 1 y, como slo a multiplica al sustraendo en (12.14), el resultado es mayor que Rp .
2 4
188
12.1.2.
Criterio Cp de Mallows.
Supongamos que la variable aleatoria Y se genera realmente como prescribe el modelo Y = X + , no obstante lo cual ajustamos el modelo equivocado Y = X + con p parmetros. Una vez estimado, dicho modelo a (p) . Un criterio para evaluar la adecuacin del suministra las predicciones Y o modelo estimado al real, ser el error cuadrtico medio a a
ECM = E(Y (p) X ) (Y (p) X )
(12.15)
que sumando y restando E(Y (p) ) dentro de cada parntesis podemos descome poner as :
ECM = E (Y (p) E(Y (p) )) (Y (p) E(Y (p) ))
+E (E(Y (p) ) X ) (E(Y (p) ) X ) = Var(Y (p) ) + (Sesgo)2 . El primer trmino no ofrece dicultad. Como e Y (p) = X(X X)1 X Y = X(X X)1 X (X + ), tenemos que y E[Y (p) ] = X(X X)1 X X
(12.16) (12.17)
(12.18)
((Y (p) E(Y (p) )) ((Y (p) E(Y (p) )) = X(X X)1 X X(X X)1 X = X(X X)1 X
2 2 . p Falta el trmino de sesgo. Observemos que e
(12.19)
E[(Y Y (p) ) (Y Y (p) )] = E (X X(X X)1 X X ) (X X(X X)1 X X ) SSE
+ Por consiguiente,
E (I X(X X) X ) .
(Sesgo)2 1
(Sesgo)2 = E[SSE] E[ 2 2 p ]. N
(12.20)
12.1. CRITERIOS PARA LA COMPARACION. Sustituyendo en (12.17) tenemos entonces que ECM = E SSE 2 2 p + E 2 2 p N = E[SSE] (N p) + p,
2 2
189
(12.21) (12.22)
y por consiguiente: ECM SSE N + 2p. =E 2 2 Minimizar esta ultima expresin es lo mismo que minimizar o E SSE + 2p, 2 (12.24) (12.23)
ya que N es constante. Como quiera que el valor medio en la expresin o anterior no puede ser calculado y es desconocida, todo lo que podemos hacer es reemplazar (12.24) por la expresin anloga, o a Cp = SSE + 2p. 2 (12.25)
A esta ultima expresin se la conoce como Cp de Mallows. o Para que se verique la aproximacin en (12.25) es preciso que 2 o 2 , lo que se consigue si la muestra es lo sucientemente grande y 2 = (N pk) /(N p k), estando entre los (p + k) regresores inclu dos los p SSE necesarios. Incluso aunque entre dichos (p + k) regresores haya algunos innecesarios, 2 es insesgado; el precio que se paga por emplear ms parmetros a a 2 de los debidos en la estimacin de es una reduccin en el nmero de grados o o u de libertad (vase Seccin 5.2). e o De acuerdo con el criterio de Mallows, seleccionaremos el modelo que minimice Cp . La expresin (12.25) es otro ejemplo de criterio de ajuste con o penalizacin. Cada nuevo parmetro que introducimos, reduce quiz SSE, o a a pero esta reduccin tiene un precio: el incremento del segundo sumando de o (12.25) en 2. El efecto neto indica si el nuevo regresor es o no deseable. Observacin 12.1 De acuerdo con el criterio Cp de Mallows, o dada una ecuacin de regresin con unos ciertos regresores presentes, o o introduciremos un nuevo regresor si ste puede pagar su inclusin e o 2 . La maximizacin de R2 , reduciendo SSE en, al menos, dos veces o p en cambio, requerir en anloga situacin introducir el mismo regresor a a o si disminuye SSE en al menos una vez 2 . El criterio Cp de Mallows es ms restrictivo5 . a
La comparacin es aproximada tan slo. El valor de 2 que se emplea en el criterio Cp o o se obtiene, t picamente, ajustando el modelo ms parametrizado (esto minimiza el riesgo de a
5
190
CAP ITULO 12. SELECCION DE MODELOS. Observacin 12.2 Un estad o stico se enfrenta con frecuencia a
este dilema en su trabajo. Hasta dnde procede llevar la complejidad o del modelo a emplear? Qu mejora en el ajuste de un modelo a la e muestra justica la adicin de un nuevo parmetro?. O, si se preere, o a Cun alada debe ser la navaja de Ockham? En el caso del modelo de a regresin lineal, el criterio Cp suministra seguramente una navaja con o el lo adecuado; argumentos alternativos llevan a criterios equivalentes o similares al Cp . Es un hecho notable y llamativo que por diversas v se llegue siempre a anlogos resultados, que tienen en com n el as a u medir la complejidad del modelo empleado como una funcin lineal o o aproximadamente lineal del n mero de sus parmetros; ms sobre u a a esto en la Seccin 12.1.5. En la Seccin 12.1.4 se introduce la idea o o de la validacin cruzada, que proporciona una forma alternativa de o evaluar la bondad de ajuste de un modelo soslayando el empleo de una penalizacin basada en el n mero de parmetros. o u a
12.1.3.
Criterio AIC
Relacionado con el criterio Cp de Mallows, aunque vlido de modo mucho a ms general y motivado de modo muy diferente, est el criterio AIC (Akaikes a a Information Criterion, o An Information Criterion). Consiste en seleccionar el modelo minimizando a AIC(p) = 2 loge mx verosimilitud(x , ) + 2p
El primer trmino en la expresin anterior es, como en la Cp de Mallows, e o una medida de bondad de ajuste (disminuye al crecer el mximo de la veroa similitud); el segundo penaliza el nmero de parmetros en . Puede verse u a una justicacin en Akaike (1972) (y en Akaike (1974), Akaike (1991)). Una o explicacin simplicada que sigue esencialmente a de Leeuw (2000) puede o encontrarse en Tusell (2003), Seccin ??. o Cuando consideremos modelos de regresin lineal con normalidad, el uso o de los criterios AIC y Cp dar resultados exactamente equivalentes si coa nociramos 2 (ambos criterios dieren en tal caso en una constante; ver e Venables and Ripley (1999a), pg. 185). Cuando 2 es desconocida y ha de a ser estimada a partir de los datos, ambos criterios pueden diferir, pero son
introducir sesgos en la estimacin de 2 , aunque seguramente nos hace despilfarrar algunos o 2 grados de libertad). Por el contrario, al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (12.4), es decir, si la disminucin SSEp SSEp+1 en la suma o de cuadrados de los residuos es mayor que 2 = SSEp+1 /(N p 1), varianza estimada en el modelo con p + 1 regresores.
12.1. CRITERIOS PARA LA COMPARACION.
191
a efectos prcticos intercambiables. El criterio AIC no obstante es de mbia a to mucho ms general, y puede ser utilizado dondequiera que tengamos una a verosimilitud, sea o no normal la distribucin generadora de la muestra. o
12.1.4.
Residuos borrados y validacin cruzada o
Hemos visto que el problema de emplear como criterio para la seleccin o de modelos alguno de los estad sticos de ajuste obvios (suma de cuadrados residual, R2 , o similar) estriba en que hay que tomar en consideracin el o diferente nmero de parmetros en cada modelo. u a El problema consiste en que, al incrementar el nmero de parmetros, el u a modelo puede seguir ms a la muestra, ajustando no slo el comportamiento a o predecible sino incluso el puramente aleatorio Se adapta muy bien a una muestra la que hemos empleado para estimarlo, pero quiz no a otras. a Una solucin consistir en estimar los modelos con una muestra (muestra o a de entrenamiento o aprendizaje) y evaluarlos examinando su comportamiento en la prediccin de otra diferente (muestra de validacin). Actuando as o o , estar amos a salvo de impresiones excesivamente optimistas: la suma de cuadrados de los residuos o R2 que calculramos para cada modelo reejar a a su capacidad de generalizacin: su comportamiento con otras observaciones o distintas de las que han servido para estimarlo. Lamentablemente, esto requiere dividir nuestra disponibilidad de observaciones en dos grupos: uno para estimar y otro para validar. El obtener un diagnstico realista por este procedimiento requiere sacricar en aras de o la validacin una preciosa fraccin de muestra que habr permitido, quiz, o o a a estimar mejor. Realmente es esto as No; una vez que hemos decidido por el procedi? miento anterior de fraccionar la muestra en dos para seleccionar el modelo mejor, podemos emplear todas las observaciones en reestimarlo. La idea de la validacin cruzada incorpora una mejora adicional al plano teamiento anterior. No tenemos necesariamente que usar slo una fraccin de o o la muestra para validar. Podemos dividir la muestra en dos (o ms) partes y a emplear todas ellas en la validacin. El ejemplo que sigue detalla los pasos a o seguir haciendo validacin cruzada por mitades. o Ejemplo 12.1 Consideremos una muestra de tama o N = 100. n
Tenemos una coleccin de K modelos Mi , i = 1, . . . , K, posiblemente o con diferente n mero de parmetros, de entre los que queremos seu a leccionar uno. Podemos dividir la muestra en dos trozos, A y B, de tama os respectivos NA = NB = 50, y proceder as n : 1. Con la muestra A estimaremos cada uno de los modelos Mi .
192

2. Examinaremos el ajuste de los modelos as estimados a la mues tra B, computando sumas de cuadrados residuales para cada uno (A) de los modelos, SSEi . 3. Con la muestra B estimaremos cada uno de los modelos Mi . 4. Examinaremos el ajuste de los modelos as estimados a la mues tra A, computando sumas de cuadrados residuales para cada uno (B) de los modelos, SSEi 5. Tanto SSEi como SSEi son estimaciones de las sumas de cuadrados de los residuos del modelo Mi , cuando se utiliza en prediccin sobre una muestra diferente de la que se ha empleado o en su estimacin. Podemos promediar ambas para obtener un o (A) (B) 1 unico estad stico, SSEi = 2 (SSEi + SSEi ). 6. Seleccionaremos el modelo Mi tal que SSEi es m nimo. Observemos que nada nos constri e a dividir la muestra en dos parn tes; podr amos dividirla en s partes, y proceder exactamente del mismo modo: utilizar amos sucesivamente s 1 partes para estimar y la res() tante para evaluar SSEi , = 1, . . . , s, (suma de cuadrados de los residuos al predecir en la muestra mediante el modelo Mi estimado () con las restantes observaciones). Promediando los s valores SSEi obtendr amos el SSEi del modelo Mi . El caso extremo consistir en tomar s = N , y realizar el proceso a dejando cada vez fuera una unica observacin (validacin cruzada de o o tipo leave one out). En muchas situaciones esta estrategia puede requerir un esfuerzo de clculo formidable: cada modelo ha de ser reestimado (N 1) veces, a dejando cada vez fuera de la muestra de estimacion una observacin o diferente! En regresin lineal, sin embargo, la diferencia entre la preo diccin de la observacin i-sima haciendo uso de todas las restantes o o e y el valor observado de la misma es, simplemente, el residuo borrado, de cmoda y rpida obtencin (vase Seccin 11.1.4). Por tanto, o a o e o utilizando la notacin de dicha Seccin, o o
SSEi = d2 (A) (B)
( = 1, . . . , N )
N SSEi . =1
SSEi = N 1
El modelo seleccionado es aqul al que corresponde un SSEi ms e a peque o6 . n

Ntese que SSEi es lo que se conoce tambin como suma de cuadrados de los residuos o e predictiva o PRESS; vase nota a pie de pgina de la Seccin 11.1.4. e a o
6
12.1. CRITERIOS PARA LA COMPARACION.
193
Fin del ejemplo
12.1.5.
Complejidad estocstica y longitud de descripa cin m o nima
En esencia, seleccionar un modelo entraa adoptar un compromiso entre la n bondad de ajuste y la complejidad, medida por el nmero de sus parmetros. u a Sabemos que un modelo lineal sucientemente parametrizado podr ajustar a perfectamente la muestra, pero que ello no signica que sea idneo: puede o tener muy poca capacidad de generalizacin. Por el contrario, un modelo que o no incluya los parmetros sucientes dara un ajuste susceptible de mejora. a Se trata de alcanzar un equilibrio entre los dos objetivos en contradiccin: o un modelo dando buen ajuste y con los m nimos parmetros precisos. a Una aproximacin intuitivamente atrayente al problema es la siguiente: o tratemos de dar una descripcin tan corta como sea posible de la evidencia o (la muestra). Esto puede de nuevo verse como una apelacin al principio de o Ockham: construir explicaciones de la realidad que hacen uso del m nimo nmero de entidades. u La aproximacin propuesta exige medir la longitud de la descripcin que o o hagamos, y podemos para ello hacer uso de la Teor de la Informacin. a o No podemos elaborar esta cuestin con detalle aqu (vase una buena ino e troduccin en Rissanen (1989), y detalles en Legg (1996)). En esencia, dado o un modelo probabilistico podemos describir o codicar unos datos de modo compacto asignando a los ms raros (menos probables) los cdigos ms a o a largos. Observacin 12.3 Esta estrategia, de sentido com n, es la que o u hace que al codicar en el alfabeto telegrco de Morse la letra e a (muy frecuente en ingls) se adoptara el cdigo ., reservando los ce o o digos ms largos para caracteres menos frecuentes (ej: -..- para la a x). Adems de codicar los datos tenemos que codicar los parmetros del moa a delo probabilistico. La longitud total de descripcin de la muestra y cuando o hacemos uso del modelo probabil stico Mk haciendo uso del vector de para metros k es entonces MDL(Mk ; y ) = (Cdigo necesario para y ) o + (12.26)
(Cdigo necesario para k ). (12.27) o
194
Un mal ajuste har que el primer sumando sea grande; los datos muestrales se a desv mucho de lo que el modelo predice. Un modelo con un perfecto ajuste an tendr un primer sumando nulo (porque las y se deducir exactamente a an del modelo, y no requerir ser codicadas), pero requerir quiz muchos an a a parmetros incrementando el segundo sumando. a El criterio MDL propone seleccionar el modelo Mk que minimiza (12.27). En el caso de modelos de regresin, el criterio MDL da resultados o ntimamente emparentados asintticamente con los precedentes (suma de cuadrados o PRESS y Cp ); vanse detalles en Rissanen (1989), Cap. 5. e
12.2.
Seleccin de variables. o
Una aproximacin ingenua al problema consistir en estudiar la reduccin o a o 2 o en un cierto criterio (SSE, Rp , Cp , . . . ) originada por la introduccin de cada variable, y retener como regresores todas aquellas variables que dieran lugar a una reduccin signicativa. Desgraciadamente, esta estrategia no tiene en o cuenta el hecho de que, a menos que las columnas de la matriz de diseo n X sean ortogonales, la reduccin en SSE originada por la inclusin de una o o variable depende de qu otras variables estn ya presentes en la ecuacin e e o ajustada. Se impone, pues, emplear procedimientos ms sosticados. Relacionamos a algunos de los ms utilizados. a
12.2.1.
Regresin sobre todos los subconjuntos de vao riables.
De acuerdo con el prrafo anterior, la adopcin de una estrategia ingenua a o podr dicultar el hallazgo de un modelo adecuado. Por ejemplo, puede bien a suceder que una variable Xi , que debiera ser inclu en el modelo, no origine da una reduccin signicativa de SSE cuando la introducimos despus de Xj . o e Si esto ocurre, es claro que Xi no mostrar sus buenas condiciones como a regresor mas que si es introducida con Xj ausente. Una posible solucin ser dados p regresores, formar todos los posibles o a, subconjuntos de regresores y efectuar todas las posibles regresiones, reteniendo aqulla que, de acuerdo con el criterio de bondad de ajuste que hayamos e adoptado, parezca mejor. El inconveniente es el gran volumen de clculo que es preciso realizar. a Pinsese que con p regresores pueden estimarse 2p 1 diferentes regresiones. e Si p = 5, 2p 1 = 31; pero si p = 10, 2p 1 = 1023, y para p > 20 habr que a
12.2. SELECCION DE VARIABLES.
195
realizar por encima de un milln de regresiones. Hay procedimientos para o 7 reducir y agilizar el clculo , pero an as ste puede resultar excesivo. a u e
12.2.2.
Regresin escalonada (stepwise regression). o
Se trata de un procedimiento muy utilizado que, aunque no garantiza obtener la mejor ecuacin de regresin, suministra modelos que habitualmente o o son ptimos o muy prximos al ptimo, con muy poco trabajo por parte o o o del analista. Describiremos el procedimiento de regresin escalonada hacia o adelante (forward selection procedure); la regresin escalonada hacia atrs o a (backward elimination) o mixta son variantes fciles de entender. a En cada momento, tendremos una ecuacin de regresin provisional, que o o incluye algunas variables (regresores incluidos) y no otras (regresores ausentes). Al comienzo del procedimiento, la ecuacin de regresin no incluye o o ningn regresor. El modo de operar es entonces el siguiente: u 1. Calcular los estad sticos Qh para todos los regresores ausentes (h : i = 0). 2. Sea Q el mximo estad a stico de los calculados en 1). Si Q < F , siendo h h F un umbral prejado, nalizar; la ecuacin provisional es la denitiva. o Si, por el contrario, Q F , se introduce la variable correspondiente h en la ecuacin de regresin. o o 3. Si no quedan regresores ausentes, nalizar el procedimiento. En caso contrario, reiniciar los clculos en 1). a En suma, se trata de introducir las variables de una en una, por orden de mayor contribucin a disminuir SSE, y mientras la disminucin sea apreciao o ble. El procedimiento de regresion hacia atrs procede de manera anloga, a a pero se comienza con una ecuacin que incluye todos los regresores, y se van o excluyendo de uno en uno, mientras el incremento en SSE que dicha exclusin o origine no sea excesivo. En el procedimiento m xto, por n, se alterna la inclusin y exclusin de variables en la recta de regresin; ello permite que o o o una variable incluida sea posteriormente desechada cuando la presencia de otra u otras hacen su contribucin a la reduccin de SSE insignicante. o o Los criterios de entrada y salida de variables se jan especicando sendos valores Fentrada y Fsalida que deben ser superados (no alcanzados) por el Q correspondiente para que una variable pueda ser incluida (excluida) h
7
Vase Seber (1977), pag. 349 y ss. e
196
en la regresin. Ambos umbrales pueden ser el mismo. Mediante su seleco cin adecuada, puede lograrse un algoritmo hacia adelante puro (jando o Fsalida = 0, con lo que se impide el abandono de cualquier variable introducida), hacia atrs puro (jando Fentrada muy grande, y comenzando con una a ecuacin de regresin que incluye todas las variables), o un procedimiento o o mixto arbitrariamente prximo a cualquiera de los dos extremos8 . o R: Ejemplo 12.1 (seleccin automtica de modelos) El ejemo a plo siguiente muestra el uso de las funciones leaps (en el paquete del mismo nombre) para hacer regresin sobre todos los subconjuntos con o 2 , R2 C , stepAIC (en el paquete MASS) para hacer regrecriterios R o p sin escalonada con criterio AIC y algunas otras funciones ancilares. o Orimero generamos datos sintticos del modo habitual. Como puee de verse, hay muchos betas no signicativos.
> > + > > > > + > > set.seed(123457) X <- matrix(rnorm(1000), ncol = 20) betas <- rep(0, 20) betas[c(3, 5, 7, 12)] <- 1:4 y <- X %*% betas + rnorm(50) datos <- as.data.frame(cbind(X, y)) dimnames(datos)[[2]][21] <- "y" completo <- lm(y ~ ., datos)
Como puede verse, hay muchos betas no signicativos: > summary(completo) Call: lm(formula = y ~ ., data = datos) Residuals:
Podr pensarse en jar niveles de signicacin para la entrada y salida de variables. a o Esto no se hace porque ser considerablemente arduos de computar; obsrvese que en an e un procedimiento stepwise se selecciona para entrar o salir de la ecuacin de regresin o o la variable con un Qh mayor (menor). Bajo la hiptesis de nulidad del correspondiente o parmetro, un Qh cualquiera se distribuye como una F de Snedecor con grados de libertad a apropiados. El mayor (o menor) de los estad sticos Qh en cada etapa, sigue una distribucin o diferente (vase Cap e tulo 8). El nivel de signicacin asociado al contraste impl o cito en la inclusin o exclusin de un regresor no es la probabilidad a la derecha (o izquierda) de o o Fentrada (o Fsalida ) en una distribucin F con grados de libertad apropiados. o
8

Min 1Q Median -1.916 -0.550 -0.107 Max 2.204 3Q 0.829
197
Coefficients: Estimate Std. Error (Intercept) -0.0706 0.2227 V1 0.0408 0.2422 V2 0.1720 0.2603 V3 1.1884 0.2397 V4 -0.0238 0.2067 V5 2.0035 0.2022 V6 0.2633 0.2217 V7 2.9970 0.1875 V8 -0.1074 0.2804 V9 0.0514 0.2105 V10 -0.2367 0.2148 V11 -0.2053 0.2042 V12 4.0374 0.2212 V13 0.1137 0.2161 V14 -0.2115 0.2163 V15 0.0191 0.3076 V16 0.1206 0.2328 V17 0.0318 0.1972 V18 -0.0786 0.2108 V19 0.0879 0.2569 V20 0.0162 0.1949 t value Pr(>|t|) (Intercept) -0.32 0.75 V1 0.17 0.87 V2 0.66 0.51 V3 4.96 2.9e-05 *** V4 -0.11 0.91 V5 9.91 8.1e-11 *** V6 1.19 0.24 V7 15.98 6.5e-16 *** V8 -0.38 0.70 V9 0.24 0.81 V10 -1.10 0.28 V11 -1.01 0.32 V12 18.25 < 2e-16 *** V13 0.53 0.60
198

V14 -0.98 V15 0.06 V16 0.52 V17 0.16 V18 -0.37 V19 0.34 V20 0.08 --Signif. codes: 0 *** 0.34 0.95 0.61 0.87 0.71 0.73 0.93 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.2 on 29 degrees of freedom Multiple R-squared: 0.977, Adjusted R-squared: 0.961 F-statistic: 61 on 20 and 29 DF, p-value: <2e-16 Utilizamos ahora la funcin leaps para hacer regresin sobre todos o o los subconjuntos. Con 15 regresores, es un problema de talla modesta. > library(leaps) > mods <- leaps(x = X, y = y, + method = "Cp")
El objeto mods contiene informacin sobre todos los modelos estimao 2 dos. Podemos ver como var Cp y R con el n mero de regresores: a u > + + > > > + + + > + > + + + > > postscript(file = "demo10.eps", horizontal = FALSE, width = 5, height = 9) opar <- par() par(mfrow = c(2, 1)) plot(mods$size, mods$Cp, main = "Cp versus talla modelos", xlab = expression(p), ylab = expression(C[p])) mods.r <- leaps(x = X, y = y, method = "adjr2") plot(mods.r$size, mods.r$adjr2, main = "R2 versus talla modelos", xlab = expression(p), ylab = expression(bar(R)^2)) par(opar) dev.off()

X11cairo 2 La Figura 12.1 muestra el comportamiento t pico de los criterios Cp y 2 R . Se aprecia que, aunque de forma no muy notoria en este caso, el 2 criterio R tiende a seleccionar modelos ms parametrizados. a > > + > > > 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 5 6 6 4 6 5 6 5 7 6 6 5
199
mejores <- order(mods$Cp)[1:15] regres <- mods$which[mejores, ] dimnames(regres)[[2]] <- dimnames(datos)[[2]][1:20] Cp <- mods$Cp[mejores] cbind(regres, Cp) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 V11 V12 V13 V14 V15 V16 V17 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0
200

2
Figura 12.1: Valores de Cp y R para 141 modelos ajustados a los datos UScrime
Cp versus talla modelos
200
600
Cp
1000
10 p
15
20
R2 versus talla modelos

1.0 R2 0.0 0.2 0.4 0.6 0.8
10 p
15
20

6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 0 1 0 0 0 1 1 0 1 0 0 1 1 0 0 V18 V19 V20 Cp 0 0 0 -4.225 0 0 0 -3.491 0 0 0 -3.455 0 0 0 -3.453 0 0 0 -3.213 0 0 0 -3.150 0 1 0 -2.654 0 0 0 -2.550 0 0 0 -2.548 0 0 0 -2.518 0 0 0 -2.476 0 0 0 -2.405 0 0 0 -2.368 0 0 0 -2.365 0 0 0 -2.335 0 0 0 1 0 0
201
> mod1 <- lm(y ~ V3 + V4 + + V5 + V7 + V10 + V12 + + V16 + V17, data = datos) > mod2 <- update(mod1, . ~ + . + V1 + V2) > summary(mod2) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V10 + V12 + V16 + V17 + V1 + V2, data = datos) Residuals: Min 1Q Median -1.611 -0.762 0.122 Max 2.237
3Q 0.627
Coefficients: Estimate Std. Error (Intercept) -0.03573 0.18316 V3 1.08674 0.19721 V4 -0.00741 0.16766 V5 2.03931 0.16976 V7 3.05622 0.14772
202
V10 V12 V16 V17 V1 V2

-0.27977 0.19088 4.10685 0.18483 0.08436 0.15101 0.05185 0.14567 0.16370 0.18257 -0.00659 0.20666 t value Pr(>|t|) (Intercept) -0.20 0.85 V3 5.51 2.5e-06 *** V4 -0.04 0.96 V5 12.01 1.1e-14 *** V7 20.69 < 2e-16 *** V10 -1.47 0.15 V12 22.22 < 2e-16 *** V16 0.56 0.58 V17 0.36 0.72 V1 0.90 0.38 V2 -0.03 0.97 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.11 on 39 degrees of freedom Multiple R-squared: 0.973, Adjusted R-squared: 0.966 F-statistic: 141 on 10 and 39 DF, p-value: <2e-16 > mod3 <- update(mod1, . ~ + . - V10 - V16 - V17) > summary(mod3) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V12, data = datos) Residuals: Min 1Q -2.0289 -0.6955 Max 2.5956
Median 0.0539
3Q 0.7177
Coefficients: Estimate Std. Error (Intercept) 0.0738 0.1596 V3 1.0693 0.1819 V4 -0.0410 0.1567 V5 1.9898 0.1603

V7 V12
203
3.0484 0.1400 4.1357 0.1642 t value Pr(>|t|) (Intercept) 0.46 0.65 V3 5.88 5.1e-07 *** V4 -0.26 0.79 V5 12.41 5.7e-16 *** V7 21.77 < 2e-16 *** V12 25.19 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.09 on 44 degrees of freedom Multiple R-squared: 0.971, Adjusted R-squared: 0.967 F-statistic: 293 on 5 and 44 DF, p-value: <2e-16 > m <- regsubsets(y ~ ., datos, + method = "forward") > summary(m) Subset selection object Call: regsubsets.formula(y ~ ., datos, method = "forward") 20 Variables (and intercept) Forced in Forced out V1 FALSE FALSE V2 FALSE FALSE V3 FALSE FALSE V4 FALSE FALSE V5 FALSE FALSE V6 FALSE FALSE V7 FALSE FALSE V8 FALSE FALSE V9 FALSE FALSE V10 FALSE FALSE V11 FALSE FALSE V12 FALSE FALSE V13 FALSE FALSE V14 FALSE FALSE V15 FALSE FALSE V16 FALSE FALSE V17 FALSE FALSE V18 FALSE FALSE V19 FALSE FALSE V20 FALSE FALSE
204

1 subsets of each size up to Selection Algorithm: forward V1 V2 V3 V4 V5 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " "*" 4 ( 1 ) " " " " "*" " " "*" 5 ( 1 ) " " " " "*" " " "*" 6 ( 1 ) " " " " "*" " " "*" 7 ( 1 ) " " " " "*" " " "*" 8 ( 1 ) " " " " "*" " " "*" V7 V8 V9 V10 V11 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) "*" " " " " " " " " 3 ( 1 ) "*" " " " " " " " " 4 ( 1 ) "*" " " " " " " " " 5 ( 1 ) "*" " " " " " " " " 6 ( 1 ) "*" " " " " " " " " 7 ( 1 ) "*" " " " " "*" " " 8 ( 1 ) "*" " " " " "*" " " V13 V14 V15 V16 V17 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " " " 4 ( 1 ) " " " " " " " " " " 5 ( 1 ) " " " " " " " " " " 6 ( 1 ) " " "*" " " " " " " 7 ( 1 ) " " "*" " " " " " " 8 ( 1 ) " " "*" " " " " " " V19 V20 1 ( 1 ) " " " " 2 ( 1 ) " " " " 3 ( 1 ) " " " " 4 ( 1 ) " " " " 5 ( 1 ) " " " " 6 ( 1 ) " " " " 7 ( 1 ) " " " " 8 ( 1 ) "*" " " 8 V6 " " " " " " " " "*" "*" "*" "*" V12 "*" "*" "*" "*" "*" "*" "*" "*" V18 " " " " " " " " " " " " " " " "
> library(MASS) > step <- stepAIC(completo, + scope = y ~ ., direction = "both", + trace = FALSE) > summary(step)
12.3. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 205

Call: lm(formula = y ~ V3 + V5 + V6 + V7 + V12, data = datos) Residuals: Min 1Q Median -1.9495 -0.6503 -0.0349 Max 2.6196
3Q 0.5244
Coefficients: Estimate Std. Error (Intercept) 0.0514 0.1518 V3 1.0256 0.1761 V5 2.0499 0.1557 V6 0.3046 0.1603 V7 3.0499 0.1346 V12 4.1077 0.1585 t value Pr(>|t|) (Intercept) 0.34 0.736 V3 5.82 6.1e-07 *** V5 13.17 < 2e-16 *** V6 1.90 0.064 . V7 22.65 < 2e-16 *** V12 25.91 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.05 on 44 degrees of freedom Multiple R-squared: 0.973, Adjusted R-squared: 0.97 F-statistic: 317 on 5 and 44 DF, p-value: <2e-16
Fin del ejemplo
12.3.
Modelos bien estructurados jerrquicaa mente
La facilidad con que los algoritmos presentados en este Cap tulo producen modelos candidatos no debe hacer que el analista delegue demasiado en ellos. Un modelo ha de ser consistente con los conocimientos ables que se tengan
206
acerca del fenmeno bajo estudio. Debe ser tambin interpretable. Prestemos o e algo de atencin a este ultimo requerimiento. o Imaginemos un modelo como el siguiente: y = 0 + 1 X + 2 X 2 + . (12.28)
En un caso as frecuentemente el inters se centrar en dilucidar si la relacin , e a o de X con Y es lineal o cuadrtica es decir, en contrastar la hiptesis h : a o 2 = 0. Es frecuentemente el caso que X se mide en unidades en que tanto la escala como el origen son arbitrarios (como ocurr por ejemplo, en el Ejera, cicio 2.10, pg. 39); y ser inconveniente que el contraste de h dependiera del a a origen y de la escala empleadas. Lo menos que debemos esperar de nuestra inferencia es que sea invariante frente a cambios en las unidades de medida. Si en (12.28) reemplazamos X por Z = aX + b, obtenemos y = 0 + 1 (aX + b) + 2 (aX + b)2 + = (0 + 1 b + 2 b2 ) + (1 a + 2ab2 )X + a2 2 X 2 + = 0 + 1 X + 2 X 2 + .
(12.29)
En este nuevo modelo, 2 = a2 2 absorbiendo el cambio de escala en la X. Es fcil ver que es equivalente contrastar h : 2 = 0 en (12.28) o h : 2 = 0 a en (12.29); el contraste de la hiptesis efecto cuadrtico de X sobre Y , o a al menos, no se altera por el cambio de unidades. Sin embargo, sean cuales fueren 1 y 2 , habr coecientes a, b anulando 1 = (1 a+2ab2 ) en (12.29). a Ello hace ver que:
No tiene sentido contrastar efecto lineal en un modelo que incluye tre mino cuadrtico, porque el contraste tendr un resultado diferente dea a pendiendo de las unidades de medida. La inclusin de un trmino en X 2 debe ir acompaada de un trmino o e n e lineal y constante, si queremos que el modelo sea invariante frente a cambios en el origen y la escala. La conclusin que extraemos es que los trminos de orden superior deo e ben estar acompaados de todos los trminos de orden inferior es decir, si n e incluimos un trmino cbico, deben tambin existir trminos cuadrticos y e u e e a lineales, etc.. Un modelo que cumpla con dicho requisito se dice que est a jerrquicamente estructurado y en l podemos contrastar no nulidad del coea e ciente del trmino jerrquico de orden superior, pero no de los inferiores. e a La misma conclusin es de aplicacin a trminos recogiendo interacciones: o o e
12.3. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 207 si introducimos una variable compuesta como Xi Xj en el modelo, Xi y Xj deben tambin ser incluidas. Se suele decir que un modelo jerrquicamente e a bien estructurado verica restricciones de marginalidad y que, por ejemplo, Xi y Xj son ambas marginales a Xi Xj . Si regresamos al Ejercicio 2.10 en que se arg la necesidad de utilizar un ua trmino 0 veremos que se trata del mismo problema: necesitamos el trmino e e jerrquico inferior (la constante) cuando incluimos X dado que las unidades y a el origen son arbitrarios. No es imposible que un modelo sin 0 sea adecuado, pero lo normal es lo contrario. Dependiendo de los programas que se utilicen, un algoritmo puede eliminar del modelo de regresin un trmino jerrquico inferior manteniendo o e a otro de orden superior. Es responsabilidad del analista garantizar que ello no ocurra, manteniendo la interpretabilidad de los parmetros en toda circunsa tancia.
208
CAP ITULO 12. SELECCION DE MODELOS. Complementos y ejercicios 12.1 Supongamos que hacemos regresin escalonada hacia adeo lante. Qu valor de Fentrada equivaldr a introducir regresores en el e a 2 modelo en tanto en cuanto incrementen Rp ? 12.2 Las estrategias de regresin escalonada descritas (hacia o
adelante, hacia atrs, o mixta) exploran un subconjunto de los modea los posibles, a adiendo (omitiendo) en cada momento el regresor que n parece con mayor (menor) capacidad explicativa de la variable respuesta. Puede perfectamente alcanzarse un ptimo local, al llegarse a o un modelo en el que no es posible mejorar el criterio elegido (Cp , o cualquier otro) a adiendo u omitiendo regresores, pese a existir otro n modelo mejor en trminos de dicho criterio. Mejoran nuestras expece tativas de encontrar el ptimo global mediante regresin escalonada o o cuando las columnas de la matriz X de regresores son ortogonales? Justif quese la respuesta.
12.3 En la Observacin 12.1 se comparan los criterios de seo 2 leccin de modelos consistentes en maximizar Rp y Cp , viendo que el o segundo es en general ms restrictivo. a Consideremos ahora dos posibles modelos A y B de regresin con o sumas de cuadrados de los residuos respectivamente SSEA y SSEB . El primer modelo utiliza slo un subconjunto de los regresores presentes o en el segundo (por tanto, SSEA SSEB ). Para escoger entre los modelos A y B podr amos adoptar uno de los siguientes criterios:
1. Seleccionar el modelo B si la disminucin en la suma de cuao drados respecto al modelo A es estad sticamente signicativa, es decir, si: (SSEA SSEB ) > Fq,N (p+q) Qh = q 2 siendo p el n mero de parmetros presentes en A y q el de los u a adicionales presentes en B. 2. Seleccionar el modelo B si su estad stico Cp es menor. Supongamos adems que el modelo B es el ms parametrizado a a de los posibles (incluye todas las variables de que disponemos). Qu e relacin existe entre ambos criterios? o
Cap tulo 13
Transformaciones
13.1.
Introduccin o
Nada nos obliga a utilizar los regresores o la variable respuesta tal cual; es posible que la relacin que buscamos entre una y otros requiera para ser o expresada realizar alguna transformacin. Por ejemplo, si regresramos el o a volumen de slidos aproximadamente esfricos sobre sus mayores dimensioo e nes, obtendr amos probablemente un ajuste muy pobre; ser mucho mejor, a en cambio, regresando el volumen sobre el cubo de la mayor dimensin o 4 3 a dado que la frmula del volumen de una esfera es 3 r , y cabr esperar una o relacin similar en los slidos aproximadamente esfricos que manejamos. o o e En el ejemplo anterior, bastaba tomar un regresor la mayor dimensin o y elevarla al cubo para obtener un ajuste mejor. Adems, la naturaleza del a problema y unos m nimos conocimientos de Geometr sugieren el tipo de a transformacin que procede realizar. En otros casos, la transformacin puede o o distar de ser obvia. En ocasiones, es la variable respuesta la que conviene transformar. En las secciones que siguen se muestran algunos procedimientos para seleccionar un modelo, acaso transformando regresores, variable respuesta, o ambas cosas.
13.2.
Transformaciones de los regresores
En ocasiones, teor o conocimientos previos acerca del funcionamiento a del fenmeno bajo anlisis puede sugerir transformaciones en los regresores. o a 209
210
CAP ITULO 13. TRANSFORMACIONES
Alternativamente podemos recurrir a mtodos exploratorios, grcos o no. e a En lo que sigue se mencionan algunas posibilidades.
13.2.1.
Grcos de residuos frente a regresores a
Se trata de representar grcamente los residuos en ordenadas frente a a cada uno de los regresores en abscisas. La motivacin es muy simple: los o residuos recogen la fraccin de la respuesta que el modelo no ha podido o recoger. Si observamos alguna pauta al representar dichos residuos frente a un regresor, podemos intuir la transformacin precisa en dicho regresor. Por o ejemplo, en la Figura 13.1 se muestran residuos que frente a los valores de Xi toman forma de parbola; ello sugiere introducir el regresor Xi2 . En efecto, a esto permitir recoger una parte de Y de la que el modelo actual no da a cuenta, y que por este motivo aora en los residuos.
Figura 13.1: Disposicin de residuos sugiriendo una transformacin cuadro o a tica del regresor Xi
Residuos
2
0
20
40 x
60
80
100
13.2. TRANSFORMACIONES DE LOS REGRESORES
211
13.2.2.
Transformaciones de Box-Tidwell
Consideremos los regresores X1 , . . . , Xp y transformaciones de los mismos denidas del siguiente modo: Wj = si j = 0, Xj j ln(Xj ) si j = 0.
(13.1)
Para diferentes valores de j , la transformacin (13.1) incluye muchos casos o particulares de inters: transformacin cuadrado, ra cuadrada, logaritmo, e o z etc. Un j = 1 signicar que el regresor aparece sin ninguna transformacin. a o El problema est en seleccionar para cada regresor el j adecuado. a El modo de hacerlo propuesto por Box and Tidwell (1962) es el siguiente. Consideremos el modelo, Y
= 0 + 1 X1 1 + . . . + p Xp p + = 0 + 1 W1 + . . . + p Wp + .
(13.2) (13.3)
Si realizamos una linealizacin aproximada mediante un desarrollo en serie o de Taylor en torno al punto (1 , . . . , k ) = (1, 1, . . . , 1) , obtenemos: Y en donde 0 + 1 X1 + . . . + p Xp + 1 Z1 + . . . + p Zp + , j = j (j 1) Zj = Xj ln(Xj ). (13.4) (13.5) (13.6)
Tenemos pues un modelo en el que podemos estimar los parmetros, a (0 , . . . , p , 1, . . . , p ). De ellos podemos recuperar valores estimados de (1 , . . . , p ) as : j j = + 1. (13.7) j Podemos detenernos aqu pero cabe pensar en un proceso iterativo de rena, (1) do de la solucin obtenida. Llamemos k , k = 1, . . . , p, a los estimadores de o los parmetros de transformacin k obtenidos como primera aproximacin a o o al estimar (13.4). Podr amos ahora denir Wj y estimar Y
(1) (1) = 0 + 1 W1 + . . . + p Wp + 1 Z1 + . . . + p Zp + ,(13.10) (2) (1) (1) (1)
= Xj j =
(1) Wj (1) ln(Wj )
(1)
(13.8) (13.9)
(1) Zj
(2) Obtendr amos as estimaciones de W1 , . . . , Wp , y podr amos proseguir de modo anlogo hasta convergencia, si se produce. a
212
13.3.
13.3.1.
Transformaciones de la variable respuesta

Generalidades
Adems de transformar los regresores, o en lugar de hacerlo, podemos a transformar la variable respuesta Y . Es importante tener en cuenta que si realizamos transformaciones no lineales de la Y los modelos ya no sern direca tamente comparables en trminos de, por ejemplo, R2 o suma de cuadrados e residual. Comparaciones de esta naturaleza requerir reformular el modelo an en las variables originales. Ejemplo 13.1 Supongamos que nos planteamos escoger entre
los dos modelos alternativos, Y = 0 + 1 X1 + (13.11) (13.12)
log(Y ) = 0 + 1 X1 + .
La transformacin log deforma la escala de la Y ; si el logaritmo es o decimal, por ejemplo, valores de Y entre 1 y 1000 quedan convertidos en valores entre 0 y 3 (si hubiera valores de Y cercanos a cero, por el contrario, al tomar logaritmos se separar hacia ). Esta dean formacin puede ser bastante drstica, y afectar mucho a la suma de o a cuadrados de los residuos, independientemente del poder predictivo del unico regresor X1 . Para efectuar la comparacin podemos convertir todo a unidades o comunes. As no ser comparables las sumas de cuadrados , an (Yi 0 1 Xi1 )2 (13.13) (13.14)
(log(Yi ) 0 1 Xi1 )2 , pero s lo ser an (Yi 0 1 Xi1 )2
(13.15) (13.16)
(Yi exp{0 + 1 Xi1 })2 ;
no obstante, vase la discusin en la Observacin 13.1 que sigue. e o o Fin del ejemplo
13.3. TRANSFORMACIONES DE LA VARIABLE RESPUESTA Observacin 13.1 Las sumas de cuadrados de los residuos de o
dos modelos son comparables cuando ambos poseen el mismo n mero u de parmetros estimados. Si no es el caso, y los modelos son lineales, a podemos corregir el efecto del diferente n mero de parmetros penau a lizando la suma de cuadrados (por ejemplo, adoptando criterios como la Cp de Mallows; vase la Seccin 12.1.2). En el caso en que se hace e o alguna transformacin, hay que contarla como parmetro? En ciero a to modo, la transformacin efectuada es una manipulacin tendente o o a mejorar el ajuste a los datos, y habra que tener esto en cuenta, especialmente si la transformacin se escoge a la vista de los datos. o No est claro, sin embargo, cmo contar una transformacin. a o o Una posibilidad que elude el problema es renunciar a penalizar la correspondiente suma de cuadrados y hacer validacin cruzada (ver la o Seccin 12.1.4). o
213
13.3.2.
La transformacin de Box-Cox. o
En ocasiones puede resultar inadecuado suponer que la variable respuesta Y est relacionada linealmente con las X, y, sin embargo, ser plausible un a modelo como el siguiente: g(Yi) = xi + i (13.17)
Una familia de funciones g(.) de particular inters y exibilidad es la e proporcionada por la llamada transformacin de Box-Cox, sustancialmente o idntica a la adoptada para los regresores en la Seccin 13.2.2. Denamos, e o W() = g(Y ; ) =
(Y ln Y
1)/ cuando = 0, cuando = 0.
y supongamos que W() se genera de acuerdo con (13.17), es decir, W(),i = xi + i N(0, I)
2
(13.18) (13.19)
Podemos, dadas las observaciones X, y , escribir la verosimilitud conjunta de todos los parmetros: , , y . Dicha verosimilitud puede escribirse en a funcin de w as1 : o fY (y ) = fW (w ) |J()|
1
(13.20)
La variable transformada w depende en todo caso del empleado en la transformacin; o omitimos dicha dependencia para aligerar la notacin, salvo donde interese enfatizarla. o
214
siendo J() el jacobiano de la transformacin: o J() = Por tanto: 1 log ver( , , ; Y ) = log 2
2 N N w 1 = yi y i=1
(13.21)
1 | 2 I| 2
1
N N log(2) log 2 2 2 N 1 (w() X ) (w() X ) 1 + log yi 2 2 i=1

N N N log(2) log 2 + ( 1) log yi 2 2 i=1
1 (w() X ) (w() X ) exp |J()| log 2 2
1 w() (I X(X X)1 X )w() 2 2
(13.22)
La expresin (13.22) se ha obtenido maximizando la precedente respecto de o . El mximo, en efecto, se alcanza para aqul valor de que minimiza a e nimo cuadrtico. (w() X ) (w() X ), y ste es precisamente el m e a La suma de cuadrados de los residuos es entonces (vase (2.36), pg. 22) e a w() (I X(X X)1 X )w() . Si ahora maximizamos (13.22) respecto a 2 , vemos que el mximo se a alcanza para, () 2
w() (I X(X X)1 X )w() = N
y el logaritmo de la verosimilitud concentrada es: log ver(; Y ) =

N N N N log(13.23) yi . log(2) log () 2 + ( 1) 2 2 2 i=1
Podemos escoger como transformacin aqulla cuyo maximice (13.23), o e o, de modo equivalente, tras prescindir de las constantes, log ver(; Y ) =
N N log yi . log () + ( 1) 2 2 i=1
(13.24)
13.3. TRANSFORMACIONES DE LA VARIABLE RESPUESTA
215
Un modo sencillo de hacerlo consiste en tomar un nmero adecuado de valores u de equiespaciados en un intervalo susceptible de contener el ptimo, o ajustar una regresin para cada , y calcular el correspondiente valor de o (13.24). Frecuentemente se suele tomar el intervalo 2 2 (que incluye como casos particulares la transformacin ra cuadrada ( = 1 ), cuadrado o z 2 ( = 2), logaritmo ( = 0), ra cuadrada negativa, etc.), y dentro de l unas z e cuantas decenas de valores de . Es frecuente que log ver(; Y ) como funcin de sea una funcin relao o tivamente plana. Ello suscita el problema de decidir si el valor de que la maximiza es signicativamente distinto de 1 (lo que supondr que no es prea ciso hacer ninguna transformacin). Podemos recurrir a un contraste razn o o denota el de verosimilitudes (vase B.3). Bajo la hiptesis H0 : = 0 , si e o estimador mximo veros a mil de y L() el valor que toma la verosimilitud, para muestras grandes se tiene que L() 2 ; 2 ln 1 L(0 )

(13.25)
por tanto, a la vista de (13.23), rechazaremos H0 al nivel de signicacin o si 2

N N N log yi log (0 ) > 2 . log () + ( 0 ) 2 2 1; 2 2 i=1
(13.26)
Utilizando la misma idea podemos construir intervalos de conanza para .
216
Cap tulo 14
Regresin con respuesta o cualitativa
14.1.
El modelo logit.
Con frecuencia se presentan situaciones en que la variable respuesta a explicar toma slo uno de dos estados, a los que convencionalmente asignamos o valor 0 1. Por ejemplo, variables de renta, habitat, educacin y similares o o pueden inuenciar la decisin de compra de un cierto art o culo. Podr amos as plantearnos el estimar, Y = X + (14.1) en que Y es una variable tomando dos valores: 1 (= Compra) 0 (= No o compra). Nada parecer en principio, impedir el empleo del modelo lineal estudiaa, do en una situacin como sta. Pero hay varias circunstancias que debemos o e considerar. 1. No tiene ya sentido suponer una distribucin normal en las perturbao ciones. En efecto, para cualesquiera valores que tomen los regresores, de Yi = 0 + 1 Xi1 + . . . + p1Xi,p1 + i se deduce que slo puede tomar uno de dos valores: la diferencia o que separa a la Yi (0 1) de la combinacin lineal de regresores que o o constituye su parte explicada. 217
218
CAP ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
2. Tratndose de una respuesta que puede tomar valor 0 1, interpretaa o i como su valor medio dados los valores de los regresores. Al r amos Y poder tomar Yi slo los valores 0 y 1, su valor medio es Pi , la probabilio dad del valor 1. Por tanto, valores de Yi entre 0 y 1 son interpretables. Pero nada impide que el modelo proporciones predicciones mayores que 1 (o menores que 0), circunstancia molesta. 3. Tampoco podemos ya suponer que hay homoscedasticidad. En efecto, si tomamos valor medio en la expresin anterior tenemos: o E[Yi ] = 0 + 1 Xi1 + . . . + p1 Xi,p1 = Pi En consecuencia, Yi toma valor 1 con probabilidad Pi y valor 0 con probabilidad Qi = 1 Pi y, i = Pi
1 P
i
con probabilidad Pi con probabilidad Qi = 1 Pi .
Entonces,
E[2 ] = (1 Pi )2 Pi + (Pi )2 (1 Pi ) = Q2 Pi + Qi Pi2 = Pi Qi . (14.2) i i La varianza de Y var por tanto de observacin a observacin de acuera o o do con los valores que toman los regresores. Adicionalmente, (14.2) muestra que la distribucin de i ser binaria de parmetro Pi . o a a El tercer inconveniente podr resolverse haciendo uso de regresin pona o derada, para corregir el efecto de la heterocedasticidad. No obstante, suele emplearse una aproximacin alternativa que da cuenta tambin de los dos o e primeros. El modelo lineal ordinario hace depender linealmente de las variables X la media de la variable respuesta, E(Yi ). Podemos en lugar de ello hacer depender de los regresores una funcin de la media E(Yi ); por ejemplo, o la conocida como logit, (E(Yi ))
def
ln
Pi . 1 Pi
(14.3)
Ntese que como E(Yi ) = Pi , (14.3) es efectivamente una funcin de la media. o o Obsrvese tambin que (E(Yi )) toma valores de modo continuo entre y e e +. Podemos pensar en hacer que (E(Yi )), y no E(Yi ), dependa linealmente de los regresores: (E(Yi )) = ln Pi 1 Pi = x i , (14.4)
14.1. EL MODELO LOGIT.
219
y a continuacin especicar la distribucin de Yi en torno a su media E(Yi ). o o Ya hemos visto que una distribucin binaria es una eleccin natural si Yi es o o una variable 0/1. Observacin 14.1 Transformar la media E(Yi ) es un enfoque o
alternativo al de transformar Yi , y en muchos aspectos un renamiento. Una transformacin de la respuesta como, por ejemplo, las de la o familia de Box-Cox, tiene que cumplir varios objetivos, generalmente contradictorios. Por un lado, deseamos que la variable respuesta se acerque a la normalidad. Por otro, que la varianza sea homognea, y e la dependencia de los regresores lineal. El enfoque de hacer depender linealmente de los regresores una funcin de la media de la variable respuesta es mucho ms exible. o a Podemos escoger la funcin de la media que sea ms aproximadao a mente funcin lineal de los regresores, y especicar separadamente la o distribucin de la variable respuesta en torno a su media. El enfoque o goza as de una enorme exibilidad.
Despejando Pi de la expresin anterior, o Pi = exp(x i ) 1 + exp(x i ) . (14.5)
14.1.1.
Interpretacin de los coecientes o
Los parmetros de un modelo logit tienen interpretacin inmediata: i es a o el efecto de un cambio unitario en Xi sobre el logit o logaritmo de la razn de o posibilidades (log odds). Pero pueden en ocasiones ser interpretados de manera ms directamente relacionada con magnitudes de inters. Consideremos a e primero el caso ms simple, en que tenemos un unico regresor dicotmico, a o X, codicado con valores 0/1. El resultado de clasicar una muestra de N sujetos con arreglo a los valores observados de Y (respuesta) y X (regresor) puede imaginarse en una tabla de doble entrada como la siguiente: X=1 n11 n21 X=0 n12 n22
Y=1 Y=0
Si el modelo logit es de aplicacin, las probabilidades de cada celda en la o tabla anterior vendr dadas por las expresiones que aparecen en la tabla an siguiente:
220
CAP ITULO 14. REGRESION CON RESPUESTA CUALITATIVA X=1 Y=1 (1) =
e0 +1 1+e0 +1
X=0 (0) =
e0 1+e0
Y = 0 1 (1) =
1 1+e0 +1
1 (0) =
1 1+e0
Denamos la razn de posibilidades relativa (relative odds ratio) as o : = Entonces, ln() = ln (1) / (1 (1)) (0)/(1 (0)) 1 e0 +1 = ln 0 +1 1+e 1 + e0 +1 e0 +1 = ln e0 = 1 . (1)/(1 (1)) . (0)/(1 (0)) (14.6)
ln
e0 1 + e0
1 1 + e0
(14.7)
Por tanto, 1 estimar ln(), y exp (1 ) estimar . a a Observacin 14.2 La codicacin de X, al igual que la de Y , o o
es arbitraria. La interpretacin correcta de 1 es incremento de ln() o cuando X se incrementa en una unidad. Por tanto, como se ha indicado, si la presencia de una caracter stica se codica mediante X = 1 = 1 y = exp(1 ). Pero si la y su ausencia mediante X = 0, ln() presencia de la misma caracter stica se codica mediante X = a y su ausencia mediante X = b, clculos similares a los realizados muestran a que ln() = 1 (a b). A la hora de interpretar los coecientes de un modelo logit es necesario por tanto tener en cuenta la codicacin o utilizada.
Interpretamos como indicando aproximadamente cunto ms probable a a es que Y tome el valor 1 cuando X = 1 que cuando X = 0. Aproximadamente, porque (1)/(1 (1)) (1) (0) (0)/(1 (0))
14.1. EL MODELO LOGIT. si y slo si o 1 (0) 1. 1 (1)
221
Ello acontece, por ejemplo, cuando Y = 1 se presenta muy raramente en la poblacin como cuando estudiamos la incidencia de una enfermedad muy o rara, tanto para sujetos tratados (X = 1) como no tratados (X = 0). En este ultimo caso, exp(1 ) se interpretar como una estimacin de la relacin a o o 1 > 0 signicar, por tanto, que X = 1 incrementa el riesgo de riesgos. Un a de que Y = 1, y viceversa.
14.1.2.
La importancia del dise o muestral n
Slo podemos estimar, y an aproximadamente, la razn de riesgos o u o (1)/(0)? Qu impedir estimar el riesgo Pi correspondiente a unos detere a minados valores de los regresores, x i , haciendo uso de el anlogo muestral de a (14.5)? Es importante observar (vase Kleinbaum (1994) para una discusin e o completa de esto) que en ocasiones ello no ser posible. a Se hace preciso distinguir dos situaciones que pueden dar lugar a los mismos datos pero reejan modos de obtenerlos radicalmente diferentes. En el primer caso tenemos un dise o de exposicin, t n o pico en trabajos epidemiolgicos, en que una muestra jada de antemano sin conocer el valor de la o variable respuesta Y y representativa del total de la poblacin en riesgo se o sigue a lo largo de un periodo de tiempo al cabo del cual se conoce el valor de Y . En este caso, podr amos estimar el riesgo Pi como se ha dicho. Completamente diferente es el diseo muestral de casos-controles. En este n caso seleccionamos la muestra a la vista de los valores de Yi . T picamente, si examinamos un evento que se presenta raramente, como una enfermedad poco frecuente, tomaremos todos los individuos enfermos de que dispongamos (casos), completando la muestra con un nmero arbitrario de sanos (controu les). Los coecientes 1 , . . . , p son interpretables, pero 0 no lo es. Ninguna frmula que lo requiera como (14.5) puede utilizarse. o La razn es fcil de entender: 0 depende de la abundancia relativa de o a casos y controles, y sta es como hemos dicho arbitraria. La situacin se e o asemeja a la que se presenta cuando construimos una tabla de contingencia 2 2 como: Y=1 Y=0 Total X=1 n11 n21 n,1 X=0 n12 n22 n,2 Total n1. n2. n..
222
Si hemos escogido los sujetos completamente al azar, es razonable tomar el cociente n1. /n.. como estimador de la proporcin de casos con Y = 1 en la o poblacin (y cocientes como n11 /n,1 o n12 /n,2 estimar las proporciones en o an las subpoblaciones caracterizadas por X = 1 y X = 0 respectivamente). Si, por el contrario, hemos jado los valores n1. y n2. , es claro que dicho cociente no estima nada, sino que es resultado de una decisin arbitraria. o
14.1.3.
Estimacin o
Consideremos una muestra de tamao N, formada por observaciones n (yi, x i ). Para cada observacin, yi es 0 1. El modelo logit, sin embargo, o o le atribuye una probabilidad Pi (si se trata de un 1) 1 Pi (si se trata de o un 0). Por consiguiente, la verosimilitud de la muestra es L(, y , X) = =
i=1 N N i=1 N
(Pi )yi (1 Pi )1yi 1 1 + exp(x i ) 1 1 + i

1yi 1yi
(14.8)
yi
=
i=1
i 1 + i
exp(x i ) 1 + exp(x i ) ,
yi
(14.9) (14.10)
con i = exp(x i ). Tomando logaritmos en (14.10), obtenemos

N
ln
i=1
N 1 + yi ln(i ). 1 + i i=1
(14.11)
Si derivamos (14.11) respecto de e igualamos el vector de derivadas a cero, obtenemos un sistema no lineal; no obstante, puede resolverse numricamente e para obtener el vector de estimadores . Alternativamente, podr procederse a a la maximizacin directa de (14.9) mediante un algoritmo conveniente. o Observacin 14.3 La verosimilitud en (14.9) es la ordinaria o o incondicional. En determinadas circunstancias notablemente en estudios con casos y controles emparejados respecto de variables de estraticacin cuyos coecientes carecen de inters podr o e amos desear realizar estimacin mximo veros o a mil condicional. Sobre el fundamento de esto puede verse Cox and Hinkley (1978), pg. 298 y siguiena tes, Kleinbaum (1994) o Hosmer and Lemeshow (1989), Cap. 7. En R puede estimarse un modelo logit mediante mxima verosimilitud a condicional utilizando la funcin clogit (en el paquete survival). o
14.1. EL MODELO LOGIT.
223
14.1.4.
Contrastes y seleccin de modelos o
Necesitamos criterios para decidir sobre la inclusin o no de parmetros, o a y para comparar modelos. La teor para ello deriva del contraste razn a o generalizada de verosimilitudes (ver B.3). Consideremos un modelo saturado, proporcionando el mejor ajuste posible. Llamaremos a ste modelo modelo base o modelo de referencia: se e tratar en general de un modelo claramente sobreparametrizado, pero que a proporciona un trmino de comparacin util. Requerir, en principio, un pae o a rmetro por cada combinacin de valores de los regresores, y proporcionar a o a valores ajustados P = (P1 , . . . , Pk ). De acuerdo con la teor en la Seccin B.3, bajo la hiptesis nula de que a o o el modelo correcto es (14.4) L() kp , 2 ln L(P )

(14.12)
en que p es el nmero de parmetros estimados en . Al cociente (14.12) se u a le denomina desviacin respecto del modelo de referencia parametrizado por o . P El adoptar un modelo menos parametrizado que el de referencia, implica una disminucin de la verosimilitud y una desviacin (14.12) positiva cuya o o distribucin, bajo la hiptesis nula, sigue la distribucin 2 indicada. Si o o o kp la desviacin fuera excesiva (es decir, si sobrepasa 2 o para el nivel de kp; signicacin que hayamos escogido), rechazar o amos la hiptesis nula. o Anlogo criterio podemos seguir para hacer contrastes sobre un unico a parmetro o sobre grupos de parmetros. Por ejemplo, para contrastar si a a el parmetro j es signicativamente diferente de cero en un cierto modelo a parametrizado por , calcular amos L(1 , 2 , . . . , j1 , j+1, . . . , k ) 2 ln , L(1 , 2 , . . . , j1 , j , j+1 , . . . , k )

(14.13)
que debe ser comparado con una 2 ; valores grandes de (14.13) son evidencia 1 contra la hiptesis h : j = 0. o Para contrastar la hiptesis de nulidad de todos los parmetros, salvo o a quiz 0 afectando a la columna de unos, comparar a amos L(0 ) 2 ln L(0 , 1 , 2 , . . . , k )

(14.14)
224
a una 2 ; la expresin (14.14) es similar a la suma de cuadrados SSR en o k1 una regresin ordinaria. El anlogo a SST ser o a a L(0 ) . 2 ln L(P )

(14.15)
Esta analog puede extenderse para obtener un estad a stico similar a la Cp de Mallows as : k y una R2 as : R2 = 2 ln
L(0 ) L(0 ,1 ,2 ,...,k ) L(0 ) L(P )
L(0 ) 2(k 1), = 2 ln L(0 , 1 , 2 , . . . , k )
(14.16)
(14.17)
2 ln
Obsrvese que en (14.16) el primer sumando de la derecha sigue asintticae o 2 mente una distribucin k1 con grados de libertad bajo el supuesto de que el o modelo ms parametrizado no aade realmente nada. Los grados de libertad a n y por tanto el valor esperado de dicho sumando crecen con el nmero u de parmetros ajustados. El segundo trmino que se sustrae a continuacin a e o es, precisamente, el valor medio de una 2 . Mientras que el primero crece k1 montonamente al introducir nuevos parmetros, el segundo penaliza este o a crecimiento. Observacin 14.4 Escoger o amos de acuerdo con este criterio el modelo maximizando k o, alternativamente, minimizando
AICk = 2 ln L(0 , 1 , 2 , . . . , k ) + 2k. (14.18)
La expresin anterior se conoce como criterio AIC (=An Information o Criterion o Akaike Information Criterion, por su proponente). Puede ser obtenido de diversos modos, incluido un argumento haciendo uso de Teor de la Informacin: vase Akaike (1972). a o e
14.1. EL MODELO LOGIT. Complementos y ejercicios
225
14.1 Mustrese que la desviacin denida a continuacin de (14.12) e o o coincide con SSE cuando consideramos un modelo lineal ordinario con normalidad en las perturbaciones. 14.2 Comprubese derivando (14.11) que los estimadores me a
ximo veros miles de los parmetros son soluciones del sistema de a ecuaciones: N i = 0, x i yi 1 + i i=1 en que i = x i .
226
Apndice A e
Algunos resultados en Algebra Lineal.
A.1.
Resultados varios sobre Algebra Matricial.
Teorema A.1 El rango y la traza de una matriz idempotente coinciden. Denicin A.1 En un espacio vectorial V llamamos producto interno a o una aplicacin de H H R (si es real-valorado) o en C (si es como pleto valorado), tal que a cada par de vectores u , v corresponde vericando: = < v , u > 0 u H = 0 = u = 0 = + (A.1) (A.2) (A.3) (A.4)
Denicin A.2 Llamamos producto interno eucl o deo de dos n-eplas u , v n en R al denido as = u v . Es fcil comprobar que verica las : a condiciones de la Denicin A.1. La norma eucl o dea ||u || del vector u se 2 2 dene como ||u || = + = u1 + . . . + un 227
228 APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. Denicin A.3 Dados dos vectores u , v en un espacio vectorial, denimos o el coseno del ngulo que forman como a cos() = < u,v > . ||u ||||v || (A.5)
Teorema A.2 (Sherman-Morrison-Woodbury) Sea D una matriz simtrica e p p y a ,c vectores p 1. Entonces, (D + a c )1 = D 1 D 1 a (1 + c D 1 a )1 c D 1 Demostracion: Multiplicando ambos lados de (A.6) por (D + a c ) se llega a la igualdad I = I. En particular, si a = c = z, la relacin anterior produce: o (D + zz )1 = D 1 D 1 z(1 + z D 1 z)1 z D 1 Teorema A.3 Si A y D son simtricas y todas las inversas existen: e A B B D siendo E = D B A1 B F = A1 B Demostracion: Basta efectuar la multiplicacin matricial correspondiente. o Un caso particular de inters se presenta cuando la matriz particionada e cuya inversa deseamos es del tipo: (X X) X Z Z X Z Z La aplicacin de (A.8) proporciona entonces para el bloque superior izquierdo: o A1 + F E 1 F
1
(A.6)
(A.7)
A1 + F E 1 F F E 1 E 1 F E 1
(A.8)
(A.9) (A.10)
= (X X)1 + + (X X)1 X Z[Z Z Z X(X X)1 X Z]1 Z X(X X)1 (A.11)
y similarmente para los dems bloques. Vase Seber (1977), pg. 390 y Myers a e a (1990), pg. 459. a
A.2. CALCULO DIFERENCIAL CON NOTACION MATRICIAL
229
A.2.
Clculo diferencial con notacin matria o cial
Hay aqu slo una breve recopilacin de resultados utiles. Ms detalles y o o a demostraciones en Abadir and Magnus (2005), Searle (1982) y Magnus and Neudecker (1988). Haremos uso de las siguientes deniciones y notacin. o Denicin A.4 Sea x un vector m 1 e y una funcin escalar de x : y = o o f (x1 , . . . , xm ) = f (x ). Entonces:
def
y x
Si y = x Ax siendo A una matriz cuadrada cualquiera, es inmediato comprobar que: y x = (A + A )x .
y x1 y x2 . . . y xm
En el caso, frecuente, de que A sea simtrica, tenemos que: e y x = 2A x (A.12)
Denicin A.5 Sea y una funcin vectorial (n 1)valorada de x , vector o o m 1. Entonces: y x

def
y1 x1 . . .
y2 x1 . . .
...
y1 xm
y2 yn xm . . . xm
yn x1 . . .

Hay algunos casos particulares de inters. Si y = a x = a1 x1 + . . . + am xm , e siendo a un vector de constantes, a1 . y . = a; = . x am

230 APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. si y = Ax , siendo A una matriz (n m) de constantes, y x = A .
Se reproducen a continuacin algunos otros resultados utiles: o loge |A| 1 = [A ] A tr(BA1 C) = (A1 CBA1 ) A (A.13) (A.14)
A.3.
Lectura recomendada
Hay muchos manuales de lgebra lineal en que se pueden encontrar los a resultados anteriores. Entre los particularmente orientados a la Estad stica, pueden citarse Gentle (2007), Seber (2007), Abadir and Magnus (2005), o Searle (1982). En relacin con las cuestiones numricas espec o e camente relacionadas con la estimacin m o nimo-cuadrtica es todav de util consulta a a Lawson and Hanson (1974).
Apndice B e
Algunos prerrequisitos estad sticos.

Distribuciones 2 y F descentradas
indep
B.1.
Sean Xi N(i , 2 ), (i = 1 . . . , n). Sea 2 = (2 +. . .+2 )/ 2 . Entonces, 1 n la variable aleatoria

2 2 X1 + . . . + Xn 2
Z=
(B.1)
se dice que sigue una distribucin 2 (), o distribucin 2 descentrada con o o n parmetro de no centralidad y n grados de libertad. Algunos textos denen a 1 a o 2 o 2 2 como parmetro de no centralidad; la notacin que empleamos es congruente con las Tablas en ?? . Claramente, si = 0 se tiene la 2 habitual o centrada. Si Z 2 () y V 2 son ambas independientes, la variable aleatoria m n W = nZ mV (B.2)
sigue una distribucin Fm,n () o F de Snedecor descentrada, con parmetro o a 2 de no centralidad . Si V siguiera una distribucin n (), tendr o amos que 231
232
APENDICE B. ALGUNOS PRERREQUISITOS ESTAD ISTICOS.
W ser una F de Snedecor doblemente descentrada, habitualmente denotaa da como Fm,n (, ). Siempre nos referiremos al primer tipo, en que solo el numerador es descentrado. La F de Snedecor descentrada es una distribucin denida en el semieje o real positivo, cuya forma es similar a la de su homloga centrada. Su moda o est tanto mas desplazada a la derecha cuanto mayor sea el parmetro de a a no centralidad. El examen del estad stico de contraste Qh introducido en la Seccin 12 hace evidente que cuando la hiptesis contrastada no es cierta, la o o distribucin de Qh es descentrada. Ello permite, como ya se indic, calcular o o con facilidad la potencia de cualquier contraste, si se dispone de tablas de la Fm,n (). El apndice A.4 proporciona tablas que permiten calcular la poe tencia de los contrastes en anlisis de varianza directamente, prejada una a alternativa.
B.2.
Estimacin mximo veros o a mil
Se realiza maximizando la funcin de verosimilitud L( , y ) o, equivaleno temente, su logaritmo, ( , y ). Sea el vector que maximiza ( , y ). En condiciones muy generales, se tiene que para muestras grandes (B.3) asint N( , )
I()
(B.4)
En la expresin anterior, I() es la llamada matriz de informacin cuyo o o elemento genrico de lugar ij se dene as e : I()
ij
2 ( , y ) . i j
(B.5)
Una consecuencia de (B.3)(B.4) es que si es de dimensin p p, o ( ) ( )1 ( ) ( ) I()( ) 2 ; p esto permite contrastar hiptesis como H0 : = 0 utilizando como estad o stico ( 0 ) I( 0 )( 0 ) (B.6) o alternativamente
( 0 ) I()( 0 ).
(B.7)
Asintticamente ambos contrastes son equivalentes, y ambos se conocen como o contrastes de Wald ; pueden consultarse ms detalles en Lehmann (1983), a Cap. 6 o Garthwaite et al. (1995), Cap. 3 y 4.
B.3. CONTRASTE RAZON GENERALIZADA DE VEROSIMILITUDES233
B.3.
Contraste razn generalizada de verosio militudes
Supongamos una hiptesis nula H0 que prescribe para el vector de paro a metros un subespacio h. Supongamos h es un subespacio de M, y dim(h) = q < p = dim(H). Supongamos, nalmente, que L( , Y ) es la funcin de o verosimilitud y h = arg mx L( , Y ) a
h
(B.8) (B.9)
M = arg mx L( , Y ). a
M
Entonces, en condiciones muy generales, que no requieren que Y siga una distribucin particular, se verica que bajo H0 , o L(h , Y ) 2 . 2 loge (pq) L(M , Y )

(B.10)
Por lo tanto, un contraste de la hiptesis H0 puede obtenerse comparando el o estad stico en el lado izquierdo de (B.10) con el cuantil 2 (pq); ; valores del estad stico mayores que dicho cualtil conducirn al rechazo de la hiptesis a o nula.
234
APENDICE B. ALGUNOS PRERREQUISITOS ESTAD ISTICOS.
Apndice C e
Regresin en S-Plus y R. o
C.1.
El sistema estad stico y grco S-Plus a
El lenguaje y sistema estad stico S fue desarrollado en ATT a principios de los ochenta. Es una s ntesis afortunada de simplicidad, sintaxis consistente, exibilidad, e integracin con el sistema operativo UNIX, sobre el que se o desarroll y para el que fue principalmente desarrollado. o Incorpora conceptos y ventajas de muchos lenguajes. El manejo de vectores y matrices, y la facilidad para denirlos, empalmarlos, y operar con ellos recuerda al lenguaje APL. El uso de listas es reminiscente de LISP. La sintaxis, el convenio de paso de argumentos por valor, y la forma de denir funciones son similares a los que existen en C. Sobre todo ello, S aade un n conjunto bastante rico de funciones primitivas que hace fcil programar casi a cualquier procedimiento. Las facilidades grcas son tambin excelentes. a e La referencia fundamental para utilizar S es Becker et al. (1988). Hay una versin comercial de S (S-Plus, de Insightful, Inc.) que es un super-conjunto o del S descrito en Becker et al. (1988); para ella existen manuales espec cos. Las funciones ms modernas entre ellas, algunas de inters para anlisis de a e a regresin estn descritas en Chambers and Hastie (1992). o a
C.2.
El sistema estad stico y grco R a
R comenz siendo un paquete estad o stico no muy diferente de S, cuya funcionalidad pretend replicar manteniendo una losof de cdigo fuena a o 235
236
APENDICE C. REGRESION EN S-PLUS Y R.
te disponible. Puede verse una descripcin en Ihaka and Gentleman (1996). o Adicionalmente puede consultarse Venables et al. (1997) (traduccin casteo llana Venables et al. (2000)), o el manual Venables and Ripley (1999a) y sus complementos Venables and Ripley (1999b). En la actualidad contina manteniendo una buena compatibilidad aunque u con diferencias sustanciales en su arquitectura (que por lo general slo precisa o conocer el usuario avanzado). No replica toda la funcionalidad de S-Plus en algunos aspectos, pero la amplia en otros. Esta siendo muy activamente desarrollado por la comunidad universitaria e investigadora internacional. Su fcil extensibilidad y disponibilidad gratuita hace que sea el paquete en a que primero se implementan mtodos que tardan en encontrar hueco en los e paquetes comerciales. En http://cran.r-project.org/ o sus espejos en los cinco continentes pueden encontrarse las versiones ms recientes para multitud de sistemas a operativos, las fuentes y los aadidos que la comunidad de usuarios ha ido n contribuyendo. Las secciones siguientes describen algunas funciones espec cas para ana lisis de regresin. Dado que pueden producirse modicaciones de una versin o o a otra, la informacin autorizada y denitiva debe buscarse en los manuales. o Las mismas funciones estn disponibles en R, con funcionalidad equivalente a pero posibles ligeras diferencias en los argumentos y resultados. De nuevo la consulta de los manuales o ayuda on line es obligada para contrastar lo que sigue. Finalmente, en la Seccin C.3 se presenta una tabla recogiendo la correso pondencia entre algunas funciones similares de S-Plus y R.
C.2. EL SISTEMA ESTAD ISTICO Y GRAFICO R
237
C.2.1.
La funcin lsfit. o
Es el principal bloque constructivo de cualquier procedimiento de regresin. Ajusta una regresin (opcionalmente ponderada) y devuelve una lista o o con los coecientes estimados, los residuos, y otra variada informacin de o inters. La sintaxis es la siguiente: e lsfit(x, y, wt=<<ver texto>>, intercept=T, tolerance=1.e-07, yname=NULL)
Argumentos. Los argumentos obligatorios son los siguientes: x Vector o matriz de regresores. No es preciso inclu una columna de unos: r se incluye automticamente a menos que especiquemos intercept=F. Ha de a tener tantas las como el argumento y. Puede tener valores perdidos. x puede ser un vector cuando estamos regresando solo sobre una variable. Variable respuesta. Es un vector, o una matriz. Si se trata de una matriz, se regresa cada una de sus columnas sobre los regresores en x. De esta manera, una sola invocacin de lsfit puede realizar un gran nmero de regresiones, o u cuando los regresores son comunes a todas ellas. Tambien se permiten valores perdidos.
Los restantes argumentos son optativos. Si no se especican, se supone que sus valores son los que aparecen en el ejemplo de sintaxis ms arriba. Sus a signicados son los siguientes: wt Vector de ponderaciones, si se quiere realizar regresin ponderada. o Ha de tener la misma longitud que y. Salvo que se especique, la regresin pondera igualmente todas las observaciones. o Si es T, se incluye una columna de unos. Si no deseamos columna de unos, es preciso especicar intercept=F. Valor numrico para especicar cuando consideramos una matriz e singular. Nombre de la variable y en la regresin. o
intercept
tolerance
yname
238
Resultados. La funcin lsfit devuelve una lista con los siguientes como ponentes: Vector de estimadores, en forma de matriz con una columna para cada regresin, si se han hecho varias a la vez. o Vector (o matriz, si y era una matriz) conteniendo los residuos ordinarios . Si especicamos ponderaciones, nos son devueltas inalteradas. Esto es util si guardamos la lista de resultados, pues permite con poste rioridad saber a qu tipo de regresin corresponden. e o Valor lgico, T F. o o Objeto representando la factorizacin QR de la matriz x de regreo sores. Vase la funcin qr en Becker et al. (1988). Tiene utilidad e o para computar algunos resultados.
coef
residuals wt
intercept qr
C.2.2.
La funcin leaps. o
La funcin leaps realiza all-subsets regresin. No debe invocarse con un o o nmero excesivo de regresores, al crecer el esfuerzo de clculo exponencialu a mente con ste. e La sintaxis es:
leaps(x, y, wt, int=TRUE, method=
Cp, nbest=10, names, df=nrow(x))
Argumentos. Los argumentos x, y, wt tienen el mismo signicado que en la funcin lsfit. El argumento int se utiliza para indicar si se desea o inclu columna de unos (por omisin, s Los dems argumentos tienen los r o ). a
C.2. EL SISTEMA ESTAD ISTICO Y GRAFICO R siguientes signicados: method
239
Argumento alfanumrico (entre dobles comillas, por tanto) especie cando el criterio que se desea emplear en la seleccin de las mejores o regresiones. Puede ser Cp (Cp de Mallows, el valor por omisin), o 2 2 r2 (el R ), y adjr2 (valor R ). Nmero de regresiones que deseamos para cada tamao de modelo. u n Vector de nombres de los regresores. Grados de libertad de y (puede no coincidir con el nmero de las u si ha sido previamente objeto de alguna manipulacin. Un caso freo cuente en Econom es la desestacionalizacin, que consume grados a o de libertad.
nbest names df
Resultados. Retorna una lista con cuatro elementos: Cp size label which Criterio de ajuste especicado como argumento. Nmero de regresores (incluyendo, en su caso, la columna de unos. u Vector de nombres de los regresores. Matriz lgica. Tiene tantas las como subconjuntos de regresores o devueltos, y la la i-sima tiene valores T F segn el regresor e o u correspondiente haya sido o no seleccionado en el i-simo subcone junto.
C.2.3.
La funcin hat. o
Se invoca as : hat(x, int=TRUE) en que x es argumento obligatorio y es la matriz de regresores. El argumento int toma el valor T por omisin y seala si se desea inclu en la matrix x o n r columna de unos. La funcin devuelve un vector con los elementos diagonales de la matriz o de proyeccin X(X X)1 X (los pii del Cap o tulo 11).
240
C.2.4.
La funcin lm. o
La funcin lm ajusta un modelo lineal. La sintaxis es: o lm(formula,data,weights,subset,na.action,method="qr", model=F,x=F,y=F,...) Argumentos. El argumento weights se utiliza para hacer regresin pono derada, de modo similar a como se hace con lsfit. Los dems argumentos a tienen los siguientes signicados: method Mtodo de ajuste a emplear. Por omisin, se utiliza la factorizacin e o o QR. Una data frame conteniendo los datos tanto de regresores como de variable respuesta. Una expresin o del tipo Resp Regr01 + Regre02 + log(Regre03) en que a la izquierda est el regresando y a a la derecha los regresores o funciones de ellos. Criterio para seleccionar las las de la tabla de datos que deseamos emplear. Accin a tomar cuando algn dato en una la de la tabla de datos o u es NA. Por omisin es omitir dicha la. o Seleccionando estos argumentos como T se obtienen como resultado.
data
formula
subset
na.action model,x,y
Resultados. Retorna un objeto de tipo lm.object, una estructura de datos compuesta que contiene los resultados del ajuste. Hay funciones especializadas en extraer los resultados y presentarlos de modo ordenado. Por ejemplo, summary(), residuals(), coefficients() o effects(). Por otra parte, el carcter objeto-orientado de S-Plus (una descripcin de esto rea o ferida a XLisp-Stat en la Seccin ??) hace que funciones como print() o aplicadas a un objeto de tipo lm.object sepan como imprimirlo. Debe invocarse tras lm y ls y sobre los objetos que stas devuelven. e
C.2.5.
La funcin lm.influence. o
La sintaxis es: lm.influence(ajuste)
C.2. EL SISTEMA ESTAD ISTICO Y GRAFICO R
241
Argumentos. ajuste es un objeto de tipo lm.object devuelto por lm. Resultados. La funcin lm.influence devuelve (salvo una constante) los o coecientes de la curva de inuencia muestral (SIC).
C.2.6.
La funcin ls.diag. o
La sintaxis es: ls.diag(ls) Argumentos. La funcin ls.diag se invoca con un objeto de tipo ls (deo vuelto por lsfit) por argumento. Resultados. Produce como resultado una lista con los componentes siguientes: std.dev hat ==
SSE . N p
Los pii , elementos diagonales de la matriz de proyeccin P = o X(X X)1 X . Residuos internamente studentizados (los ri en la notacin del Cao p tulo 11). Residuos externamente studentizados (los ti en la notacin del Cao p tulo 11). Un vector conteniendo las distancias de Cook (Di en la notacin o del Cap tulo 11). Un vector conteniendo los DFITS mencionados en el Cap tulo 11). Matriz de correlacin de los parmetros estimados (es decir, la mao a triz de correlacin obtenida de la de covarianzas 2 (X X)1 ). o Desviaciones t picas estimadas de los parmetros estimados, i . a Matriz de momentos (X X)1 .
std.res
stud.res
cooks
dfits correlation
std.err cov.unscaled
242
C.3.
Correspondencia de funciones para regresin y ANOVA en S-Plus y R o
Cuadro C.1: Equivalencia de funciones para regresin y ANOVA en S-Plus o y R.
En S-Plus add1 drop1 leaps ls.diag lsfit lm lm.influence multicomp step stepwise -
En R add1 drop1 leaps ls.diag lsfit lm lm.influence regsubsets step stepAIC p.adjust pairwise.t.test lm.ridge
Paquete: base base leaps base base base base leaps base MASS base ctest MASS
Funcionalidad: Aadir un regresor n Eliminar un regresor Regresin sobre todos los subconjuntos o Diagnsticos o Ajuste recta regresin o Ajuste recta de regresin o Anlisis de inuencia a Inferencia simultnea a Regresin sobre todos los subconjuntos o Regresin escalonada o Regresin escalonada o Regresin escalonada o Ajuste p por simultaneidad Contrastes ms usuales a Regresin ridge o
Adems de las indicadas en la Tabla C.1, en R se dispone del paquete a multcomp con varias funciones espec cas para inferencia simultnea. a
Apndice D e
Procedimientos de clculo. a
D.1.
Introduccin o
(X X) = X Y
La resolucin de las ecuaciones normales, o
requiere, en su aproximacin ms directa, la obtencin de la inversa (ordio a o naria o generalizada) de (X X). Hay procedimientos mucho menos costosos desde el punto de vista del clculo que, adems, permiten en algunos casos a a intuiciones interesantes y demostraciones de gran simplicidad. En lo que sigue se presenta uno de los mtodos de clculo ms utilizados, e a a y la construccin en que se basa (la factorizacin QR). Se detalla tambin o o e la correspondencia entre la notacin empleada y los resultados de algunas o funciones de S que hacen uso de dicha factorizacin. o
D.2.
Transformaciones ortogonales.
m ||Dx c ||2 n
x
Sea el problema, (D.1)
Podemos ver el problema como el de encontrar la combinacin lineal de las o columnas de D que mejor aproxima c , en trminos de norma de la dise crepancia. Dicho problema queda inalterado cuando realizamos una misma 243
244
APENDICE D. PROCEDIMIENTOS DE CALCULO.
transformacin ortogonal de las columnas de D y del vector c . En efecto, o m ||Q(Dx c )||2 = m < Q(Dx c ), Q(Dx c ) > n n
x x
= m (Dx c ) Q Q(Dx c ) n
x
= m ||Dx c ||2 n
x
al ser Q ortogonal. Denicin D.1 Sea D una matriz de orden n m. Supongamos que puede o expresarse del siguiente modo: D = HRK en que: (i) H es n n y ortogonal. (ii) R es n m de la forma, R11 0 0 0 con R11 cuadrada de rango completo k m n(m, n). (iii) K es m m ortogonal. Se dice que HRK es una descomposicin ortogonal de D. o En general, hay ms de una descomposicin ortogonal, dependiendo de a o la estructura que quiera imponerse a R. Si requerimos que R sea diagonal, tenemos la descomposicin en valores singulares. Podemos tambin requerir o e que R sea triangular superior, o triangular inferior, obteniendo diferentes descomposiciones de D. La eleccin de una descomposicin ortogonal adecuada simplica enormeo o mente la solucin de (D.1). Los resultados fundamentales vienen recogidos o en el siguiente teorema. Teorema D.1 Sea D una matriz de orden n m y rango k, admitiendo la descomposicin ortogonal, o D = HRK . (D.2)
D.2. TRANSFORMACIONES ORTOGONALES. Sea el problema m ||Dx y ||2 n

x
245
(D.3)
y denamos, H y = g = g1 g2 1 2 k nk
K x = = Sea 1 la solucin (nica) del sistema, o u
k . mk
R11 1 = g 1 . Entonces, todas las posibles soluciones del problema (D.3) son de la forma x = K 1 , 2
con 2 arbitrario. Cualquiera de esas soluciones da lugar al vector de residuos r = y Dx = H 0 g2
y en consecuencia, ||r || = ||g 2 ||. Existe un resultado interesante que muestra cmo es posible encontrar una o transformacin ortogonal que rota (y quiz reeja) un vector v hasta abatirlo o a sobre el subespacio generado por otro, e1 . Se denomina transformacin de o Householder, y se obtiene de manera muy cmoda y simple como muestra el o teorema siguiente. Teorema D.2 Sea v cualquier vector m1 distinto de 0 . Existe una matriz ortogonal P m m tal que: Pv siendo

= ||v ||e1 1
(D.4)
e1
+1
0 . . .
(D.5)
si v1 0 si v1 < 0.
(D.6)
246
APENDICE D. PROCEDIMIENTOS DE CALCULO. Figura D.1: Visualizacin de la transformacin de Householder. o o v u = v + ||v ||e1
||v ||e1 e1 ||v ||e1
(u 2u||u ||2v )
Esta matriz tiene por expresin, o uu P = I 2 ||u ||2 con u = v + ||v ||e1 . Demostracion: Entonces (ver Figura D.1), u = v + ||v ||e1 z = v ||v ||e1
1 son ortogonales y v = 2 u + 1 z . Tenemos en consecuencia, 2
(D.7)
(D.8) (D.9)
Pv
= = = = =
uu 1 1 I 2 u+ z 2 ||u || 2 2 1 1 u u + z 2 2 1 1 u +v u 2 2 v u ||v ||e1
(D.10) (D.11) (D.12) (D.13) (D.14)
D.3. FACTORIZACION QR.
247
D.3.
Factorizacin QR. o
Teorema D.3 Sea una matriz X de orden (N p) y rango d m n(N, p). Existe siempre una matriz ortogonal Q de orden (N N) y una matriz R trapezoidal superior vericando: X = QR Esquemticamente, a X Q R (D.15)
d Demostracion:
N d
La prueba es constructiva, y reposa en la aplicacin reiterada de la transo formacin de Householder a las columna de la matriz X. Sea x1 la primera o de dichas columnas. Existe una transformacin de Householder, de matriz oro togonal P1 que abate dicha primera columna sobre el e1 de la base cannica o n de R . Es decir,
P1 X =
Llamemos X1 a la matriz as obtenida, y consideremos su segunda columna eliminado su primer elemento. Los restantes, pueden verse como un vector en RN 1 , que puede tambien abatirse sobre el primer vector e1 de la base
248
cannica de dicho subespacio multiplicando por una matriz de Householder o P2 . Entonces, 1 0 P1 0 P2
(D.16)
D.4. BIBLIOGRAF IA
249
reduce la matriz X de la forma que esquemticamente se muestra a cona tinuacin: o
1 0 P1 X = 0 P2
Por consiguiente, si llamamos P2 = 1 0 0 P2
el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Como tanto P1 como P2 son ortogonales, su producto tambin lo es. e Fcilmente se comprueba que el proceso puede continuarse hasta obtener a un producto de matrices ortogonales Q = Pd Pd1 . . . P1 que deja X con sus d primeras columnas escalonadas. Adems, como el rango de X era d, a necesariamente las ultimas N d las de R son de ceros. En denitiva, Q X = R y por tanto X = QR, lo que prueba el teorema.
D.4.
Bibliograf a
Hay abundante literatura sobre la factorizacin QR y procedimientos sio milares de aplicacin al problema (D.1). Casi cualquier texto de Clculo o a Numrico contiene una discusin de la factorizacin QR. Una referencia fune o o damental que contina vigente es Lawson and Hanson (1974). Una exposicin u o breve, clara, y con abundantes referencias a la literatura ms reciente puea de encontrarse en Goodhall (1993). Ansley (1985) muestra como, al margen y adems de su utilidad como procedimiento numrico, la factorizacin QR a e o arroja luz sobre, y simplica la demostracin de, bastantes resultados en o regresin lineal. o
250
Apndice E e
Enunciados y demostraciones formales

Se incluyen aqu teoremas, desarrollos y demostraciones omitidos en el curso de la exposicin, por su nivel de formalismo o por no ser esenciales. o
E.1.
Existencia y unicidad de proyecciones.
Denicin E.1 Sea {vn } una sucesin de vectores en H, espacio vectorial o o sobre el cuerpo de los nmeros reales R con las operaciones suma de vectores u y producto por nmeros reales, denidas ambas del modo usual. Supongau mos denido sobre H un producto interno < , > y correspondiente norma v 2 = < v, v >. Decimos que {vn } es una sucesin de Cauchy si para o cualquier > 0 hay un N() tal que m, n N(), vn vm < ; es decir, si prejado un arbitrariamente peque o, existe siempre un N() n tal que cualesquiera vectores vm , vn que aparezcan en la sucesin en lugar o posterior al N() distan entre s menos de . Denicin E.2 Sea H un espacio vectorial como en la Denicin E.1. Deo o cimos que tiene estructura de espacio de Hilbert si es completo, es decir, si contiene los l mites de todas las sucesiones de Cauchy de vectores en H, innito-dimensional y separable. Cualquier subespacio vectorial de un espacio de Hilbert, es a su vez espacio de Hilbert. 251
252 APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES Teorema E.1 Sea H un espacio de Hilbert, y M un subespacio del mismo. Para cualquier vector y H existe siempre un unico vector v = PM y , proyeccin de y sobre M. Se verica que: o y v
2
m y z n
zM
(E.1)
Demostracin. Veamos1 primero la existencia. Sea d = o m zM y z 2 . Entonces, necesariamente existir en M alg n vecn a u tor v 1 tal que: y v1 2 d + 1; de no haberlo, m y z 2 n tendr que ser mayor que d + 1, contra la hiptesis. Anlogamente, a o a para cualquier n mero natural n existir vn vericando: y vn 2 u a d+ 1/n. Mostraremos que la sucesin {vn } es de Cauchy. Mostraremos o tambin que su l e mite nico verica las condiciones denitorias de u proyeccin de y sobre M . Probaremos, en n, que ning n otro vector o u en M distinto del l mite anterior verica las mismas condiciones, as como la propiedad de m nima distancia en el enunciado. Sea:
2 2
D=
(y vn ) (y vm )
+ (y vn ) + (y vm )
(E.2)
Podemos escribir: D = + = (y vn )
2
2 (y vn )
(y vn )
+ (y vm )
2 2
+ 2 (y vm )
+ (y vm )
2 < (y vm ), (y vn ) >
2 2
+ 2 < (y vm ), (y vn ) >
(E.3)
Por otra parte, tenemos: D = = (vm vn )

2 2
(vm vn )
+ 4 y ( 1 ) (vn + vm ) 2
2y 2 ( 1 ) (vn + vm ) 2
2 2
(E.4)
Igualando (E.3) y (E.4) obtenemos: vm vn

1
1 4 y ( 2 ) (vn + vm )
2 y vn
+ 2 y vm
2
(E.5)
Demostracin tomada de Anderson (1971). Es ms general de lo que estrictamente o a necesitamos, pero merece la pena enunciar este Teorema as para poderlo emplear inalte rado en otros contextos (por ejemplo, en prediccin lineal de procesos estocsticos). Una o a demostracin ms simple y menos general puede encontrarse en Arnold (1981), pg. 34. o a a
E.1. EXISTENCIA Y UNICIDAD DE PROYECCIONES.

Como la norma al cuadrado del ultimo trmino de (E.5) es al menos e d, tenemos: vm vn
2
253
2 (y vn ) (y vn )
2 2
+ 2 (y vm )
4d
(E.6)
Sea > 0. Para m, n mayores que N (/4), tenemos: d + /4 (E.7) (E.8)
(y vm ) (vm vn )
2
d + /4.
Sustituyendo sto en (E.5) obtenemos: e 2(d + /4) + 2(d + /4) 4d = , (E.9)
luego la sucesin {vn } es de Cauchy. Tendr por tanto un l o a mite unico v en M (M es completo), y fcilmente se deduce que y v 2 = d. a Por otra parte, para cualquier z M y para cualquier real se tiene: y v z
2
= d+ d.
y v
2
+ 2 z
2
2 < y v, z >
2 < y v, z (E.10) >
(E.11) (E.12)
Por tanto: 2 z
2
2 < y v, z >
2
0,
(E.13)
2 < y v, z > . (E.14)
Como (E.14) se ha de cumplir para cualquier posible valor de , ha de suceder que < y v, z >= 0, y como z es arbitrario en M , se deduce que (y v) M . Como adems hemos visto que v M , tenemos a que v es proyeccin de y en M (Denicin 1.1). El desarrollo anterior o o muestra tambin que v es la mejor aproximacin de y por un vector e o de M (en trminos de la norma denida). e Veamos, en n, que ning n otro vector u M, u = v puede ser u proyeccin de y en M , ni vericar y u 2 = d. Supongamos que o hubiera un tal u. Entonces, (y u) = (y v) + (v u). Adems, a (y v) M , y (v u) M . Por tanto, y u
2
= = =
< y u, y u > y v
2
< (y v) + (v u), (y v) + (v u) > +

2
y v
vu
+ 2 < y v, v u >
2
ya que 2 < y v, v u > = 0, implicar u = v. a
vu
0, y
vu
= 0
254 APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES Observacin E.1 Qu trascendencia tiene en el enunciado del o e
Teorema E.1 que H (y, en consecuencia, su subespacio M ) tengan estructura de espacio de Hilbert? Examinando la demostracin del o Teorema E.1, vemos que se da por supuesta la existencia en M del l mite de la sucesin {vn } construida. Si M no fuera espacio de Hilbert, o tal l mite podr no existir en M . a
Observacin E.2 o Debemos preocuparnos de vericar que estamos ante un espacio de Hilbert? Cmo hacerlo? Cuando o los regresores generan un espacio de dimension nita, nada de ello es preciso. Cuando se hace anlisis de series temporales, la mejor predica cin lineal en el momento t del valor de la misma en t + 1 (prediccin o o una etapa hacia adelante) se hace proyectando yt+1 sobre el subespacio que generan yt , yt1 , yt2 , . . . (todo el pasado de la serie). Este pasado, al menos en principio, puede ser innito dimensional y aqu s tiene objeto suponer que genera un espacio de Hilbert para garantizar la existencia de la proyeccin. o Ntese, incidentalmente, que en este problema emplear o amos una norma que no ser la eucl a dea ordinaria, sino la inducida por el producto interno < yt , ys >= E[yt ys ] (supuesta estacionariedad y media cero). Pueden verse ms detalles en la obra ya citada Anderson (1971), a Seccin 7.6. Ejemplos del uso del espacio de Hilbert en series tempoo rales pueden verse en Davis (1977), Cap. 2, o Shumway and Stoer (2006), Apndice B.1. e
E.2.
Proyeccin sobre subespacios h = M o K(B).
El Lema 4.4 dec a: Sea B una matriz cualquiera, y K(B) el ncleo de la apliu cacin lineal que representa. Sea M un subespacio de H y h = o M K(B). Entonces, M h = R(PM B ). Demostracion: En primer lugar, M h puede expresarse de otro modo que har ms a a simple la demostracin. En efecto, o M h = M R(B ); vase el Ejercicio 4.2, pg. 58. e a (E.15)
E.2. PROYECCION SOBRE SUBESPACIOS H = M K(B).
255
Probaremos ahora que ambos subespacios considerados en el enunciado son el mismo, utilizando la expresin (E.15), y mostrando la mutua inclusin. o o i) M h R(PM B ). En efecto, x M h = = = = = x M R(B ) a : x = B a PM x = PM B a x = PM B a x R(PM B )
ii) M h R(PM B ). Es inmediato, ya que, x R(PM B ) = x R(PM ) = x M Sea ahora z h. Entonces, como h = M K(B), z M y z K(B). Por tanto: < x, z > = x z = a BPM z = a Bz = 0 Por tanto, x M y adems x h, luego x M h , lo que prueba ii) y a naliza la demostracin del lema. o
256 APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES
Bibliograf a
Abadir, K. and Magnus, J. (2005). Matrix Algebra. Cambridge Univ. Press. Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model Identication. In Proc. 5th. Hawai Int. Conf. on System Sciences, pp. 249250. Akaike, H. (1974). Information Theory and an Extension of the Maximum Likelihood Principle. In B. N. Petrov and F. Csaki, editors, Second International Symposium on Information Theory, pp. 267281, Budapest: Akademia Kiado. Akaike, H. (1991). Information Theory and an Extension of the Maximum Likelihood Principle. In Johnson and Kotz, editors, Breakthroughs in Statistics, volume 1, p. 610 y ss., Springer Verlag. Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York: Wiley. Ansley, C. F. (1985). Quick Proofs of Some Regression Theorems Via the QR Algorithm. As, 39, 5559. Arnold, S. F. (1981). The Theory of Linear Models and Multivariate Analysis. New York: Wiley. Atkinson, A. C. (1985). Plots, Transformations and Regression. Oxford Univ. Press. Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York: Wiley. Becker, R. A., Chambers, J. M., and Wilks, A. R. (1988). The New S Language. A Programming Environment for Data Analysis and Graphics. Pacic Grove, California: Wadsworth & Brooks/Cole. 257
258
BIBLIOGRAF IA
Belsley, D. A., Kuh, E., and Welsch., R. E. (1980). Regression Diagnostics: Identifying Inuential Data and Sources of Collinearity. New York: Wiley. Ben-Israel, A. and Greville, T. N. E. (1974). Generalized Inverses: Theory and Aplications. New York: Wiley. Bishop, C. M. (1996). Neural Networks for Pattern Recognition. Oxford: Clarendon Press. Box, G. E. P. and Tidwell, P. W. (1962). Transformations of the Independent Variables. Technometrics, 4, 531550. Brown, P. J. (1993). Measurement, Regression and Calibration. Clarendon Press/Oxford, Signatura: 519.235.5 BRO. Chambers, J. M. (1998). Programming with Data. Mathsoft. Chambers, J. M. and Hastie, T. J. (1992). Statistical Models in S. Pacic Grove, Ca.: Wadsworth & Brooks/Cole. Cook, R. D. and Weisberg, S. (1982). Residuals and Inuence in Regression. New York: Chapman and Hall. Cox, D. R. and Hinkley, D. V. (1974). Theoretical Statistics. London: Chapman and Hall, 1979th edition. Cox, D. R. and Hinkley, D. V. (1978). Problems and Solutions in Theoretical Statistics. London: Chapman & Hall. Dahlquist, G. and Bjrck, (1974). Numerical Methods. Englewood Clis, o A. N.J.: Prentice Hall. Dalgaard, P. (2002). Introductory Statistics with R. Statistics and Computing, Springer-Verlag, Signatura: 519.682 DAL. Davis, M. H. A. (1977). Linear Estimation and Stochastic Control. Chapman and Hall. de Leeuw, J. (2000). Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike. Disponible en http://www.stat.ucla.edu/~deleeuw/work/research.phtml. Draper, N. R. and Smith, H. (1998). Applied Regression Analysis. Wiley, third edition, Signatura: 519.233.5 DRA.
BIBLIOGRAF IA
259
Eubank, R. L. (1988). Spline Smoothing and Nonparametric Regression. New York: Marcel Dekker. Faraway, J. J. (2005). Linear Models with R. Chapman & Hall/CRC, Signatura: 519.233 FAR. Garthwaite, P. H., Jollie, I. T., and Jones, B. (1995). Statistical Inference. London: Prentice Hall. Gentle, J. (2007). Matrix Algebra: Theory, Computations, and Applications in Statistics. Springer. Goodhall, C. R. (1993). Computation Using the QR Decomposition. In C. R. Rao, editor, Handbook of Statistics, chapter 13, pp. 467508, Amsterdam: North-Holland. Grafe, J. H. (1985). Matemticas Universitarias. Madrid: MacGraw-Hill. a Gunst, R. F. and Mason, R. L. (1980). Regression Analysis and Ist Applications. A Data Oriented Approach. New York: Marcel Dekker, Inc. Haitovsky, Y. (1969). A Note on Maximization of R . As, 23, 2021. Harrell, F. E. (2001). Regression Modelling Strategies. Springer-Verlag, Signatura: 519.233.5 HAR. Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer-Verlag, Signatura: 519.237.8 HAS. Hawkins, D. M. (1980). Identication of Outliers. London: Chapman & Hall. Haykin, S. (1998). Neural Networks. A Comprehensive Foundation. Prentice Hall, second edition. Hocking, R. R. (1976). The Analysis and Selection of Variables in Linear Regression. Biometrics, 32, 149. Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Non-Orthogonal Problems. Technometrics, 12, 5567. Hoerl, A. E., Kennard, R. W., and Baldwin, K. F. (1975). Ridge Regression: Some Simulations. Cstat, 4, 105123. Hosmer, D. W. and Lemeshow, S. (1989). Applied Logistic Regression. Wiley.
2
260
BIBLIOGRAF IA
Ihaka, R. and Gentleman, R. (1996). R: a Language for Data Analysis and Graphics. J. of Comp. and Graphical Stats., 5, 299314. Jollie, I. T. (1986). Principal Components Analysis. New York: SpringerVerlag. Kennedy, W. J. (1980). Statistical Computing. New York: Marcel Dekker. Kleinbaum, D. G. (1994). Logistic Regression. A Self-Learning Test. Springer Verlag. Knuth, D. (1986). The TEX Book. Reading, Mass.: Addison Wesley. Knuth, D. K. (1968). Fundamental Algorithms. In The Art of Computer Programming, volume 1, Reading, Mass.: Addison-Wesley. Kuhnert, P. and Venables, W. (2005). An Introduction to R: Software for Statistical Modelling and Computing. CSIRO Mathematical and Information Sciences, Cleveland, Australia. Lange, K. (1998). Numerical Analysis for Statisticians. Springer, Signatura: 519.6 LAN. Lawless, J. F. and Wang, P. (1976). A Simulation Study of Ridge and Other Regression Estimators. Communications in Statistics, 5, 307323. Lawson, C. L. and Hanson, R. J. (1974). Solving Least Squares Problems. Englewood Clis, N.J.: Prentice-Hall. Legg, S. (1996). Minimum Information Estimation of Linear Regression Models. In D. L. Dowe, K. B. Korb, and J. J. Oliver, editors, ISIS: Information, Statistics and Induction in Science, pp. 103111, Singapore: World Scientic. Lehmann, E. L. (1983). Theory of Point Estimation. New York: Wiley. Lund, R. E. (1975). Tables for the Approximate Test for Outliers in Linear Regression. Technometrics, 17, 473476. Magnus, J. and Neudecker, H. (1988). Matrix Dierential Calculus with Applications in Statistics and Econometrics. Wiley. Maindonald, J. H. (2000). Data Analysis and Graphics Using R - An Introduction.
BIBLIOGRAF IA
261
Miller, A. (2002). Subset Selection In Regression, Second Editon. Chapman & Hall/CRC. Myers, R. H. (1990). Classical and Modern Regression with Applications. Boston: PWS-KENT Pub. Co. Pea, D. (2002). Regresin y Dise o de Experimentos. Alianza Editorial. n o n Rao, C. R. and Mitra, S. K. (1971). Generalized Inverse of Matrices and Its Applications. John Wiley & Sons, New York [etc.]. Ripley, B. D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, 519.237.8 RIP. Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. Singapore: World Scientic. Ryan, T. P. (1997). Modern Regression Methods. Wiley, Signatura: 519.233.4 RYA. Searle, S. R. (1971). Linear Models. New York: Wiley. Searle, S. R. (1982). Matrix Algebra Useful for Statistics. Wiley. Seber, G. (2007). A Matrix Handbook for Statisticians. Wiley. Seber, G. A. F. (1977). Linear Regression Analysis. New York: Wiley. Shapiro, S. S. and Francia, R. S. (1972). An Approximate Analysis of Variance Test for Normality. Jasa, 67, 215216. Shapiro, S. S. and Wilk, M. B. (1965). An Analysis of Variance Test for Normality (complete Samples). Biometrika, 52, 591611. Shumway, R. H. and Stoer, D. S. (2006). Time Series Analysis and Its Applications. With R Examples. Springer Verlag. Silvey, S. D. (1969). Multicollinearity and Imprecise Estimation. Jrssb, 31, 539552. Silvey, S. D. (1980). Optimal Design. London: Chapman & Hall. Stapleton, J. H. (1995). Linear Statistical Models. New York: Wiley. Theil, H. (1971). Principles of Econometrics. New York: Wiley.
262
BIBLIOGRAF IA
Thisted, R. A. (1988). Elements of Statistical Computing. New York: Chapman & Hall. Trocniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU. o Trocniz, A. F. (1987b). Probabilidades. Estad o stica. Muestreo. Madrid: Tebar-Flores. Tusell, F. (2003). Estad stica Matemtica. 154 p., notas de clase. a Ugarte, M., Militino, A., and Arnholt, A. (2008). Probability and Statistics with R. CRC Press. Venables, B., Smith, D., Gentleman, R., and Ihaka, R. (1997). Notes on R: A Programming Environment for Data Analysis and Graphics. Dept. of Statistics, University of Adelaide and University of Auckland, Available at http://cran.at.r-project.org/doc/R-intro.pdf. Venables, B., Smith, D., Gentleman, R., Ihaka, R., and Mchler, M. (2000). a Notas sobre R: Un Entorno de Programacin para Anlisis de Datos y o a Grcos. Traduccin espaola de A. Gonzlez y S. Gonzlez. a o n a a Venables, W. and Ripley, B. (1999a). Modern Applied Statistics with S-Plus. New York: Springer-Verlag, third edition. Venables, W. and Ripley, B. D. (1999b). R Complements to Modern Applied Statistics with S-Plus. En http://www.stats.ox.ac.uk/pub/MASS3. Wang, C. (1993). Sense and Nonsense of Statistical Inference. New York: Marcel Dekker. Webster, J. T., Gunst, R. F., and Mason, R. L. (1974). Latent Root Regression Analysis. Technometrics, 16, 513522.
Indice alfabtico e
Cp anlogo en regresin logit, 214 a o criterio, 178 p-value, 110 t-ratio, 83 (MCO), 4 variance ination factor, 134 dataframe, 92 leave-one-out, 182 log odds, 209 odds, 209 relative odds ratio, 210 splines, 14 stepwise regression, 185 glm R, 94 lm R, 94 model.matrix R, 94 all subsets regresin, 184 o outliers, 161 studentizacin, 161 o AIC, 214 Akaike criterio AIC, 214 aprendizaje muestra, 181 bondad de ajuste, 175 Bonferroni desigualdad de primer orden, 115 Box-Cox transformacin, 203 o Box-Tidwell
transformacin, 201 o caso de referencia, 51, 97 Cauchy sucesin de, 241 o Cobb-Douglas funcin de produccin, 53 o o coeciente de determinacin corregido, 176 o complejidad estocstica a como criterio en la seleccin de modeo los, 183 completo espacio, 241 componentes principales denicin, 144 o regresin, 136 o contraste razn de verosimilitudes, 80, 205, 223 o contrastes de Wald, 223 Cook distancia de, 167 correlacin m ltiple o u coeciente de, 30, 83 criterio AIC, para seleccin de modelos, 214 o m nimo cuadrtico ordinario (MCO), 4 a curva de inuencia emp rica, 166 D-optimalidad, 133 dataframe, 101 datos experimentales, 60 observados, 60 descomposicin o en valores singulares, 234
263
264
ortogonal de una matriz, 234 desigualdad de Bonferroni, 115 desviacin, 213, 215 o en modelos logit, 213 dise o n o ptimo, 126 experimental, 5 matriz de, 5 distancia de Cook, 167 distribucin o 2 descentrada, 221 F descentrada, 221 ECM, error cuadrtico medio, 135 a ecuaciones normales, 16 EIC, 166 endgena, variable, 3 o entrenamiento muestra, 181 error de prediccin o varianza, 85 estad stico t, 83 estimable forma lineal, 125, 136 funcin, 47 o estimacin o sesgada, 135 estimacin imprecisa, 136 o eucl dea norma, 217 frmulas o en R, 94 factor en R, 89 niveles, 90 factor de incremento de varianza, 134 factorizacin o QR, 24, 233 funcin estimable, 47 o funciones en R, 10 Gauss-Markov teorema, 19 teorema, extensin, 37 o grados de libertad, 6, 23
INDICE ALFABETICO
Gram-Schmidt ortogonalizacin, 32 o Hilbert espacio de, 241 Householder ver transformacin, 235 o identicacin o multicolinealidad aproximada, 125 restricciones, 49 inuencia muestral, SIC, 165, 231 insesgadez de un estimador, 19 del estimador , 19 insesgado, 18 intervalos de conanza simultneos , 115 a inversa generalizada, 34 de Moore-Penrose, 37 no unica, 37 L1 norma, 5 libertad, grados, 6 lista R, 92 logit, 208 modelo, 207 base, o de referencia, 213 lsfit, 23 Mallows Cp , 178 anlogo en regresin logit, 214 a o matriz de covarianzas, 18 de dise o, 5 n de informacin, 222 o matriz de dise o, 5 n MDL, m nima longitud de descripcin, 183 o modelo base en regresin log o stica, 213 saturado en regresin log o stica, 213 Moore-Penrose inversa, 37 muestra
INDICE ALFABETICO
de entrenamiento o aprendizaje, 181 de validacin, 181 o multicolinealidad exacta, 45 no predictiva, 156 predictiva, 156 nivel de una variable categorica, 87 nivel de signicacin emp o rico, 110 niveles de un factor, 90 no lineal,regresin, 14 o no paramtrica, regresin e o kernels, 14 splines, 14 vecinos ms prximos, 14 a o norma eucl dea, 4, 12, 217 L1, 14 otras, 244 norma L1, 5 observaciones anmalas, 161 o ortogonalizacin o mtodo de Gram-Schmidt, 32 e prediccin o error de, 85 producto interno en R, 10 eucl deo, 7 proyeccin, 7 o pseudo-inversa, 34 QR factorizacin, 24, 233 o R dataframedataframe, 92 glm, 94 lm, 94 model.matrix, 94 attach, 93 frmulas, 94 o factor, 89 ordenado, 89 lista, 92 rango deciente, 45 rango total, 16
265
razn de posibilidades relativa, 210 o razn de verosimilitudes o contraste, 80, 205, 223 redes neuronales y estimacin MCO de un modelo lineal, o 14 regresando, variable, 3 regresin o stepwise, o escalonada, 185 all subsets, 184 en componentes principales, 136 en ra latentes, 136 ces ridge, 137 mediante un programa de MCO, 157 regresores, 3 residuos deleted, 163 BLUS ( ELIO), 163 o borrados, 163 externamente studentizados, 162, 231 internamente studentizados, 161, 231 predictivos o PRESS, 163 respuesta, variable, 3 restricciones identicadoras, 53 ridge regresin, 137 o mediante un programa de MCO, 157 trazas, 140 sesgada estimacin, 135 o SIC curva de inuencia muestral, 165 situacin observacional, 5 o SSR anlogo en regresin logit, 214 a o SST anlogo en regresin logit, 214 a o sucesin o de Cauchy, 241 suma de cuadrados de los residuos, 21 supuestos habituales, 6 teorema Gauss-Markov, 19 Sherman-Morrison-Woodbury, 218 transformacin o de Box-Cox, 203
266
de Box-Tidwell, 201 de Householder, 235 trazas ridge, 140 validacin o muestra de, 181 validacin cruzada, 180 o para seleccionar transformaciones, 203 valores singulares descomposicin en, 234 o variables categoricas, 87 cualitativas, 87 nominales, 87 ordinales, 87 numricas, 88 e varianza del error de prediccin, 85 o vecinos ms prximos, 14 a o
INDICE ALFABETICO

Analisis de Regresión - Introduccion Teórica y Práctica Basada en R - TUSSEL

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Regresión - Introduccion Teórica y Práctica Basada en R - TUSSEL

Cargado por

Copyright:

Formatos disponibles

Anlisis de Regresin a o Introduccin terica y prctica basada en R o o a

F. Tusell1 25 de septiembre de 2009

INDICE GENERAL 61 61 62 64 65 67 67 75 81 82 83 84 87 87 89 94 101 108

C.1. Equivalencia de funciones para regresin y ANOVA en S-Plus o y R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

El modelo de regresin lineal. o

Planteamiento del problema.

Intervalo en minutos (I)

Duracin en minutos (D)

Fin del ejemplo

CAP ITULO 1. EL MODELO DE REGRESION LINEAL.

Observacin 1.2 El criterio de seleccionar como estimadores de o

Adems de suponer que Y = X + a requeriremos lo siguiente: 1. 2. 3. E[ ] = 0. E[ ] = 2 I. rango(X) = p < N.

CAP ITULO 1. EL MODELO DE REGRESION LINEAL.

1.4. MCO COMO APROXIMACION VECTORIAL

La estimacin m o nimo cuadrtica como a problema de aproximacin vectorial. o

La ecuacin matricial y = X + puede reescribirse as o : y (1.5)

CAP ITULO 1. EL MODELO DE REGRESION LINEAL.

Figura 1.2: El vector PM y es la proyeccin de y sobre M (plano horizontal). o

CAP ITULO 1. EL MODELO DE REGRESION LINEAL. Complementos y ejercicios

1.2 En R para crear un vector y asignarlo a la variable x haremos: x <- c(1,3,4)

1.4 El producto interno eucl deo de dos vectores x e y puede

1.6. LECTURA RECOMENDADA.

1.5 En R rige la regla del reciclado, que permite operar con

CAP ITULO 1. EL MODELO DE REGRESION LINEAL.

1.8 Cuando escribimos expresiones como

CAP ITULO 1. EL MODELO DE REGRESION LINEAL. 1.14 Demustrese que la correspondencia PM : x y = PM x e

es una aplicacin lineal. o

Estimacin m o nimo cuadrtica. a

Obtencin de los estimadores de los pao rmetros. a

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

yi 0 xi0 1 xi1 . . . p1 xi,p1

Una obtencin alternativa o

(yi 0 xi0 1 xi1 . . . p1 xi,p1 )2 ,

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

Propiedades del estimador m nimo cua drtico . a

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

luego es insesgado. Por consiguiente, la matriz de covarianzas tendr a por expresin: o = E( )( ) = = = = =

= [(X X)1 X + D](X + ) = [(X X)1 X + D] .

(2.29) (2.30) (2.31)

Estimacin de la varianza de la perturo bacin. o

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

y 2 = SSE/(N p) es por tanto un estimador insesgado de 2 .

Observacin 2.3 En lo que sigue, SSE denotar tanto la variao a

R: Ejemplo 2.1 (clculo de los estimadores MCO) a

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

[1,] [2,] [3,] [4,] [5,] [6,]

A continuacin, jamos un vector o > beta <- c(2, 3, 4)

2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

[1,] [2,] [3,] [4,] [5,] [6,]

2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.

48.78812 -23.94068 0.42874 -0.60529

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

e en que y denota la media aritmtica de las observaciones en y . Denamos: SST = SSR = y y X y

2.5. EL COEFICIENTE R2 Figura 2.1: X es la proyeccin de y sobre M. R2 = cos2 o

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

Observacin 2.7 Si regresamos y solamente sobre una columna o

Observacin 2.8 Si ajustamos un modelo sin columna deunos o

2.6. ALGUNOS LEMAS SOBRE PROYECCIONES.

Algunos lemas sobre proyecciones.

CAP ITULO 2. ESTIMACION M INIMO CUADRATICA.

en virtud de la ortonormalidad de los vectores {vi }. Entonces, u = PM y puede escribirse as :

2.6. ALGUNOS LEMAS SOBRE PROYECCIONES.