An´lisis de Regresi´n a o Introducci´n te´rica y pr´ctica basada en R o o a

F. Tusell1 7 de octubre de 2010

F. Tusell. La ultima versi´n de este documento, quiz´ posterior a ´sta, ´ o a e puede habitualmente encontrarse en http://www.et.bs.ehu.es/~etptupaf. Estas notas, o la versi´n m´s moderna en la ubicaci´n citada, pueden reproducirse o a o libremente por alumnos de la asignatura Estadistica: Modelos Lineales (15765) para su uso privado. Toda otra reproducci´n requiere el consentimiento previo y por o escrito del autor.

1

ii

´ Indice general

1. El modelo de regresi´n lineal. o 1.1. Planteamiento del problema. . . . . 1.2. Notaci´n . . . . . . . . . . . . . . . o 1.3. Supuestos. . . . . . . . . . . . . . . 1.4. MCO como aproximaci´n vectorial o 1.5. Proyecciones. . . . . . . . . . . . . 1.6. Lectura recomendada. . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

1 1 3 5 7 7 9 15 15 17 18 21 28 31 36 43 43 45 46 49 50

2. Estimaci´n m´ o ınimo cuadr´tica. a 2.1. Obtenci´n de los estimadores de los par´metros. o a 2.2. Una obtenci´n alternativa . . . . . . . . . . . . o ˆ 2.3. Propiedades del estimador m´ ınimo cuadr´tico β. a 2.4. Estimaci´n de la varianza de la perturbaci´n. . o o 2 2.5. El coeficiente R . . . . . . . . . . . . . . . . . 2.6. Algunos lemas sobre proyecciones. . . . . . . . . 2.7. Lectura recomendada . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

3. Identificaci´n. Colinealidad exacta o 3.1. Modelos con matriz de dise˜o de rango deficiente. n 3.2. Funciones estimables. . . . . . . . . . . . . . . . . 3.3. Restricciones de identificaci´n. . . . . . . . . . . . o 3.4. Multicolinealidad exacta y aproximada . . . . . . 3.5. Lectura recomendada. . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

4. Estimaci´n con restricciones o 51 4.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . . . 51 4.2. Lemas auxiliares. . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.3. Estimaci´n condicionada. . . . . . . . . . . . . . . . . . . . . . 54 o iii

iv 5. Especificaci´n inadecuada del modelo o 5.1. Introducci´n. . . . . . . . . . . . . . o 5.2. Inclusi´n de regresores irrelevantes. . o 5.3. Omisi´n de regresores relevantes. . . o 5.4. Consecuencias de orden pr´ctico . . . a

´ INDICE GENERAL 61 61 62 64 65 67 67 75 81 82 82 84 87 87 89 94 101 108

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

6. Regresi´n con perturbaciones normales. o 6.1. Introducci´n. . . . . . . . . . . . . . . . . . . . . . . . . . o 6.2. Contraste de hip´tesis lineales. . . . . . . . . . . . . . . . . o 6.2.1. Contraste sobre coeficientes βi aislados. . . . . . . . 6.2.2. Contraste de significaci´n conjunta de la regresi´n. o o 6.3. Intervalos de confianza para la predicci´n . . . . . . . . . . o 6.4. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . 7. Regresi´n con R o 7.1. Tipolog´ de variables explicativas. ıa 7.2. Factores y dataframes. . . . . . . . 7.3. F´rmulas . . . . . . . . . . . . . . . o 7.4. La funci´n lm. . . . . . . . . . . . . o 7.5. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. Inferencia simult´nea. a 109 8.1. Problemas que plantea el contrastar m´ltiples hip´tesis simulu o t´neas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 a 8.1.1. Evidencia contra una hip´tesis . . . . . . . . . . . . . . 109 o 8.1.2. ¿C´mo de “raro” ha de ser algo para ser realmente “raro”?111 o 8.1.3. An´lisis exploratorio e inferencia . . . . . . . . . . . . 112 a 8.1.4. Inferencia simult´nea y modelo de regresi´n lineal ora o dinario . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.2. Desigualdad de Bonferroni. . . . . . . . . . . . . . . . . . . . . 115 8.3. Intervalos de confianza basados en la m´xima t. . . . . . . . . 116 a 8.4. M´todo S de Scheff´. . . . . . . . . . . . . . . . . . . . . . . . 117 e e 8.5. Empleo de m´todos de inferencia simult´nea. . . . . . . . . . . 123 e a 9. Multicolinealidad. 9.1. Introducci´n. . . . . . . . . . . . . . . . . . . o 9.2. Una aproximaci´n intuitiva . . . . . . . . . . o 9.3. Detecci´n de la multicolinealidad aproximada o 9.4. Caracterizaci´n de formas lineales estimables. o 9.5. Varianza en la estimaci´n de una forma lineal. o 9.6. Elecci´n ´ptima de observaciones. . . . . . . . o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 125 126 128 130 133 134

´ INDICE GENERAL

v

10.Regresi´n sesgada. o 139 10.1. Introducci´n. . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 o 10.2. Una aproximaci´n intuitiva. . . . . . . . . . . . . . . . . . . . 140 o 10.3. Regresi´n ridge. . . . . . . . . . . . . . . . . . . . . . . . . . . 142 o 10.3.1. Error cuadr´tico medio del estimador m´ a ınimo cuadr´a tico ordinario . . . . . . . . . . . . . . . . . . . . . . . 142 10.3.2. Clase de estimadores ridge . . . . . . . . . . . . . . . . 143 10.3.3. Elecci´n de k . . . . . . . . . . . . . . . . . . . . . . . 147 o 10.3.4. Comentarios adicionales . . . . . . . . . . . . . . . . . 148 10.4. Regresi´n en componentes principales. . . . . . . . . . . . . . 153 o 10.4.1. Descripci´n del estimador . . . . . . . . . . . . . . . . 153 o 10.4.2. Estrategias de selecci´n de componentes principales . . 155 o 10.4.3. Propiedades del estimador en componentes principales 156 10.5. Regresi´n en ra´ latentes . . . . . . . . . . . . . . . . . . . 161 o ıces 10.6. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . 165 11.Evaluaci´n del ajuste. Diagn´sticos. o o 169 11.1. An´lisis de residuos. . . . . . . . . . . . . . . . . . . . . . . . 169 a 11.1.1. Residuos internamente studentizados. . . . . . . . . . . 171 11.1.2. Residuos externamente studentizados. . . . . . . . . . . 171 11.1.3. Residuos BLUS. . . . . . . . . . . . . . . . . . . . . . . 173 11.1.4. Residuos borrados. . . . . . . . . . . . . . . . . . . . . 173 11.2. An´lisis de influencia. . . . . . . . . . . . . . . . . . . . . . . . 174 a 11.2.1. La curva de influencia muestral. . . . . . . . . . . . . . 175 11.2.2. Distancia de Cook. . . . . . . . . . . . . . . . . . . . . 177 11.2.3. DFFITS. . . . . . . . . . . . . . . . . . . . . . . . . . . 177 11.2.4. DFBETAS. . . . . . . . . . . . . . . . . . . . . . . . . 178 11.3. An´lisis gr´fico de residuos . . . . . . . . . . . . . . . . . . . . 178 a a 11.3.1. Gr´ficos de residuos frente a ´ a ındice de observaci´n (i, ǫi ) 178 o ˆ 11.3.2. Gr´ficos de residuos frente a variables incluidas (xij , ǫi ) 179 a ˆ ∗ 11.3.3. Gr´ficos de residuos frente a variables excluidas (xij , ǫi ) 179 a ˆ 11.3.4. Gr´ficos de variable a˜adida (ˆY |X−j , ǫXj |X−j ) . . . . . . 179 a n ǫ ˆ 11.3.5. Gr´ficos de normalidad de residuos . . . . . . . . . . . 179 a 11.3.6. Gr´ficos de residuos ordinarios frente a residuos borraa dos (di , ǫi ) . . . . . . . . . . . . . . . . . . . . . . . . . 182 ˆ 12.Selecci´n de modelos. o 12.1. Criterios para la comparaci´n. . o 2 12.1.1. Maximizaci´n de Rp . . . o 12.1.2. Criterio Cp de Mallows. 12.1.3. Criterio AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 185 186 188 190

vi

´ INDICE GENERAL 12.1.4. Residuos borrados y validaci´n cruzada . . . . . . . . . 191 o 12.1.5. Complejidad estoc´stica y longitud de descripci´n m´ a o ınima∗ 193 12.2. Selecci´n de variables. . . . . . . . . . . . . . . . . . . . . . . 194 o 12.2.1. Regresi´n sobre todos los subconjuntos de variables. . . 194 o 12.2.2. Regresi´n escalonada (stepwise regression). . . . . . . . 195 o 12.3. Modelos bien estructurados jer´rquicamente . . . . . . . . . . 205 a

13.Transformaciones 13.1. Introducci´n . . . . . . . . . . . . . . . . . . . o 13.2. Transformaciones de los regresores . . . . . . . 13.2.1. Gr´ficos de residuos frente a regresores a 13.2.2. Transformaciones de Box-Tidwell . . . 13.3. Transformaciones de la variable respuesta . . . 13.3.1. Generalidades . . . . . . . . . . . . . . 13.3.2. La transformaci´n de Box-Cox. . . . . o 14.Regresi´n con respuesta cualitativa o 14.1. El modelo logit. . . . . . . . . . . . . . . . 14.1.1. Interpretaci´n de los coeficientes . . o 14.1.2. La importancia del dise˜o muestral n 14.1.3. Estimaci´n . . . . . . . . . . . . . o 14.1.4. Contrastes y selecci´n de modelos . o . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

209 . 209 . 209 . 210 . 211 . 212 . 212 . 213 217 . 217 . 219 . 221 . 222 . 223

A. Algunos resultados en Algebra Lineal. 227 A.1. Resultados varios sobre Algebra Matricial. . . . . . . . . . . . 227 A.2. C´lculo diferencial con notaci´n matricial . . . . . . . . . . . . 229 a o A.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . 230 B. Algunos prerrequisitos estad´ ısticos. 231 2 B.1. Distribuciones χ y F descentradas . . . . . . . . . . . . . . . 231 B.2. Estimaci´n m´ximo veros´ o a ımil . . . . . . . . . . . . . . . . . . 232 B.3. Contraste raz´n generalizada de verosimilitudes . . . . . . . . 233 o C. Regresi´n en S-Plus y R. o C.1. El sistema estad´ ıstico y gr´fico S-Plus a C.2. El sistema estad´ ıstico y gr´fico R . . . a C.2.1. La funci´n lsfit. . . . . . . . . o C.2.2. La funci´n leaps. . . . . . . . . o C.2.3. La funci´n hat. . . . . . . . . . o C.2.4. La funci´n lm. . . . . . . . . . . o C.2.5. La funci´n lm.influence. . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 235 235 237 238 239 240 240

´ INDICE GENERAL

vii

C.2.6. La funci´n ls.diag. . . . . . . . . . . . . . . . . . . . 241 o C.3. Correspondencia de funciones para regresi´n y ANOVA en So Plus y R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 D. Procedimientos de c´lculo. a D.1. Introducci´n . . . . . . . . . . o D.2. Transformaciones ortogonales. D.3. Factorizaci´n QR. . . . . . . . o D.4. Bibliograf´ . . . . . . . . . . ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 . 243 . 243 . 247 . 249

E. Enunciados y demostraciones formales 251 E.1. Existencia y unicidad de proyecciones. . . . . . . . . . . . . . 251 E.2. Proyecci´n sobre subespacios h = M ∩ K(B). . . . . . . . . . 254 o

viii

´ INDICE GENERAL

´ Indice de figuras

1.1. Old Faithful Geyser: datos de 272 erupciones. . . . . . . . . . o 1.2. El vector PM y es la proyecci´n de y sobre M (plano horizontal).

2 8

ˆ 2.1. X β es la proyecci´n de y sobre M . R2 = cos2 α . . . . . . . . 29 o 2.2. En un ajuste sin t´rmino constante, la pendiente depende de e la elecci´n arbitraria del origen . . . . . . . . . . . . . . . . . 42 o 3.1. Regresi´n en el caso de matrix X de rango deficiente. . . . . . 44 o 3.2. Caso de un vector β parcialmente estimable. . . . . . . . . . . 45 9.1. Multicolinealidad exacta (panel superior) y aproximada (panel inferior). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 ˆ 10.1. Componentes del ECM (β (k) ) en el estimador ridge. Las l´ ıneas de trazos y puntos representa respectivamente la varianza y ˆ (sesgo)2 de β (k) en funci´n de k. La curva s´lida representa o o ˆ(k) ]. La l´ ECM [β ınea horizontal es la varianza (y ECM) del ˆ estimador β MCO. . . . . . . . . . . . . . . . . . . . . . . . . 146 10.2. Trazas ridge y GVC para los datos longley . . . . . . . . . . 150 11.1. Una observaci´n como a tiene residuo borrado muy grande, y o gran influencia en la pendiente de la recta de regresi´n. . . . . 175 o 11.2. Gr´ficos para contraste de normalidad . . . . . . . . . . . . . 181 a 12.1. Valores de Cp y R para 141 modelos ajustados a los datos UScrime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 13.1. Disposici´n de residuos sugiriendo una transformaci´n cuadr´o o a tica del regresor Xi . . . . . . . . . . . . . . . . . . . . . . . . 210 D.1. Visualizaci´n de la transformaci´n de Householder. . . . . . . 246 o o ix
2

x

´ INDICE DE FIGURAS

´ Indice de cuadros

C.1. Equivalencia de funciones para regresi´n y ANOVA en S-Plus o y R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

xi

xii

´ INDICE DE CUADROS

Introducci´n o

Lo que sigue contiene una introducci´n muy concisa al an´lisis de regreo a si´n, concebida como apoyo de las clases. Hay varios niveles de lectura: en o un primer nivel, las Observaciones que jalonan el texto pueden en su mayor´ ıa omitirse, sin p´rdida de continuidad. Ello proporciona una lectura bastante e lineal. Si se desea una lectura m´s detallada, con digresiones que, no siendo a imprescindibles, pueden mejorar la comprensi´n del conjunto, conviene leer o tanto las observaciones como las secciones de Complementos y ejercicios al fin de cada cap´ ıtulo: son parte integrante del texto a este segundo nivel y completan muchos detalles. A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s´ ımbolo de“giro peligroso”representado en el margen, popularizado por la obra cl´sica Knuth (1986). Se trata de fraga mentos que corresponder´ a un tercer nivel, con detalles de inter´s, extenıan e siones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dificultad. La flecha vertical ↑ remite a alg´n ejercicio, observaci´n u o o ejemplo que son requisito previo. Hay un mundo de diferencia entre saber c´mo se hacen las cosas y saber o hacerlas. Querr´ ıamos que los alumnos supieran hacerlas. La experiencia sugiere que lo que resulta de m´s ayuda al lector es ver ejemplos de aplicaci´n a o detallados, que pueda reproducir o modificar para resolver sus propios problemas. Intercalados entre la teor´ hay fragmentos en R, que el lector puede ıa ejecutar o tomar como modelo. Todos se han ejecutado con R versi´n 2.11.1. o No se ha buscado el c´digo m´s terso ni la forma m´s r´pida o elegante o a a a de hacer las cosas, sino la que ilustra mejor la teor´ ıa.

xiii

xiv

´ INDICE DE CUADROS

Cap´ ıtulo 1

El modelo de regresi´n lineal. o

1.1.

Planteamiento del problema.

Son frecuentes en la pr´ctica situaciones en las que se cuenta con obsera vaciones de diversas variables, y es razonable pensar en una relaci´n entre o ellas. El poder determinar si existe esta relaci´n —y, en su caso, una forma o funcional para la misma— es de sumo inter´s. Por una parte, ello permitir´ e ıa, conocidos los valores de algunas variables, efectuar predicciones sobre los valores previsibles de otra. Podr´ ıamos tambi´n responder con criterio estad´ e ıstico a cuestiones acerca de la relaci´n de una variable sobre otra. o Ejemplo 1.1 La Figura 1.1 (p´g. 2), muestra una gr´fica recoa a
giendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de Cook and Weisberg (1982)). En abscisas se representa la duraci´n de las o erupciones. En ordenadas, el intervalo de tiempo transcurrido hasta la siguiente erupci´n. o A la vista del gr´fico, parece evidente que existe una relaci´n ena o tre ambas variables —erupciones de duraci´n D corta son seguidas o de otras tras un intervalo de tiempo I m´s reducido que en el caso a de erupciones largas—. Podr´ interesarnos contrastar con criterio esıa tad´ ıstico si tal relaci´n existe (en el caso presente, la relaci´n es tan o o n´ ıtida que el plantearse el contraste de hip´tesis correspondiente no o tendr´ demasiado sentido). M´s interesante, en el caso presente, ser´ ıa a ıa llegar a una expresi´n del tipo I = f (D) relacionando el intervalo con o

1

2

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL. Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.

Intervalo en minutos (I)

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

50

60

70

80

90

Duración en minutos (D)

la duraci´n (ello nos permitir´ anticipar en qu´ momento se presentao ıa e r´ la siguiente erupci´n, conocida la duraci´n D que se ha observado a o o en la anterior). Es claro que la relaci´n I = f (D) no puede ser exacta —es dif´ o ıcil pensar en una funci´n que pase precisamente por cada uno de los 272 o puntos en la Figura 1.1—. Habremos de considerar m´s bien funciones a del tipo I = f (D) + ǫ, en que el valor de I es una cierta funci´n (deso conocida) de D m´s una cantidad aleatoria inobservable ǫ. Decimos a que f (D) es una funci´n de regresi´n de I sobre D, y nuestro objetivo o o es especificar su forma. Habitualmente realizamos para ello supuestos simplificadores, como el de que f (D) es una funci´n lineal. o

Fin del ejemplo

´ 1.2. NOTACION

3

Es de inter´s se˜alar que el ajuste de un modelo de regresi´n no se limita e n o a analizar la relaci´n entre dos variables; en general, buscaremos relaciones o del tipo Y = f (X0 , X1 , . . . , Xp−1 ) + ǫ, relacionando de manera aproximada los valores de Y con los que toman otras variables, X0 , . . . , Xp−1 . Por simplicidad, limitaremos por el momento nuestra atenci´n a funciones f (X0 , . . . , Xp−1 ) lineales; el modelo resultante es o el modelo de regresi´n lineal, que se examina en la Secci´n 1.2 a continuaci´n. o o o Se˜alemos, finalmente, que el hecho de aislar una variable Y al lado izn quierdo y escribirla como funci´n de otras m´s una perturbaci´n aleatoria ǫ o a o no prejuzga ninguna relaci´n de causalidad en ning´n sentido; s´lo postulao u o mos la existencia de una relaci´n cuya forma y alcance queremos investigar. o En el Ejemplo 1.1, el ajuste de un modelo del tipo I = f (D) + ǫ no implica que consideremos que la duraci´n D causa el subsiguiente intervalo I hasta o la pr´xima erupci´n, sino s´lo que parece existir una relaci´n entre ambas o o o o variables.

1.2.

Notaci´n o

Consideramos una variable aleatoria Y (regresando, respuesta, o variable end´gena) de la que suponemos que se genera as´ o ı: Y siendo: 1. β0 , . . . , βp−1 , par´metros fijos desconocidos. a 2. X0 , . . . , Xp−1 , variables explicativas no estoc´sticas, regresores, cuyos a valores son fijados por el experimentador. Frecuentemente X0 toma el valor constante “uno”. 3. ǫ una variable aleatoria inobservable. La ecuaci´n (1.1) indica que la variable aleatoria Y se genera como o combinaci´n lineal de las variables explicativas, salvo en una perturbaci´n o o aleatoria ǫ. En el Ejemplo 1.1, Y ser´ la variable I, y el unico regresor ser´ ıa ´ ıa la variable D. Si decidimos ajustar un modelo con t´rmino constante β0 , e tendr´ ıamos como regresores D y X0 =“uno”. La funci´n que aparece en (1.1) o ser´ entonces f (D) = β0 + β1 D. ıa El problema que abordamos es el de estimar los par´metros desconocidos a β0 , . . . , βp−1 . Para ello contamos con una muestra de N observaciones de = β0 X0 + β1 X1 + · · · + βp−1 Xp−1 + ǫ, (1.1)

4

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL.

la variable aleatoria Y , y de los correspondientes valores de las variables explicativas X. Como se ha dicho, ǫ es inobservable. La muestra nos permitir´ a escribir N igualdades similares a (1.1): y1 = β0 x1,0 + β1 x1,1 + · · · + βp−1 x1,p−1 + ǫ1 y2 = β0 x2,0 + β1 x2,1 + · · · + βp−1 x2,p−1 + ǫ2 . . . yN = β0 xN,0 + β1 xN,1 + · · · + βp−1 xN,p−1 + ǫN . En forma matricial, escribiremos dichas N igualdades as´ ı: y = Xβ + ǫ , siendo: y el vector N × 1 de observaciones de la variable aleatoria Y, X la matriz N × p de valores de las variables explicativas. Su elemento xij denota el valor que la j–´sima variable explicativa toma en la i– e ´sima observaci´n, e o β el vector de par´metros (β0 , . . . , βp−1 )′ , a ǫ el vector N × 1 de valores de la perturbaci´n aleatoria ǫ. o ˆ Denotaremos mediante β al vector de estimadores de los par´metros, y por a ˆ es decir, los residuos ǫ al vector N × 1 de residuos, definido por ǫ = y − X β; ˆ ˆ recogen la diferencia entre los valores muestrales observados y ajustados de la variable aleatoria Y . Utilizamos min´sculas para designar valores muestrales y may´sculas pau u ra las correspondientes variables aleatorias (as´ por ejemplo, y denota el ı vector de valores observados de la variable aleatoria Y en una determinada ˆ ˆ experimentaci´n). El contexto aclarar´, por otra parte, cuando β y ǫ son o a variables aleatorias o valores muestrales. Adoptaremos para la estimaci´n el criterio m´ o ınimo cuadr´tico ordinario a ˆ es ´ptimo si y − X β 2 es m´ ˆ (MCO). Por consiguiente, diremos que β o ınimo, denotando · la norma eucl´ ıdea ordinaria: y (ver Definici´n A.2, p´g. 227). o a
2 def

(1.2)

=

2 yi i

1.3. SUPUESTOS. Observaci´n 1.1 El suponer que los valores de los regresores o
pueden ser fijados por el analista (apartado 2, al comienzo de esta Secci´n) nos coloca en una situaci´n de dise˜o experimental. De ah´ o o n ı que a la matriz X se la denomine matriz de dise˜o. n Muchas veces (notablemente en Ciencias Sociales) no es posible fijar los valores de X, sino tan solo recolectar una muestra. Decimos entonces que estamos ante una situaci´n observacional (en oposici´n o o a un dise˜o experimental). Ello no afecta a la teor´ que sigue; la n ıa inferencia sobre los par´metros β , etc. es entonces condicional a los a valores observados de X.

5

Observaci´n 1.2 El criterio de seleccionar como estimadores de o ˆ ˆ 2 es totalmente arbitrario. En β el vector β minimizando y − X β lugar de minimizar la norma eucl´ ıdea ordinaria, podr´ ıamos minimizar ˆ ||y − X β||L1 (suma de los valores absolutos de los errores de aproximaci´n, tambi´n llamada norma L1 ), o cualquier otra cosa. Si se emplea o e la norma eucl´ ıdea es por conveniencia matem´tica y por ser un criterio a “razonable” desde diversos puntos de vista.
¿Por qu´ introducir la norma euclidea y e no limitarnos a proponer como criterio la minimizaci´n de o ˆ ˆ yi − β0 xi0 − β1 xi1 − . . . − βp−1 xi,p−1
2

Observaci´n 1.3 o

?

i

Si realizamos las demostraciones en t´rminos de normas, servir´n sea e a cual fuere la norma que adoptemos. Muchos resultados ser´n as´ “todo a ı terreno”, trasladables de inmediato a problemas con supuestos diferentes a los realizados en la Secci´n 1.3 a continuaci´n. Veremos en breve o o (Observaci´n 2.1, p´g. 16) ventajas adicionales de plantear y resolver o a el problema en t´rminos de aproximaci´n vectorial, minimizando una e o norma.

1.3.

Supuestos.
y que la matriz X es no aleatoria,

Adem´s de suponer que Y = X β + ǫ a requeriremos lo siguiente: 1. 2. 3. E[ǫ ] = 0. E[ǫ ǫ ′ ] = σ 2 I. rango(X) = p < N .

6

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL.

Nos referiremos a 1)–3) en lo sucesivo como los supuestos habituales. El supuesto 1) no implica p´rdida de generalidad ni supone ninguna rese tricci´n, al menos en el caso en que X tiene entre sus columnas una cuyos o valores sean constantes (y ´sto suele suceder; t´ e ıpicamente, la primera columna est´ formada por “unos”). En efecto, es claro que si: a Y = β0 1 + β1 x 1 + · · · + βp−1 x p−1 + ǫ (1.3)

y el vector de perturbaciones verifica E[ǫ ] = µ, entonces (1.3) puede reescribirse equivalentemente como: Y = (β0 1 + µ) + β1 x1 + · · · + βp−1 xp−1 + (ǫ − µ), (1.4)

y (1.4) incorpora un vector de perturbaciones (ǫ − µ) verificando el primero de nuestros supuestos. El supuesto 2), bastante m´s restrictivo, requiere que las perturbaciones a sean incorrelacionadas (covarianzas cero) y homosced´sticas (de id´ntica vaa e rianza). El supuesto 3) simplemente fuerza la independencia lineal entre las (p) columnas de X. El requerimiento N > p excluye de nuestra consideraci´n o ˆ el caso N = p, pues entonces y = X β es un sistema de ecuaciones lineales ˆ determinado, y tiene siempre soluci´n para alg´n vector β que hace los resio u duos nulos. Las estimaciones del vector β se obtendr´ entonces resolviendo ıan dicho sistema. Veremos en lo que sigue que este caso particular carece de inter´s (se dice que no tiene “grados de libertad”). e Algunos de los supuestos anteriores ser´n relajados, y las consecuencias a que de ello se derivan estudiadas. Observaci´n 1.4 Nada impide que los regresores sean transforo maciones adecuadas de las variables originales. Por ejemplo, si pensamos que la variable aleatoria Y depende del cuadrado de Xk y de otras variables, podr´ ıamos especificar un modelo de regresi´n as´ o ı:
Y = β0 + β1 x1 + · · · + βk x2 + · · · + βp−1 xp−1 + ǫ. k

An´logamente, si pens´ramos que la variable aleatoria W se genera a a del siguiente modo: W = kz1 β1 z2 β2 ν,

siendo ν una perturbaci´n aleatoria no negativa (por ejemplo, con o distribuci´n logar´ o ıtmico normal), nada impedir´ que tom´ramos loıa a garitmos para obtener Y = log(W ) = β0 + β1 x1 + β2 x2 + ǫ,

´ 1.4. MCO COMO APROXIMACION VECTORIAL
en que xi = log(zi ), β0 = log(k) y ǫ = log(ν). Lo que realmente se requiere es que la expresi´n de la variable end´gena o regresando Y o o sea lineal en los par´metros. a

7

1.4.

La estimaci´n m´ o ınimo cuadr´tica como a problema de aproximaci´n vectorial. o
ˆ ˆ = β0 x0 + · · · + βp−1 xp−1 + ǫ, ˆ

ˆ ˆ La ecuaci´n matricial y = X β + ǫ puede reescribirse as´ o ı: y (1.5)

donde x0 , . . . , xp−1 denotan los vectores columna de la matriz X (x0 ser´ en a general una columna de “unos”, como se ha indicado). Hay diferentes posibilidades en cuanto a criterio de estimaci´n de los β. Si adoptamos el criterio o MCO propuesto m´s arriba, consistente en minimizar ǫ 2 , la ecuaci´n (1.5) a ˆ o muestra que el problema puede reformularse as´ ¿Cuales son los coeficientes ı: ˆ0 , . . . , βp−1 que hacen que la combinaci´n lineal β0 x0 + · · · + βp−1 xp−1 aproˆ ˆ ˆ β o xime ´ptimamente (en sentido m´ o ınimo cuadr´tico) el vector y ? Veremos a inmediatamente que esta combinaci´n lineal es lo que llamaremos proyecci´n o o de y sobre el subespacio generado por las columnas x0 . . . , xp−1 .

1.5.

Proyecciones.

Aunque en lo que sigue se hace un tratamiento generalizable, impl´ ıcitamente consideramos productos internos (v´ase Definici´n A.1, p´g. 227) e o a real-valorados, lo que simplifica algunas f´rmulas. Hacemos tambi´n un uso o e bastante tosco del lenguaje y notaci´n, identificando vectores con matrices o columna, operadores lineales y matrices asociadas a ellos, etc. Lo inadecuado del formalismo puede ser f´cilmente suplido por el lector, y evita notaci´n a o que podr´ hacerse agobiante. ıa Definici´n 1.1 Sea H un espacio vectorial. Sea M ⊆ H un subespacio del o mismo, e y ∈ H un vector cualquiera. Decimos que u es proyecci´n de y o sobre M (y lo denotamos por u = PM y ) si: 1. 2. 3. u ∈ M, u=y si y ∈ M, si y ∈ M. / (y − u) ⊥ M

8

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL.

Figura 1.2: El vector PM y es la proyecci´n de y sobre M (plano horizontal). o

y ǫ ˆ

PM y b

Siempre existe (y es unica) la proyecci´n de un vector en H sobre el ´ o subespacio M , tal como establece el teorema siguiente1 . Teorema 1.1 Sea H un espacio vectorial, y M un subespacio del mismo. Para cualquier vector y ∈ H existe siempre un unico vector u = PM y , ´ proyecci´n de y sobre M . Se verifica que: o y −u
2

=

m´ ın
z∈M

y −z

2

.

(1.6)

La Fig. 1.2 ilustra en tres dimensiones la noci´n de proyecci´n, y hace o o intuitivamente evidente el Teorema 1.1. En dicha figura se ha considerado H = R3 y un subespacio M de dimensi´n dos representado como el plano o horizontal. Consideremos PM y : podr´ ıamos describirlo como el obtenido al dejar caer una plomada desde el extremo de y hasta hacer contacto con M . Es claro que ǫ = y − PM y es ortogonal a M . Como consecuencia, para ˆ cualquier vector b = PM y en M , y − b es la hipotenusa de un tri´ngulo a
Estrictamente incorrecto. El Teorema E.1, p´g. 252 es una versi´n m´s elaborada del a o a Teorema 1.1.
1

1.6. LECTURA RECOMENDADA. rect´ngulo, cuyos catetos son ǫ y el segmento b − PM y . Por tanto, a ˆ y −b
2

9

=

ǫ ˆ

2

+

b − PM y

2

>

ǫ ˆ

2

lo que demuestra la propiedad de PM y de ser la mejor aproximaci´n de y en o M . (Una demostraci´n formal que va m´s all´ de esta incompleta argumeno a a taci´n puede encontrarse en la Secci´n E.1, p´g. 252.) o o a

1.6.

Lectura recomendada.

Sobre la teor´ ıa. Puede leerse como complemento a este cap´ ıtulo Faraway (2005), Cap. 1 y Cap. 2, Secci´n 1 a 3, o los cap´ o ıtulos introductorios de la mir´ ıada de buenos textos que existe sobre regresi´n lineal: Seber (1977), o Stapleton (1995), Arnold (1981), Draper and Smith (1998), Fox (2002), Pe˜a n (2002), Myers (1990), Searle (1971), Ryan (1997) o Troc´niz (1987a) son o algunos de ellos. Sobre la utilizaci´n de R. El primero de los libros citados, Faraway o (2005), ilustra tambi´n el modo de emplear R para hacer regresi´n (pero es e o demasiado escueto para servir de introducci´n al lenguaje). R es una impleo mentaci´n de fuente libre del lenguaje estad´ o ıstico y gr´fico S (ver por ejemplo a Becker et al. (1988), Chambers and Hastie (1992) o Chambers (1998)). Los textos introductorios sobre S son por ello utilizables con R. Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec´ ıfico para R, Venables and Ripley (1999b)), Dalgaard (2002), o Ugarte et al. (2008). Hay documentos con extensi´n de libro disponibles en Internet, como Maindonald o (2000) o Kuhnert and Venables (2005).

10

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL. Complementos y ejercicios

Algunos de los ejercicios que siguen requieren hacer uso de un ordenador y un programa especializado, tal como R. En la Secci´n 1.6, p´g. 9, se o a proporcionan referencias. 1.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo, x <- 5 El valor de la variable puede ser utilizado en c´lculos subsiguientes; a tecleando x + 5 obtendr´ ıamos “10”.

1.2 En R para crear un vector y asignarlo a la variable x haremos: x <- c(1,3,4)

1.3 Para efectuar multitud de c´lculos en R empleamos funcioa nes. Por ejemplo, para sumar varios n´meros y asignar el resultado a u x podr´ ıamos escribir:
x <- 5 + 7 + 12 o tambi´n e x <- sum(c(5,7,12)) que hace uso de la funci´n sum. o

1.4 El producto interno eucl´ ıdeo de dos vectores x e y puede
calcularse as´ ı: sum(x * y) o alternativamente:

1.6. LECTURA RECOMENDADA.
x %*% y

11

1.5 En R rige la “regla del reciclado”, que permite operar con
operandos disimilares. Por ejemplo, si: a <- c(1,2,3) b <- 5 entonces, tecleando a + b obtendr´ ıamos el vector (6 7 8) ′ . El argumento m´s corto, b, se ha a usado repetidamente para construir un operando que pueda sumarse a a.

1.6 En R es muy f´cil acceder a elementos aislados de un vector. a Por ejemplo, si:
a <- c(6,7,8) entonces, tecleando las expresiones que aparece a la izquierda obtendr´ ıamos los resultados que se indican a la derecha: a a[1] a[1:2] a[c(1,2)] a[-1] a[-(1:2)] a[c(F,F,T)] a[a>6] produce: produce: produce: produce: produce: produce: produce: produce: 6 6 6 6 7 8 8 7 7 8 7 7 8

8

Los sub´ ındices se ponen entre corchetes, [ ]. Un sub´ ındice negativo se interpreta como omitir el correspondiente valor. Adem´s de sub´ a ındices num´ricos, podemos emplear sub´ e ındices l´gicos: F (falso) y T (cierto). o Podemos incluso, como en la ultima l´ ´ ınea, emplear expresiones que den como valor un vector l´gico: a > 6 produce el vector F T T, que o empleado como sub´ ındices retorna los elementos de a mayores que 6.

1.7 La funci´n help permite interrogar a R sobre el modo de o empleo de cualquier funci´n. Por ejemplo, para obtener la descripci´n o o de sum podr´ ıamos teclear:

12

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL.
help(sum) Empl´ese la funci´n help para averiguar el cometido de las siguiene o tes funciones de R: t, cbind, rbind, solve, scan, read.table, list, nrow, ncol. Obs´rvese que tecleando e example(scan) podemos ejecutar los ejemplos que aparecen en la documentaci´n on o line sin necesidad de reteclearlos. Obs´rvese tambi´n que el mandato e e help.start() abre una ventana de ayuda en un navegador —si es que hay alguno instalado en la m´quina que empleamos—, lo que permite a navegar c´modamente por la documentaci´n. o o

1.8 Cuando escribimos expresiones como
sum(x * y) estamos empleando funciones predefinidas (en este caso, sum). En R no necesitamos limitarnos a ellas; el lenguaje es extensible por el usuario. Podr´ ıamos definir una funci´n eucl para realizar el producto interno o as´ ı: eucl <- function(x,y) { sum(x*y) } que asigna a eucl la funci´n especificada en el lado derecho. Para o invocarla con los vectores u y v, teclear´ ıamos: eucl(u,v). Una funci´n puede emplearse como bloque constructivo de otras, o y esto hasta el nivel de complejidad que se desee. La norma eucl´ ıdea podr´ calcularse mediante una funci´n definida as´ ıa o ı: norma.eucl <- function(x) { sqrt(eucl(x,x)) } que hace uso de eucl definida anteriormente. Tras esta definici´n, poo demos calcular la norma eucl´ ıdea de un vector x tecleando simplemente: norma.eucl(x) En realidad, la definici´n de una funci´n como eucl es innecesaria: en o o R podemos emplear x %* % x (o alternativamente crossprod(x)) que cumplen an´logo cometido. a

1.6. LECTURA RECOMENDADA. 1.9 Recordemos que el producto eucl´ ıdeo (o escalar ) de dos vectores x , y en R3 verifica: < x , y >= ||x ||||y || cos(α) siendo α el ´ngulo que ambos vectores forman. Esta igualdad se exa N definiendo cos(α) convenientemente (v´ase Definici´n A.3, tiende a R e o p´g. 227). Sea PM y la proyecci´n de y sobre el subespacio M . Si a o ||x || = 1, del esquema a continuaci´n inmediatamente se deduce que o < x , y >= ||PM y ||, siendo M el subespacio generado por x . y

13

α

x

PM y

Ded´zcase que, en el caso general en que ||x || = 1, se verifica: u PM y = < x,y > x < x,x >

1.10 Escr´ ıbase una funci´n que, dados dos vectores arbitrarios o x e y , obtenga el vector proyecci´n del segundo sobre el espacio (unio dimensional) generado por el primero. Compru´bese que el vector z e resultante es efectivamente la proyecci´n buscada, para lo cual es preo ciso ver: i) Que z es colineal con x , y ii) Que (y − z ) ⊥ x . 1.11 Demu´strese que los siguientes cuatro vectores de R3 son e
un sistema generador de dicho espacio, pero no base.         1 1 1 1 0 , 0 , 1 , 1 1 0 1 0

1.12 (↑ 1.11) Selecci´nese, de entre los cuatro vectores indicados o en el Problema 1.11, tres que formen base de R3 . 1.13 (↑ 1.10) Los siguientes dos vectores generan un subespacio
2-dimensional de R3 . Encuentrese —por ejemplo, mediante el procedimiento de Gram-Schmidt— una base ortonormal de dicho subespacio.     1 2 0 , 3 0 1

14

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL. 1.14 Demu´strese que la correspondencia PM : x −→ y = PM x e

es una aplicaci´n lineal. o

1.15 La estimaci´n de un modelo de regresi´n lineal reao o liza una aproximaci´n del vector respuesta Y similar a la que llevar´ o ıa a cabo una red neuronal compuesta por una unica neurona. “Similar” ´ porque en el caso de una red neuronal la “estimaci´n” (entrenamiento o o aprendizaje) se realiza de ordinario mediante un proceso iterativo, cuyo resultado no necesariamente ha de coincidir exactamente con la estimaci´n MCO. Un excelente manual sobre redes neuronales es Hayo kin (1998). Textos que tratan redes neuronales desde una perspectiva estad´ ıstica son Ripley (1996) y Bishop (1996). 1.16 Hay alternativas a la regresi´n lineal: regresi´n no o o lineal y regresi´n no param´trica (en que se considera una relaci´n o e o entre regresores y regresando que no est´ constre˜ida a ser lineal ni de a n ninguna otra forma funcional prefijada). En regresi´n no param´trica o e se emplean principalmente tres m´todos: kernels, vecinos m´s pr´xie a o mos y splines. Pueden consultarse, por ejemplo, Hastie et al. (2001) y Eubank (1988).
Como se ha indicado en la Observaci´n 1.2, p´g. 5, o a hay alternativas al criterio MCO. En lugar de minimizar la suma de cuadrados de los residuos, podr´ ıamos minimizar la suma de sus valoN res absolutos: i=1 |ˆ| (norma L1 del vector de residuos). Uno de sus ǫ atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande; pero es computacionalmente mucho m´s costosa. a

1.17

Cap´ ıtulo 2

Estimaci´n m´ o ınimo cuadr´tica. a
2.1. Obtenci´n de los estimadores de los pao r´metros. a

Si y es un vector N × 1, consideremos H = RN y M = subespacio generado por las columnas de X. Si dotamos a H del producto interno eucl´ ıdeo ′ < v, w > = v w, de las Secciones 1.4 y 1.5 inmediatamente se deduce que el vector en M m´s pr´ximo a y (en el sentido de minimizar la norma al a o cuadrado del vector de residuos ǫ ) es la proyecci´n de y sobre M . Por ˆ o ˆ ⊥ M . Como M es el subespacio consiguiente, ha de verificarse que (y − X β) generado por las columnas de X, ˆ X 0 ⊥ (y − X β) ˆ X 1 ⊥ (y − X β) . . . . . . ˆ X p−1 ⊥ (y − X β) que podemos reunir en la igualdad matricial ˆ X ′ (y − X β) = 0 y de aqu´ se deduce que: ı ˆ X ′X β = X ′y . 15 (2.5) (2.1) (2.2) (2.3) (2.4)

16

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

La igualdad matricial anterior recoge las ecuaciones normales. Si, como suponemos, rango(X) = p, entonces (X ′ X) es de rango completo, y posee inversa. Por tanto, el vector de estimadores de los par´metros ser´: a a ˆ β = (X ′ X)−1 X ′ y . (2.6)

Obs´rvese que el supuesto de rango total de la matriz X —y consiguiene temente de (X ′ X)— es requerido exclusivamente para pasar de (2.5) a (2.6). Las ecuaciones normales se verifican en todo caso, y la proyecci´n de y soo bre M es tambi´n unica (Teorema 1.1, p´g. 8). El defecto de rango en X e ´ a ˆ tiene tan solo por consecuencia que el vector β deja de estar un´ ıvocamente determinado. Volveremos sobre esta cuesti´n al hablar de multicolinealidad. o De (2.6) se deduce tambi´n que, en el caso de rango total, la proyecci´n e o de y sobre M viene dada por PM y = X(X ′ X)−1 X ′ y , y el vector de residuos por ǫ ˆ = = = = ˆ y − Xβ y − X(X ′ X)−1 X ′ y (I − X(X ′ X)−1 X ′ )y (I − PM )y . (2.8) (2.9) (2.10) (2.11) (2.7)

ˆ Observaci´n 2.1 El ser X β proyecci´n de y sobre M garantiza o o sin m´s que a ǫ ˆ ˆ es m´ ınimo. Si hubi´ramos obtenido β derivando e ˆ ˆ yi − β0 xi0 − β1 xi1 − . . . − βp−1 xi,p−1
2

i

e igualando las derivadas a cero (ver Observaci´n 1.3, p´g. 5), obteno a ˆ dr´ ıamos un β del que todo lo que podr´ ıamos afirmar es que corresponde a un punto estacionario de la expresi´n anterior (suma de cuadrados o de los residuos). Para establecer que se trata de un m´ ınimo, habr´ ıamos de tomar a´n segundas derivadas y verificar el cumplimiento de u las condiciones de segundo orden.

ˆ ˆ Podemos ver X β y ǫ como las proyecciones de y sobre dos espacios mutuamente ortogonales: M y M ⊥ . Las matrices PM e (I − PM ) que, para aligerar la notaci´n, denominaremos en lo sucesivo P e (I − P ), sobreentendiendo el o subespacio M , tienen algunas propiedades que detallamos a continuaci´n. o Teorema 2.1 Sean P e (I − P ) las matrices de proyecci´n definidas en el o p´rrafo anterior. Se verifica lo siguiente: a

´ 2.2. UNA OBTENCION ALTERNATIVA 1. Las matrices P e (I − P ) son sim´tricas e idempotentes. e 2. rango(I − P ) = N − p. 3. Se verifica que (I − P )X = 0. ´ Demostracion:

17

El apartado 1) es inmediato. En cuanto a 2), siendo (I − P ) idempotente, su rango coincide con su traza (v´ase Teorema A.1, p´g. 227). Por tanto: e a rango(I − P ) = = = = = traza(I − P ) traza(I) − traza(P ) N − traza[X(X ′ X)−1 X ′ ] N − traza[(X ′ X)−1 X ′ X] N − p. (2.12) (2.13) (2.14) (2.15) (2.16)

El apartado 3), por ultimo, se prueba sin m´s que efectuar el producto ´ a matricial indicado. Es adem´s inmediato si reparamos en que la matriz (I −P ) a proyecta sobre el subespacio M ⊥ , por lo que su producto por cualquiera de los vectores columna de X (pertenecientes a M ) da el vector 0.

2.2.

Una obtenci´n alternativa o

ˆ La obtenci´n del vector de estimadores β en la secci´n precedente tiene o o muchos m´ritos, y no es el menor el de proporcionar intuici´n geom´trica acere o e ca de la soluci´n m´ o ınimo cuadr´tica ordinaria (MCO). Tendremos ocasiones a abundantes de explotar esta intuici´n. o Podemos seguir una v´ alternativa para llegar al mismo resultado: planıa tear el problema en forma de minimizaci´n respecto a β de la expresi´n: o o
N

i=1

(yi − β0 xi0 − β1 xi1 − . . . − βp−1 xi,p−1 )2 ,

(2.17)

tal como suger´ la Observaci´n 2.1. Con notaci´n matricial, el problema ıa o o puede reescribirse as´ ı: m´ (y − X β ) (y − X β ). ın
β ′

(2.18)

18

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

La “suma de cuadrados” anterior es una forma cuadr´tica de matriz unidad. a Haciendo uso de la f´rmula (A.12), p´g. 229, obtenemos las condiciones de o a primer orden 2X ′ (y − X β ) = 0 , (2.19) o equivalentemente X ′ y = (X ′ X)β , (2.20)

que son las ecuaciones normales (2.5). Es f´cil comprobar tomando las segundas derivadas que la soluci´n (o a o soluciones, si hay m´s de una) del sistema de ecuaciones precedente corresa ponde a un m´ ınimo y no a un m´ximo o punto de silla: la matriz de segundas a derivadas (X ′ X) es por construcci´n (semi)definida positiva. o Importa comprobar que esta aproximaci´n al problema, a diferencia de la o que hac´ uso de la noci´n de proyecci´n, deja en la penumbra muchas cosas ıa o o ˆ que son de inter´s: la ortogonalidad del vector de residuos ǫ = y − X β, la e ˆ idempotencia de algunas matrices, etc.

2.3.

Propiedades del estimador m´ ınimo cuaˆ dr´tico β. a

ˆ Notemos que β es un vector aleatorio. Aunque X se mantenga fija — cosa que podemos lograr, pues los valores de los regresores se fijan por el experimentador: recu´rdese los supuestos introducidos en la Secci´n 1.2—, en e o experimentos repetidos obtendremos cada vez un diferente vector y de valores de la variable respuesta. En efecto, cada vez intervendr´n en la formaci´n de a o y diferentes perturbaciones. ˆ El vector β = (X ′ X)−1 X ′ y por tanto es un vector aleatorio: “hereda” su condici´n de tal de y , que a su vez la obtiene de ǫ . Tiene por ello sentido o preguntarse por su vector de valores medios y por su matriz de covarianzas. Recordemos que un estimador γ del par´metro γ se dice insesgado si ˆ a E[ˆ ] = γ. γ En el caso de estimar un vector de par´metros, la condici´n an´loga es a o a ˆ E[β] = β . Recordemos tambi´n que la matriz de covarianzas de un vector aleatorio e ˆ se define por: como β ˆ ˆ ˆ ˆ ′ Σβ = E[β − E(β)][β − E(β)] , ˆ

´ ˆ 2.3. PROPIEDADES DEL ESTIMADOR M´ INIMO CUADRATICO β. 19 ˆ expresi´n que en el caso de ser β insesgado como estimador de β se simplifica o de modo obvio a ′ ˆ ˆ Σ ˆ = E[β − β ][β − β ] .
β

La matriz de covarianzas Σβ tiene en su diagonal principal las varianzas de ˆ ˆ y fuera de la diagonal principal las covarianzas. los componentes del vector β La insesgadez de un estimador es intuitivamente atrayente: supone que no incurrimos en derivas sistem´ticas al estimar el par´metro objeto de ina a ter´s. Si repiti´ramos el mismo experimento muchas veces y promedi´ramos e e a los valores del estimador insesgado obtenidos en cada experimento, esperar´ ıamos que este promedio se acercar´ progresivamente m´s a su objetivo (el a a verdadero valor del par´metro). a ˆ Acontece que el vector de estimadores β disfruta de esta atractiva propiedad de insesgadez. Adicionalmente, dentro de una clase particular de estimadores es el que exhibe menores varianzas en la diagonal principal de Σβ ˆ —y, en este sentido, es el que estima con mayor precisi´n el vector β —. El o siguiente Teorema formaliza y demuestra estas propiedades. Teorema 2.2 Si se verifican los supuestos habituales (Secci´n 1.3, p´g. 5) o a se cumple tambi´n que: e ˆ 1. β es un estimador lineal insesgado de β . ˆ 2. La matriz de covarianzas de β es Σβ = σ 2 (X ′ X)−1 . ˆ ˆ 3. (Gauss-Markov). Si β es el estimador m´ ınimo cuadr´tico ordinario de a ˆ β , cualquier otro estimador β∗ de β que sea lineal e insesgado tiene matriz de covarianzas con elementos diagonales no menores que los de Σβ . ˆ ´ Demostracion: Tomando valor medio en (2.6): ˆ E[β] = E[(X ′ X)−1 X ′ y ] = E[(X ′ X)−1 X ′ (X β + ǫ )] = β + E[(X ′ X)−1 X ′ ǫ ] = β.

20

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

ˆ luego β es insesgado. Por consiguiente, la matriz de covarianzas Σβ tendr´ a ˆ por expresi´n: o ˆ ˆ Σβ = E(β − β )(β − β )′ ˆ = = = = =

E[(X ′ X)−1 X ′ (X β + ǫ ) − β ][(X ′ X)−1 X ′ (X β + ǫ ) − β ]′ E[(X ′ X)−1 X ′ ǫ ][(X ′ X)−1 X ′ ǫ ]′ E[(X ′ X)−1 X ′ ǫ ǫ ′ X(X ′ X)−1 ] (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 σ 2 (X ′ X)−1 .

ˆ ˆ Para demostrar 3), consideremos cualquier estimador β∗ alternativo a β. Dado que restringimos nuestra atenci´n a estimadores lineales, podemos escribir o ˆ β∗ = C Y , siendo C una matriz de orden adecuado. Siempre podremos expresar C as´ ı: C = (X ′ X)−1 X ′ + D. (2.21)

Puesto que nos limitamos a considerar estimadores insesgados, ha de verifiˆ carse: E β∗ = EC Y = β , y por tanto: E[(X ′ X)−1 X ′ + D]Y = β . De aqu´ se ı deduce: E[(X ′ X)−1 X ′ (X β + ǫ ) + D(X β + ǫ )] = β , β + DX β = β, (2.22) (2.23)

dado que Eǫ = 0. Como (2.23) se ha de verificar sea cual fuere β , la insesˆ gadez de β∗ implica DX = 0. ˆ La matriz de covarianzas de β∗ es: Σβ∗ ˆ Pero: ˆ (β∗ − β ) = [(X ′ X)−1 X ′ + D]Y − β (2.25) (2.26) (2.27) = ˆ ˆ E[(β∗ − β )(β∗ − β )′ ]. (2.24)

= [(X ′ X)−1 X ′ + D](X β + ǫ ) − β = [(X ′ X)−1 X ′ + D]ǫ .

donde (2.27) se ha obtenido haciendo uso de DX = 0. Llevando (2.27) a (2.24), obtenemos: Σβ∗ = E{[(X ′ X)−1 X ′ + D]ǫ ǫ ′ [(X ′ X)−1 X ′ + D]′ } ˆ (2.28)

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. que, de nuevo haciendo uso de que DX = 0, se transforma en: Σβ∗ = (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 + σ 2 DID′ ˆ = σ (X X) + σ DD = Σβ + σ 2 DD′ . ˆ
2 ′ −1 2 ′

21

(2.29) (2.30) (2.31)

La matriz DD′ tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostraci´n de o 3). De forma completamente similar se puede demostrar una versi´n ligerao mente m´s general: la estimaci´n lineal insesgada con varianza m´ a o ınima de ˆ ˆ cualquier forma lineal c ′ β es c ′ β, siendo β el vector de estimadores m´ ınimo cuadr´ticos. a

Observaci´n 2.2 La insesgadez de un estimador es una propieo dad en principio atrayente, pero de ning´n modo indispensable. De heu cho, un estimador insesgado de un par´metro puede incluso no existir. a (Para una discusi´n de la condici´n de insesgadez y de sus implicacioo o nes puede verse Lehmann (1983), Cap. 2.) En el Cap´ ıtulo 10 comprobaremos que, en ocasiones, podemos optar con ventaja por utilizar estimadores sesgados.

2.4.

Estimaci´n de la varianza de la perturo baci´n. o

El Teorema 2.2 proporciona la matriz de covarianzas del vector de estiˆ ˆ madores β, Σβ = σ 2 (X ′ X)−1 . Pero mientras que (X ′ X) es conocida, σ 2 es un par´metro que necesita ser estimado. Veamos como hacerlo. a Definici´n 2.1 Denominamos SSE o suma de cuadrados de los residuos al o cuadrado de la norma del vector de residuos, SSE
def

=

ˆ y − Xβ

2

=

ǫ ˆ

2

Teorema 2.3 Una estimaci´n insesgada de la varianza de la perturbaci´n o o viene proporcionada por SSE σ2 = ˆ N −p

22

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

´ Demostracion: Como ˆ X β = P Y = X(X ′ X)−1 X ′ Y , tenemos que ˆ (Y − X β) = (I − P )Y (2.33) (2.34) (2.35) (2.32)

= (I − P )(X β + ǫ ) = (I − P )ǫ ,

y por tanto SSE = Y ′ (I − P )′ (I − P ) Y = ǫ ′ (I − P )′ (I − P ) ǫ . En virtud de la simetr´ e idempotencia de (I − P ), ıa SSE = ǫ ′ (I − P )ǫ = traza ǫ ′ (I − P )ǫ = traza (I − P )ǫ ǫ ′ . Tomando valor medio en (2.38) tenemos: E(SSE) = traza(I − P )(σ 2 I) = σ 2 (N − p). (2.39) (2.36) (2.37) (2.38)

(El ultimo paso ha hecho uso de la propiedad traza(I − P ) = N − p, Teorema ´ 2.1, p´g. 16.) De (2.39) se deduce entonces que a E
def

SSE = σ2 N −p

y σ 2 = SSE/(N − p) es por tanto un estimador insesgado de σ 2 . ˆ

Observaci´n 2.3 En lo que sigue, SSE denotar´ tanto la variao a
ble aleatoria definida m´s arriba como su valor en una experimentaci´n a o concreta, contra la convenci´n habitual con otras variables en que se o emplean min´sculas para denotar sus valores en una experimentaci´n. u o El contexto aclarar´ si nos estamos refiriendo a una variable aleatoria a o a un valor experimental de la misma.

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. Observaci´n 2.4 El Teorema 2.3 muestra que para obtener una o
estimaci´n insesgada de la varianza de la perturbaci´n debemos dividir o o la suma de cuadrados de los residuos, no entre el n´mero de residuos N , u sino entre los grados de libertad N − p. Que el n´mero de par´metros u a estimado debe tomarse en consideraci´n en el denominador del estio mador es intuitivamente plausible. Despu´s de todo, si aument´ramos e a el n´mero de regresores (y par´metros estimados) p hasta que p = N , u a SSE ser´ id´nticamente cero. (Estar´ ıa e ıamos ante un problema sin grados de libertad.) Sin llegar a este extremo, es claro que aumentando el n´mero de regresores incrementamos nuestra capacidad de aproxiu mar y (y de reducir SSE), y esto ha de ser contrapesado reduciendo tambi´n el denominador. e

23

Observaci´n 2.5 El Teorema 2.3 subsume y ampl´ un resultao ıa do que habitualmente aparece sin demostraci´n en los cursos elemeno tales de Estad´ ıstica: un estimador insesgado de la varianza de una poblaci´n, dada una muestra i.i.d. de la misma, viene dada por o
σ2 = ˆ
N i=1 (Yi

− Y )2 . N −1

(2.40)

Este resultado puede obtenerse como caso particular del Teorema 2.3 si reparamos en lo siguiente: podemos imaginar las Yi como generadas por Y i = β0 + ǫ i , en que β0 es la media y ǫi una perturbaci´n de media cero y misma o varianza que Yi . Si regres´ramos las observaciones Y1 , . . . , YN sobre a una columna de “unos”, 1 , el unico par´metro estimado ser´ ´ a ıa:
′ ′ ˆ β0 = (X ′ X)−1 X ′ Y = (1 1 )−1 1 Y = N −1 N

Yi = Y
i=1

El mejor ajuste que puede hacerse de las Yi en t´rminos de este unico e ´ ˆ regresor es β0 1 y la suma de cuadrados de los residuos es por tanto N N 2 ˆ 2 o i=1 (Yi − Y ) . La expresi´n (2.40) coincide por i=1 (Yi − β0 1 ) = tanto, en este caso particular, con la dada por el Teorema 2.3.

R: Ejemplo 2.1 (c´lculo de los estimadores MCO) a
El siguiente listado crea artificialmente una matriz X y el vector respuesta y . A continuaci´n, realiza la regresi´n de dos formas. En la o o primera, se realizan los c´lculos de modo expl´ a ıcito. En la segunda, se recurre a la funci´n lsfit predefinida en R, que simplifica consideo rablemente el trabajo. Existen funciones alternativas m´s avanzadas a que se introducen m´s adelante. a

24

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.
Al margen de la comodidad, lsfit realiza los c´lculos de un modo a mucho m´s eficiente en tiempo y estable num´ricamente que el sugea e rido por la teor´ no se invierte la matriz (X ′ X) sino que se emplea ıa: la factorizaci´n QR (ver Secci´n D.2, p´g. 243, o Lawson and Hano o a son (1974)). Se trata de detalles que no necesitan preocuparnos por el momento. Generamos en primer lugar los datos y realizamos la estimaci´n aplicando la teor´ de modo m´s directo. Primero, la matriz o ıa a de dise˜o, n > X <- matrix(c(1, 1, 1, 1, + 1, 1, 1, 4, 12, 1, 4, + 13, 0, 6, 7, 0, 2, 2), + 6, 3) > X [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2

[1,] [2,] [3,] [4,] [5,] [6,]

A continuaci´n, fijamos un vector β o > beta <- c(2, 3, 4)

Finalmente, generamos los valores de la variable respuesta del modo que prescribe el modelo lineal: > y <- X %*% beta + rnorm(6) (La funci´n rnorm(n) genera n variables aleatorias N (0, 1).) A contio nuaci´n, obtenemos los estimadores resolviendo las ecuaciones normao les (2.5), p´g, 15. Se muestran varias formas alternativas de hacerlo. a Podemos por ejemplo escribir > b <- solve(t(X) %*% X, t(X) %*% + y) > b

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.
[,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329

25

(la funci´n solve(A,b) proporciona una soluci´n, si existe, del sisteo o ma de ecuaciones lineales Ax = b ). Una forma m´s r´pida de calcular a a ′ ′ (X X) y X y la proporciona la funci´n crossprod. Podr´ o ıamos sustituir lo anterior por > b <- solve(crossprod(X), + crossprod(X, y)) > b [,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329

Podemos tambi´n escribir: e > XXinv <- solve(crossprod(X)) > b <- XXinv %*% crossprod(X, + y) > b [,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329

Hemos obtenido separadamente (X ′ X)−1 (que puede servirnos para estimar la matriz de covarianzas de los estimadores, σ 2 (X ′ X)−1 ). La ˆ funci´n solve con un unico argumento matricial proporciona la matriz o ´ ˆ inversa. De cualquiera de las maneras que calculemos β, la obtenci´n o de los residuos es inmediata: > e <- y - X %*% b > e

26

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.
[,1] 0.42097 -0.29124 0.15416 -0.61805 0.53689 -0.20272

[1,] [2,] [3,] [4,] [5,] [6,]

Podemos comprobar la ortogonalidad de los residuos a las columnas de la matriz X: > t(e) %*% X [,1] [,2] [1,] -2.6379e-13 -8.3933e-13 [,3] [1,] -5.9686e-13 > crossprod(e, X) [,1] [,2] [1,] -2.6379e-13 -8.3933e-13 [,3] [1,] -5.9686e-13 > round(crossprod(e, X)) [1,] [,1] [,2] [,3] 0 0 0

La suma de cuadrados de los residuos y una estimaci´n de la varianza o de la perturbaci´n pueden ahora obtenerse con facilidad: o > s2 <- sum(e * e)/(nrow(X) + ncol(X)) > s2 [1] 0.33238 Fin del ejemplo

R: Ejemplo 2.2 Todos los c´lculos anteriores pueden hacerse a con mucha mayor comodidad mediante funciones de regresi´n especiao lizadas. Por ejemplo,

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.
> ajuste <- lsfit(X, y, intercept = FALSE) hace todo lo anterior y algunas cosas m´s de modo mucho m´s efia a ciente. La funci´n lsfit (least squares fit) devuelve una lista u objeo to compuesto conteniendo en sus componentes los estimadores de los par´metros, los residuos y algunos resultados auxiliares asociados al a m´todo de c´lculo empleado (la factorizaci´n QR aludida m´s arriba). e a o a Ve´moslo: a > ajuste $coefficients X1 X2 X3 2.3517 2.8129 4.2329 $residuals [1] 0.42097 -0.29124 0.15416 [4] -0.61805 0.53689 -0.20272 $intercept [1] FALSE $qr $qt [1] -75.33003 [4] -0.66854 $qr [1,] [2,] [3,] [4,] [5,] [6,] [1,] [2,] [3,] [4,] [5,] [6,] X1 X2 -2.44949 -14.28869 0.40825 11.95129 0.40825 -0.63322 0.40825 0.28718 0.40825 0.03616 0.40825 -0.71690 X3 -6.940221 3.583992 -5.655823 -0.375532 -0.004607 0.047314

27

48.78812 -23.94068 0.42874 -0.60529

28

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.
$qraux [1] 1.4082 1.0362 1.9256 $rank [1] 3 $pivot [1] 1 2 3 $tol [1] 1e-07 attr(,"class") [1] "qr" > resid <- ajuste$residuals > resid [1] 0.42097 -0.29124 0.15416 [4] -0.61805 0.53689 -0.20272 El argumento intercept=FALSE indica a la funci´n lsfit que no deo be agregarse a la matriz de dise˜o X una columna de “unos” (porque n ya figura entre los regresores). Ordinariamente ello no suceder´, y poa dremos prescindir de especificar el argumento intercept, con lo que tomar´ el valor por omisi´n TRUE. a o Fin del ejemplo

2.5.

El coeficiente R2

e en que y denota la media aritm´tica de las observaciones en y . Definamos: SST = SSR = y −y ˆ Xβ − y
2 2

Hay una relaci´n interesante entre SSE y otras dos sumas de cuadrados o que definimos a continuaci´n. Sea y el vector N × 1 siguiente: o   y y    y = . . . y

2.5. EL COEFICIENTE R2 ˆ Figura 2.1: X β es la proyecci´n de y sobre M . R2 = cos2 α o

29

y ǫ ˆ

ˆ Xβ y

Se verifica entonces el Teorema a continuaci´n. o Teorema 2.4 Si y pertenece al subespacio M generado por las columnas de la matriz X —lo que acontece, por ejemplo, siempre que dicha matriz tiene una columna de “unos”—, se verifica: SST = SSR + SSE ´ Demostracion: SST = y −y
2 2

(2.41)

(2.42)

ˆ ˆ = y − Xβ + Xβ − y (2.43) ˆ ˆ ˆ + (X β − y), (y − X β) + (X β − y) > ˆ (2.44) = < (y − X β) 2 2 ˆ ˆ ˆ ˆ = y − X β + X β − y + 2 < y − X β, X β − y >(2.45) ˆ ˆ Pero si y ∈ M, (X β − y) ∈ M , y como quiera que ǫ = (y − X β) ⊥ M , el ˆ ultimo producto interno es nulo. Por consiguiente (2.45) se reduce a (2.41). ´ Definimos R2 = SSR/SST ; se denomina a R coeficiente de correlaci´n o 2 m´ltiple. Claramente, 0 ≤ R ≤ 1, siempre que X contenga una columna u

30

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

constante, ya que de (2.41) se obtiene: SST SSR SSE = + , SST SST SST luego 1 = R2 + SSE , y como ambos sumandos son no negativos (son cocientes SST de sumas de cuadrados), R2 necesariamente ha de tomar valores entre 0 y 1. La igualdad (2.41) es f´cil de visualizar con ayuda de la ilustraci´n esa o quem´tica en la Fig. 2.1; es una generalizaci´n N -dimensional del teorema a o de Pit´goras. Obs´rvese que si y no perteneciera a M , que hemos representaa e ˆ do como el plano horizontal, ya no podr´ asegurarse que ǫ y (X β − y) son ıa ˆ ortogonales. Observaci´n 2.6 En la Figura 2.1 puede visualizarse R2 como o
el coseno al cuadrado del ´ngulo que forman los vectores (y − y) y a ˆ − y). Un valor “peque˜o” de R2 significa que este coseno es “pe(X β n que˜o”, y el ´ngulo correspondiente “grande”; es decir, que y est´ muy n a a elevado sobre el plano M . Por el contrario, R2 grande implica que el a ´ngulo referido es peque˜o, y que y est´ pr´ximo a su proyecci´n en n a o o M. ˆ de “unos”, obtenemos un unico coeficiente de regresi´n estimado, β0 ´ o o o a que resulta ser igual a y (se comprob´ en la Observaci´n 2.5, p´g. 23). SST puede interpretarse como la suma de cuadrados de los residuos de este modelo m´ ınimo. Si regresamos y sobre varios regresores incluyendo la columna de “unos” obtenemos una suma de cuadrados de los residuos igual a SSE que nunca puede ser superior a SST . En efecto: al a˜adir regresores el n ajuste no puede empeorar (¿por qu´?). El coeficiente R2 puede verse e como una medida de la mejora en el ajuste atribuible a los regresores distintos de la columna de “unos”. En efecto, el numerador de R2 es SST −SSE, diferencia de suma de cuadrados entre el modelo ampliado y el m´ ınimo. El denominador SST meramente normaliza el numerador anterior para que tome valores entre 0 y 1. Un valor “grande” de R2 podemos interpretarlo como una mejora sustancial del modelo m´ ınimo al incluir regresores distintos de la columna de “unos”. Obs´rvese que para que esta interpretaci´n sea e o v´lida, uno de los modelos (el m´ a ınimo) ha de estar anidado en el otro, es decir, su unico regresor (la columna de “unos”) ha de estar entre los ´ regresores del otro.

Observaci´n 2.7 Si regresamos y solamente sobre una columna o

Observaci´n 2.8 Si ajustamos un modelo sin columna de “unos” o
podemos encontrarnos con que R2 definido como en el Teorema 2.4

2.6. ALGUNOS LEMAS SOBRE PROYECCIONES.
puede ser menor que cero. Es f´cil de entender: puede que los regresores a ensayados no den cuenta de la variabilidad de y , y SSE sea por tanto grande. Si acontece que y tiene poca variabilidad en torno a su media, SST ser´ en cambio peque˜o, y SST − SSE puede f´cilmente ser a n a negativo.

31

Observaci´n 2.9 Cuando no hay columna de “unos” algunos o programas de ordenador autom´ticamente sustituyen SST por a
||y ||2 (suma de cuadrados de las desviaciones respecto del origen en lugar de respecto a la media). Ello da lugar a una definici´n alternativa de o 2 que evita que pueda ser negativa. R

2.6.

Algunos lemas sobre proyecciones.

Los siguientes resultados, de muy sencilla prueba en la mayor´ de los ıa casos, resultan utiles en demostraciones posteriores. ´ Lema 2.1 Sea H un espacio vectorial, y M un subespacio. Todo y ∈ H tiene expresi´n unica en la forma: y = u + v, con u ∈ M y v ∈ M ⊥ . o ´ ´ Demostracion: Es una consecuencia inmediata de la unicidad de la proyecci´n (Teoreo ma 1.1, p´g. 8). a

Lema 2.2 Prefijadas las bases en H y M ⊆ H, la aplicaci´n lineal que o proyecta sobre M tiene por asociada una unica matriz PM . ´ ´ Demostracion: Es una especializaci´n del resultado seg´n el cual, prefijadas las bases o u en ambos espacios, la matriz que representa una aplicaci´n lineal de uno o en otro es unica. La proyecci´n es una aplicaci´n lineal (v´ase soluci´n al ´ o o e o Ejercicio 1.14).

32

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

Lema 2.3 La matriz de proyecci´n sobre M puede ser expresada as´ o ı: PM = T T ′ , siendo T una matriz cuyas columnas forman una base ortonormal de M ⊂ H. ´ Demostracion: Sea N la dimensi´n de H y p la dimensi´n de M . Sea v1 , . . . , vp una base o o de M formada por vectores ortonormales, y T la matriz N × p siguiente:

T = v1 | v2 | . . . | vp Siempre podemos completar {v1 , . . . , vp } con N − p vectores adicionales {vp+1 , . . . , vN } hasta obtener una base de H (v´ase por ej. Grafe (1985), p´g. e a 79). Adem´s, los N −p vectores adicionales pueden tomarse ortogonales entre a s´ y a los de T , y normalizados (por ejemplo, utilizando el procedimiento de ı ortogonalizaci´n de Gram-Schmidt; v´ase Grafe (1985), p´g. 93). Entonces, o e a para cualquier y ∈ H tendremos:
p N

y =
i=1

ci vi
∈M

+
j=p+1

cj vj ,
∈M ⊥

(2.46)

siendo ci (i = 1, . . . , N ) las coordenadas de y en la base escogida. Premultiplicando ambos lados de (2.46) por vi ′ (i = 1, . . . , p), obtenemos:
N N

vi y

= vi

′ j=1

cj vj =
j=1

cj (vi ′ vj ) = ci ,

(2.47)

en virtud de la ortonormalidad de los vectores {vi }. Entonces, u = PM y puede escribirse as´ ı:

2.6. ALGUNOS LEMAS SOBRE PROYECCIONES.

33

u = PM y
p

=
i=1

(vi ′ y )vi   v1 ′ y  v2 ′ y     .   .  .

=

v1 | v2 | · · ·

| vp

=

v1 | v2 | · · ·

| vp

= T T ′y

vp ′ y   v1 ′  v2 ′     . y  .  . vp ′

Lema 2.4 La matriz PM es sim´trica idempotente. e ´ Demostracion: La matriz PM es unica (Lema 2.2) y puede expresarse siempre como T T ′ ´ (Lema 2.3). Entonces:
′ PM = (T T ′ )′ = T T ′ = PM PM PM = T T ′ T T ′ = T (T ′ T )T ′ = T T ′ = PM .

Lema 2.5 Denotamos por R(C) el subespacio generado por las columnas de C, siendo C una matriz cualquiera. PM denota la matriz de proyecci´n sobre o un cierto subespacio M . Entonces: R(PM ) = M.

34

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

´ Demostracion: Claramente R(PM ) ⊆ M . Por otra parte, para todo x ∈ M , PM x = x =⇒ M ⊆ R(PM ).

Lema 2.6 Si PM es la matriz asociada al operador de proyecci´n sobre M , o (I −PM ) es sim´trica, idempotente, y est´ asociada al operador de proyecci´n e a o ⊥ sobre M . ´ Demostracion: Es consecuencia inmediata de los Lemas 2.1 y 2.4.

Lema 2.7 Toda matriz sim´trica idempotente P representa una proyecci´n e o ortogonal sobre el subespacio generado por las columnas de P . ´ Demostracion: Consideremos la identidad y = P y + (I − P )y . Claramente, (I − P )y ⊥ P y y adem´s (I − P )y = y − P y es ortogonal a P y . Por tanto, P y es a proyecci´n de y sobre un cierto subespacio, que, de acuerdo con el Lema 2.5, o es el generado por las columnas de P .

Definici´n 2.2 Sea D una matriz cualquiera, de orden m × n. Decimos que o D− es una pseudo-inversa (o inversa generalizada) de D si: DD− D = D (2.48)

En general, D− as´ definida no es unica. En el caso particular de que D ı ´ sea una matriz cuadrada de rango completo, D− = D−1 . Lema 2.8 Sea D una matriz m × n cualquiera. Sea c una matriz m × 1 y z un vector de variables. Si el sistema: Dz = c (2.49)

es compatible, una soluci´n viene dada por z = D− c, siendo D− una pseudoo inversa.

2.6. ALGUNOS LEMAS SOBRE PROYECCIONES. ´ Demostracion: De (2.48) deducimos: DD− Dz = c y sustituyendo (2.49) en (2.50): DD− c = c D(D− c) = c lo que muestra que D− c es soluci´n de (2.49). o

35

(2.50)

(2.51) (2.52)

En realidad, es posible probar un resultado algo m´s fuerte1 ; toda soluci´n a o − − de (2.49) puede expresarse como D c para alguna elecci´n de D . o Lema 2.9 Si M = R(X), entonces PM = X(X ′ X)− X ′ . ´ Demostracion: Sea y un vector cualquiera. Su proyecci´n sobre R(X) ha de ser de la o ˆ forma X β, y verificar las ecuaciones normales (2.5) en la p´g. 15: a ˆ X ′X β = X ′y (2.53)

ˆ Identificando D = X ′ X, z = β, y c = X ′ y, el lema anterior garantiza que − ′ ˆ (X X) X y ser´ una posible soluci´n para β (no necesariamente unica, ya a o ´ ′ − que hay m´ltiples (X X) en general); no obstante, X(X ′ X)− X ′ y es la unica u ´ ′ − ′ proyecci´n de y sobre M , y X(X X) X es la unica matriz de proyecci´n. La o ´ o unicidad de la proyecci´n se demostr´ en el Teorema 1.1, p´g. 8. La unicidad o o a de la matriz de proyecci´n, fue objeto del Lema 2.2. o

Como se ha indicado, hay en general m´ltiples inversas generalizadas D− , u cada una de las cuales da lugar a una diferente soluci´n del sistema (2.51)– o (2.52).
1

Cf. Searle (1971), Teorema 8, p´g. 26. a

36

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

2.7.

Lectura recomendada

Sobre la teor´ ıa. Seber (1977), Cap. 3 cubre completamente la materia de este cap´ ıtulo. Para las cuestiones de ´lgebra matricial, proyecciones, etc. a Draper and Smith (1998) tiene un cap´ ıtulo completo (el 20) mostrando el problema de la estimaci´n MCO desde un punto de vista geom´trico, similar o e al empleado aqu´ Searle (1982), Searle (1971) y Abadir and Magnus (2005) ı; son buenas referencias. Sobre matrices inversas generalizadas, en particular, pueden verse, adem´s de Searle (1982), Ben-Israel and Greville (1974) y Rao a and Mitra (1971). Sobre R. Son de utilidad las referencias indicadas en el Cap´ ıtulo precedente. Como se indic´, hay mucha documentaci´n on line sobre R, como o o Venables et al. (1997) (hay traducci´n castellana, Venables et al. (2000), un o poco desfasada), Maindonald (2000) o Kuhnert and Venables (2005); una relaci´n actualizada puede obtenerse en http://cran.r-project.org/. o

2.7. LECTURA RECOMENDADA Complementos y ejercicios
ˆ 2.1 ¿Que efecto tienen sobre los estimadores β cambios en la escala de los regresores en X?. Demu´strese. e

37

2.2 Haciendo uso del mismo argumento empleado (en (2.39), p´g. 22) para mostrar que SSE/(N − p) es un estimador insesgado de a σ 2 , compru´bese que, dada una muestra aleatoria simple Z1 , . . . , Zn , e el estimador de la varianza
2 σZ =

1 n

n i=1

(Zi − Z)2

no es insesgado.

2.3 Exti´ndase el teorema de Gauss-Markov, para probar la afire maci´n hecha al final de la Secci´n 2.4 (p´g. 21): si c ′ β es cualquier o o a forma lineal, en el caso de rango completo el estimador insesgado de ˆ varianza m´ ınima de c ′ β es c ′ β. 2.4 La Definici´n 2.2, p´g. 34, no individualiza una unica invero a ´
sa generalizada, salvo cuando D es cuadrada de rango completo. Las siguientes condiciones, la primera de las cu´les coincide con (2.48), a proporcionan una unica definici´n de inversa generalizada (la inversa ´ o de Moore-Penrose): DD− D = D; D − DD− = D − ; D − D y DD− sim´tricas. e

A la unica matriz D − as´ especificada se la denomina inversa de Moore´ ı Penrose. Sobre inversas generalizadas e inversas de Moore-Penrose puede consultarse Searle (1971) y Rao and Mitra (1971)

2.5 (↑ 2.4) Cuando la funci´n lsfit de R encuentra una matriz o de dise˜o de rango incompleto, proporciona no obstante una soluci´n n o ˆ ˆ de β, haciendo un c´mputo en esencia equivalente a β = (X ′ X)− X ′ y . o Podemos llevar a cabo el c´lculo de la inversa generalizada de Moorea Penrose mediante la funci´n ginv del paquete MASS (asociado al libro o Venables and Ripley (1999a))
> library(MASS) > XX <- matrix(c(2, 0, 0, 0), + 2, 2) > XX

38

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.
[,1] [,2] [1,] 2 0 [2,] 0 0 > XXig <- ginv(XX) > XXig [,1] [,2] [1,] 0.5 0 [2,] 0.0 0 Observemos que las condiciones que definen a la inversa de MoorePenrose se verifican. > XX %*% XXig %*% XX [1,] [2,] [,1] [,2] 2 0 0 0

> XXig %*% XX %*% XXig [1,] [2,] [,1] [,2] 0.5 0 0.0 0

> XXig %*% XX [,1] [,2] [1,] 1 0 [2,] 0 0 > XX %*% XXig [,1] [,2] [1,] 1 0 [2,] 0 0

2.6 (↑ 1.13) Resu´lvase el problema 1.13, p´g. 13, haciendo uso e a
de regresi´n lineal. (Ayuda: basta normalizar el primer vector y reo gresar el segundo sobre ´l. El vector de residuos de esta regresi´n es e o ortogonal al primero.)

2.7 (↑ 2.6) Escr´ ıbase una funci´n en R que resuelva el probleo ma 2.6 de un modo completamente general: debe admitir como unico ´ argumento una matrix de rango completo cuyas columnas contengan los vectores a ortonormalizar, y devolver una matrix de las mismas dimensiones cuyas columnas sean los vectores ortonormalizados.

2.7. LECTURA RECOMENDADA 2.8 Justif´ ıquese la afirmaci´n hecha en la Observaci´n 2.7, p´g. 30, o o a
de acuerdo con la cual el ajuste, medido en t´rminos de SSE, no puede e empeorar al a˜adir regresores. n

39

2.9 ¿Cu´ndo incluir y cu´ndo no una columna de “unos”? En a a general, siempre convendr´ hacerlo. Las unicas situaciones en que no a ´ ser´ conveniente son aqu´llas en que la columna de unos crear´ una a e ıa dependencia lineal exacta entre las columnas de la matriz X. El no incluir columna de “unos” fuerza a la recta (o hiperplano) de regresi´n a pasar por el origen. Salvo que haya buenos motivos para o ello, no querremos forzar tal cosa en nuestra regresi´n, especialmente o si, como sucede en multitud de ocasiones, el origen es arbitrario. 2.10 (↑ 2.1)(↑ 2.9) Pensemos en la siguiente situaci´n: un inveso tigador est´ interesado en dilucidar si la velocidad de sedimentaci´n a o de un fluido (y, medida en unidades adecuadas) est´ influida por la a temperatura (X1 , medida en grados cent´ ıgrados). Cuenta con las siguientes observaciones:     5,8 −10 4,7 −6,2     4,9 y =  X1 = −2,5   3,8  3,0  2,1 4,6
Imaginemos que ajusta una regresi´n a dichos datos. Los resultados o pueden verse en el siguiente fragmento en R: > + > + > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(X, y, intercept = FALSE) ajuste$coefficients

X -0.44798 El coeficiente que afecta a la unica variable es negativo (= −0,447984), ´ lo que estar´ ıamos tentados de interpretar as´ por cada grado que auı: menta la temperatura, disminuye en 0.447984 la velocidad de sedimentaci´n. (Quedar´ por ver si la estimaci´n del coeficiente de regresi´n o ıa o o es de fiar, cuesti´n que abordaremos m´s adelante.) o a Supongamos ahora que otro investigador repite el mismo an´lisis, a pero en lugar de expresar las temperaturas en grados cent´ ıgrados (C)

40

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.
lo hace en grados Fahrenheit (F) cuya relaci´n con los cent´ o ıgrados 5 9 viene dada por C = 9 (F −32) (⇒ F = 5 C +32). Los c´lculos, siempre a haciendo una regresi´n pasando por el origen, ser´ ahora: o ıan > + > + > > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) X <- (9/5) * X + 32 ajuste <- lsfit(X, y, intercept = FALSE) ajuste$coefficients

X 0.12265 ¡Ahora el coeficiente afectando a la variable temperatura es positivo, dando la impresi´n de una asociaci´n directa entre temperatura o o y velocidad de sedimentaci´n! Claramente, tenemos motivo para preoo cuparnos si llegamos a conclusiones diferentes dependiendo de nuestra elecci´n de los sistemas de medida —enteramente convencionales o ambos—. El problema desaparece si incluimos una columna de unos en ambos an´lisis, para dar cuenta de los diferentes or´ a ıgenes. > + > + > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(X, y) ajuste$coefficients X -0.20667

Intercept 3.80119

> X <- (9/5) * X + 32 > ajuste <- lsfit(X, y) > ajuste$coefficients Intercept 7.47538 X -0.11482

> ajuste$coefficients[2] * + (9/5) X -0.20667

2.7. LECTURA RECOMENDADA
Los coeficientes de X no son ahora iguales (porque los grados Fahrenheit son m´s “peque˜os”), pero si relacionados por un factor de a n escala y dar´ lugar a la misma conclusi´n de asociaci´n inversa enıan o o tre ambas magnitudes. La inversi´n del signo del coeficiente se explica o comparando en la Figura 2.2 los puntos muestrales (en escalas comparables) y las respectivas rectas de regresi´n. Dichas rectas de regresi´n o o y las gr´ficas se han generado mediante a > + + > > + > + > > > > + > > > > > > + > > > > postscript(file = "demo2d.eps", horizontal = FALSE, width = 5, height = 10) par(mfcol = c(2, 1)) y <- c(5.8, 4.7, 4.9, 3.8, 2.1) C <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(C, y, intercept = FALSE) par(xlim = c(-25, 5)) par(ylim = c(-0.5, 6)) plot(C, y, ylim = c(-0.5, 6), xlim = c(-25, 5)) title(main = "Ajuste en grados centigrados") abline(a = 0, b = ajuste$coefficients) text(x = 0, y = 0, labels = "(0,0)") F <- (9/5) * C + 32 ajuste <- lsfit(F, y, intercept = FALSE) plot(F, y, ylim = c(-0.5, 6), xlim = c(-13, 41)) title(main = "Ajuste en grados Fahrenheit") text(x = 0, y = 0, labels = "(0,0)") abline(a = 0, b = ajuste$coefficients) scratch <- dev.off()

41

Puede verse que el forzar a ambas a pasar por el origen las obliga a tener pendiente de signo opuesto para aproximar la nube de puntos.

42

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

Figura 2.2: En un ajuste sin t´rmino constante, la pendiente depende de la e elecci´n arbitraria del origen o

Ajuste en grados centigrados
6 y 1 2 3 4 5

(0,0)

0 −25

−20

−15

−10 C

−5

0

5

Ajuste en grados Fahrenheit
6 y 1 2 3 4 5

(0,0)

0 −10

0

10 F

20

30

40

Cap´ ıtulo 3

Identificaci´n. Colinealidad o exacta

3.1.

Modelos con matriz de dise˜ o de rango n deficiente.

Uno de los que hemos llamado supuestos habituales (Secci´n 1.3, p´g. 5, o a apartados 1 a 3) es que el rango de la matriz de dise˜o X coincide con n el n´mero de sus columnas, p. Cuando ´sto no ocurre, sigue habiendo una u e unica proyecci´n de y sobre M = R(X), tal como ha quedado demostrado. ´ o (Recu´rdese que R(X) designa el subespacio generado por las columnas de e ˆ X.) Ocurre sin embargo (Lema 2.9) que β = (X ′ X)− X ′ y no es unico. ´ La Figura 3.1 resulta iluminante a este respecto; el plano horizontal representa M , y en ´l yacen los vectores X0 , . . . , Xp−1 que lo generan. La proyecci´n e o ˆ es unica. Si X0 , . . . , Xp−1 son linealmente independientes, forman base Xβ ´ ˆ ˆ del espacio que generan, y los coeficientes β0 , . . . , βp−1 que permiten expresar PM y como combinaci´n lineal de dichos vectores son unicos. o ´ Si, como acontece en el caso de rango deficiente de la matriz X, los vectores X0 , . . . , Xp−1 no son linealmente independientes, hay infinidad de maneras de expresar PM y como combinaci´n lineal de ellos. No hay por tanto o una unica estimaci´n m´ ´ o ınimo cuadr´tica del vector β . Se dice que hay mula ticolinealidad exacta entre las columnas de la matriz de dise˜o X. n 43

44

´ CAP´ ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA Figura 3.1: Regresi´n en el caso de matrix X de rango deficiente. o

y

X p−1

ˆ Xβ

X1 X0

Una matriz de dise˜o de rango deficiente es demasiado “pobre” para desn lindar todos los efectos de inter´s: no podemos con la informaci´n disponible e o deslindar la relaci´n de cada uno de los regresores con la variable respuesta, o pero puede ocurrir que si lo podamos deslindar con algunos. El Ejemplo 3.1 a continuaci´n lo ilustra. o Ejemplo 3.1 Imaginemos una matriz de dise˜o como n
 1 1  2  2  1 1 2 2 4 4 2 2  3 5  1 . 7  8 4

Observemos que la primera columna, X0 , es igual a la segunda, X1 , dividida entre dos. La Figura 3.2 ilustra una situaci´n similar. Puede o verse que X0 y X1 yacen uno sobre otro, difiriendo s´lo en el m´dulo. o o En un caso as´ la proyecci´n, PM y , puede expresarse de manera ı, o unica como combinaci´n lineal de X 2 y uno de los vectores X 0 ´ X 1 . ´ o o Podemos estimar β2 , pero no β0 ´ β1 : no es posible adscribir a uno de o ellos la “parte” de PM y colineal con la direcci´n com´n de X 0 y X 1 . o u

3.2. FUNCIONES ESTIMABLES.

45

Figura 3.2: Caso de un vector β parcialmente estimable.

y

X2 X0 X1 PM y

Fin del ejemplo

La noci´n de funci´n estimable a continuaci´n permite caracterizar situao o o ciones como la mostrada en el ejemplo anterior.

3.2.

Funciones estimables.

ˆ ıvocamente Incluso aunque el vector β no sea estimable por no estar β un´ determinado, puede haber algunos par´metros o combinaciones lineales de a par´metros que s´ puedan estimarse. a ı Definici´n 3.1 Decimos que una funci´n lineal de los par´metros a ′ β es o o a estimable si existe un vector c de constantes tal que: E[c ′ Y ] = a ′ β El Teorema a continuaci´n permite caracterizar las funciones estimables. o Teorema 3.1 La funci´n lineal a ′ β es estimable si a ∈ R(X ′ ). o

46

´ CAP´ ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA

´ Demostracion: a ′β = E[c ′ Y ] = E[c ′ (X β + ǫ )] = c ′ X β (3.1)

Como (3.1) ha de verificarse para cualesquiera valores de β , ha de existir c tal que: c ′ X = a ′ , lo que demuestra que a ∈ R(X ′ ).

Observaci´n 3.1 El teorema anterior incluye como caso partio cular el de par´metros aislados, βi . En efecto, podemos ver βi como la a funci´n lineal e ′ i+1 β , en que e i es un vector de ceros con un 1 en posio ci´n i–´sima. Entonces, βi es estimable si e i ∈ R(X ′ ). La totalidad de o e los par´metros ser´n estimables si {e 1 , . . . , e p } (que son linealmente a a independientes) est´n en R(X ′ ). Esto requiere que la dimensi´n de a o R(X ′ ) sea p, es decir, que X sea de rango completo. Observaci´n 3.2 El enunciado del Teorema 3.1 tiene gran cono tenido intuitivo. Son estimables aqu´llas combinaciones lineales de los e par´metros cuyos coeficientes coinciden con los dados por filas de X. a En efecto, si queremos estimar a ′ β y a ′ coincide con la j-´sima fila e xj ′ de la matriz X, es claro que Yj ser´ un estimador insesgado de ıa a ′ β , pues:
E[Yj ] = E[xj ′ β + ǫj ] = E[a ′ β + ǫj ] = a ′ β . De manera an´loga se demuestra que si a puede expresarse como a combinaci´n lineal de filas de X, la combinaci´n lineal an´loga de o o a observaciones en el vector Y es un estimador insesgado de a ′ β .

3.3.

Restricciones de identificaci´n. o

Hemos visto que la inestimabilidad de los par´metros es consecuencia de a la indeterminaci´n del sistema de ecuaciones normales: o ˆ (X ′ X)β = X ′ y Si contamos con informaci´n adicional sobre β que podamos imponer sobre o ˆ el vector de estimadores β, podemos a˜adir al anterior sistema ecuaciones n adicionales que reduzcan o resuelvan la indeterminaci´n. Por ejemplo, si suo pi´ramos que Aβ = c, podr´ e ıamos formar el sistema: ˆ (X ′ X)β = X ′ y ˆ Aβ = c (3.2) (3.3)

´ 3.3. RESTRICCIONES DE IDENTIFICACION.

47

y, dependiendo del rango de X ′ X y A, obtener estimaciones unicas de β . Se ´ ˆ = c son restricciones de identificaci´n. dice entonces que las relaciones Aβ o Ejemplo 3.2 Retomemos el Ejemplo 3.1. Vimos que β era parcialmente estimable, y que el problema resid´ en que la componente ıa de PM y colineal con la direcci´n (com´n) de X0 y X1 no puede ser o u “distribuida” entre ambos. Si, no obstante, supi´ramos que β0 = 1, el e problema dejar´ de existir. Por tanto, Aβ = 1 con ıa
A= 1 0 0 es una restricci´n de identificaci´n. o o Fin del ejemplo

Una matriz de dise˜o de rango incompleto se puede presentar por falta de n cuidado al dise˜ar el experimento, pero, m´s frecuentemente, es intencional. n a El Ejemplo 3.1 ilustra este punto. R: Ejemplo 3.1 Supongamos que se investiga el efecto de tres diferentes tratamientos t´rmicos sobre la dureza de un acero. Podemos e pensar en el modelo:
Y = β1 X1 + β2 X2 + β3 X3 + ǫ; (3.4)

Habremos de realizar mediciones de la dureza con varias probetas de acero elaborado con los distintos tratamientos, y estimar dicho lmodelo. La variable explicativa o regresor i-´simo tomar´ el valor e a 1 cuando se emplee el tratamiento i-´simo, y cero en caso contrario. e Con esta especificaci´n βi , (i = 1, 2, 3), se interpretar´ como la dureza o a estimada derivada de utilizar el tratamiento i-´simo. Consideremos los e datos siguientes: > cbind(X, y) [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [,1] [,2] [,3] [,4] 1 0 0 4.8150 1 0 0 4.3619 1 0 0 4.3579 0 1 0 4.8403 0 1 0 5.2419 0 1 0 6.2087 0 0 1 3.9853 0 0 1 4.0601 0 0 1 3.4247

48

´ CAP´ ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
Podemos estimar los par´metros mediante a > ajuste1 <- lsfit(X, y, intercept = FALSE) > ajuste1$coefficients X1 X2 X3 4.5116 5.4303 3.8234 > ajuste1$residuals [1] [6] 0.30342 -0.14972 -0.15371 -0.58995 -0.18841 0.77837 0.16193 0.23672 -0.39865

> SSE <- sum(ajuste1$residuals^2) > SSE [1] 1.3687

Podr´ ıamos pensar, sin embargo, en adoptar una diferente parametrizaci´n: o Y = β0 + β1 X1 + β2 X2 + β3 X3 + ǫ; (3.5) En esta nueva parametrizaci´n, β0 ser´ una dureza “media” y β1 a o ıa β3 recoger´ el efecto diferencial (respecto de dicha dureza “media”) ıan resultado de emplear cada uno de los tres tratamientos. Para introducir en el modelo β0 multiplicando a una columna de “unos”, basta omitir el argumento intercept=FALSE, con lo que obtenemos: > ajuste2 <- lsfit(X, y, intercept = TRUE) > ajuste2$coefficients Intercept 3.82339 X1 0.68824 X2 1.60690 X3 0.00000

> ajuste2$residuals [1] [6] 0.30342 -0.14972 -0.15371 -0.58995 -0.18841 0.77837 0.16193 0.23672 -0.39865

> SSE <- sum(ajuste1$residuals^2) > SSE [1] 1.3687

3.4. MULTICOLINEALIDAD EXACTA Y APROXIMADA
Observemos que los dos ajustes son id´nticos, como muestran los resie duos, que son iguales, y SSE =1.3687, igual en los dos casos; resultado l´gico, dado que los subespacios que generan X1 , . . . , X3 y estos tres o vectores m´s la columna de “unos” son id´nticos. Las proyecciones han a e de serlo tambi´n. e En el segundo ajuste, lsfit ha proporcionado una estimaci´n de o los par´metros, a pesar de que el rango de la matriz X ampliada con a una columna de “unos”es incompleto. lsfit ha tomado una restricci´n o identificadora arbitraria —ha hecho β3 = 0— y proporcionado una de las infinitas soluciones equivalentes. La restricci´n adoptada hace β3 = 0. El tratamiento 3 pasa as´ a o ı convertirse en caso de referencia y la dureza atribuible al mismo viene ˆ ˆ ˆ medida por β0 =3.8234. Los valores estimados β1 y β2 miden as´ las ı diferencias de dureza de los tratamientos 1 y 2 respecto del caso de referencia, o tratamiento 3. Podr´ ıamos adoptar restricciones de identificaci´n diferentes. Una o muy habitual ser´ en el caso que nos ocupa, β1 + β2 + β3 = 0. Esto ıa, equivale a forzar que los efectos diferenciales de los tres tratamientos no puedan ser todos positivos o negativos. Con esta restricci´n, β0 teno dr´ la interpretaci´n de “dureza media” y β1 , β2 , β3 ser´ desviaciones ıa o ıan respecto de esta dureza media. Fin del ejemplo

49

3.4.

Multicolinealidad exacta y aproximada

La existencia de dependencia lineal “exacta” entre las columnas de la matriz de dise˜o X, es, como se ha visto, fruto habitualmente de una decisi´n n o consciente. Escogemos un dise˜o de rango incompleto, pero lo suplementamos n con restricciones de identificaci´n que solventan el problema de la estimaci´n o o y dotan a los par´metros de la interpretaci´n que deseamos. a o En la medida en que la matriz X sea de nuestra elecci´n, siempre podemos o eludir el problema. Si, por el contrario, no podemos dise˜ar nuestro experin mento y nos vemos obligados a utilizar unos datos X, y dados, puede ocurrir que la matriz X, aunque no precisamente de rango incompleto, proporcione una matriz (X ′ X) “casi” singular. Esto se traduce en dificultades num´ricas e para resolver las ecuaciones normales, dificultades para seleccionar un modelo adecuado, grandes varianzas de los estimadores y otros inconvenientes a los que nos referiremos en el Cap´ ıtulo 9.

50

´ CAP´ ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA

3.5.

Lectura recomendada.

Pueden verse Seber (1977), Secci´n 3.8, o Draper and Smith (1998), Seco ci´n 20.4, por ejemplo. o

Cap´ ıtulo 4

Estimaci´n con restricciones o
4.1. Planteamiento del problema.

En ocasiones deseamos imponer a las estimaciones de los par´metros β a ciertas condiciones, ya para hacer el modelo interpretable ya porque as´ lo ı imponen criterios extra-estad´ ısticos. N´tese que no nos estamos refiriendo exclusivamente a restricciones de o identificaci´n. Puede que el conjunto de restricciones que impongamos sea o tal que, junto con las ecuaciones normales, determine un unico vector de ´ ˆ en un problema que previamente admit´ m´ltiples soluciones estimadores β, ıa u (como suced´ en el Ejemplo 3.2). En tal caso, todo se reduce a resolver el ıa sistema (3.3). Las restricciones se han limitado a remover la indeterminaci´n o presente en las ecuaciones normales. En otras ocasiones, sin embargo, partimos de un modelo ya identificable (con soluci´n unica para las ecuaciones normales), pero no obstante deseamos o ´ imponer una restricci´n que viene dictada al margen de los datos, como ilustra o el ejemplo a continuaci´n. o Ejemplo 4.1 Si quisi´ramos estimar los par´metros de una fune a
ci´n de producci´n Cobb-Douglas Q = αLℓ K γ , podr´ o o ıamos desear que las estimaciones de los par´metros ℓ y γ verificaran la condici´n a o ˆ ˆ ℓ + γ = 1 (rendimientos constantes a escala). Con tres o m´s observaa ciones es perfectamente posible estimar α, ℓ y γ; la restricci´n es inneo cesaria desde el punto de vista de la estimabilidad de los par´metros. a No obstante, puede formar parte de la especificaci´n que deseamos: o

51

52

´ CAP´ ITULO 4. ESTIMACION CON RESTRICCIONES
no queremos ajustar cualquier funci´n de producci´n Cobb-Douglas a o o nuestros datos, sino una con rendimientos constantes a la escala. Fin del ejemplo

De un modo general, nos planteamos el problema siguiente: ˆ m´ y − X β ın
2

ˆ condicionado a : Aβ = c

(4.1)

Est´ claro que no podemos esperar obtener la soluci´n de este problema a o resolviendo un sistema como (3.3), que en general ser´ incompatible. a Hay al menos dos v´ para resolver un problema como el indicado. Poıas demos recurrir a resolver el problema de optimizaci´n condicionada (4.1) o escribiendo el lagrangiano,
N

L(β0 , . . . , βp−1 ) =

i=1

ˆ (yi − β0 xi0 − . . . − βp−1 xi,p−1 )2 − λ (Aβ − c);

derivando respecto a β0 , . . . , βp−1 y a los multiplicadores de Lagrange en el vector λ, e igualando las derivadas a cero, obtendr´ ıamos una soluci´n o que mediante las condiciones de segundo orden podr´ ıamos comprobar que corresponde a un m´ ınimo. Resolveremos el problema por un procedimiento diferente, an´logo al sea guido con el problema incondicionado: proyectando y sobre un subespacio adecuado. Para ello habremos de transformar el problema en otro equivalente, que nos permita utilizar la t´cnica de la proyecci´n. Previamente precisamos e o algunos resultados instrumentales, de algunos de los cuales nos serviremos repetidamente en lo que sigue.

4.2.

Lemas auxiliares.

Lema 4.1 Si K(C) designa el n´cleo de la aplicaci´n lineal representada por u o la matriz C, se tiene: K(C) = [R(C ′ )]⊥ ´ Demostracion: x ∈ K(C) ⇐⇒ Cx = 0 ⇐⇒ x ′ C ′ = 0 ′ ⇐⇒ x ⊥ R(C ′ )

4.2. LEMAS AUXILIARES.

53

o Lema 4.2 Si h ⊆ M ⊆ H, y Ph , PM son las matrices de proyecci´n sobre los subespacios respectivos, se verifica: PM Ph = Ph PM = Ph ´ Demostracion: Para cualquier v ∈ H, Ph v ∈ h ⊆ M ⇒ PM Ph v = Ph v ⇒ PM Ph = Ph
′ ′ ′ La simetr´ de PM y Ph (Lema 2.4) implica entonces que: Ph = Ph = Ph PM = ıa Ph PM .

Lema 4.3 Si h ⊆ M ⊆ H, se tiene: PM − Ph = PM ∩h⊥ ´ Demostracion: Partimos de la identidad, PM v = Ph v + (PM v − Ph v) en la que Ph v ∈ h ⊆ M mientras que (PM v − Ph v) ∈ M . Por otra parte, < Ph v, (PM v − Ph v) > = v ′ Ph (PM v − Ph v) = v ′ (Ph PM − Ph )v = 0, la ultima igualdad en virtud del Lema 4.2. Por consiguiente, (PM −Ph ), que es ´ sim´trica idempotente, proyecta sobre un subespacio ortogonal a h e inclu´ e ıdo en M ; lo denotaremos mediante M ∩ h⊥ .

Lema 4.4 Sea B una matriz cualquiera, y K(B) el n´cleo de la aplicaci´n u o lineal que representa. Sea M un subespacio de H y h = M ∩ K(B). Entonces, M ∩ h⊥ = R(PM B ′ ). La demostraci´n puede hallarse en el Ap´ndice E.2, p´g. 254. o e a

54

´ CAP´ ITULO 4. ESTIMACION CON RESTRICCIONES

4.3.

Estimaci´n condicionada. o

Los Lemas anteriores proporcionan todos los elementos para obtener de forma r´pida el estimador condicionado que buscamos. (Supondremos X y a A de rango completo, pero es f´cil generalizar el tratamiento reemplazando a las inversas por inversas generalizadas.) Aunque el desarrollo formal es algo farragoso, la idea es muy simple. Vamos a transformar el modelo de modo que las restricciones Aβ = c se conviertan en Aβ = 0 . Lo haremos mediante la transformaci´n o y = y − Xδ ˜ = β −δ, (4.2) (4.3)

γ

siendo δ una soluci´n cualquiera de Aδ = c (de no existir tal soluci´n, no o o tendr´ sentido el problema; estar´ ıa ıamos imponiendo condiciones a los par´a metros imposibles de satisfacer). Se tiene entonces que: y Aβ = X β + ǫ =⇒ y − X δ = X β − X δ + ǫ =⇒ y = Xγ + ǫ ˜ = c =⇒ A(γ + δ ) = c =⇒ Aγ = c − Aδ =⇒ Aγ = 0

y el problema original (4.1) puede ahora reescribirse as´ ı: m´ y − X γ ın ˜ ˆ o, alternativamente, m´ y − X γ ın ˜ ˆ
2 2

condicionado a Aˆ = 0, γ

condicionado a : A(X ′ X)−1 X ′ (X γ ) = 0. ˆ

(4.4)

¿Qu´ ventajas presenta la expresi´n (4.4) del problema comparada con la e o original? Una importante: muestra que el X γ buscado no es sino la proyecci´n ˆ o ′ ′ −1 de y sobre un cierto subespacio: h = M ∩ K(A(X X) X ). Hay garant´ de ˜ ıa que h es un subespacio porque M y K(A(X ′ X)−1 X ′ ) lo son. Basta proyectar y sobre h para obtener X γ y, si X es de rango completo, γ ; y esta proyecci´n ˜ ˆ ˆ o se puede obtener f´cilmente con ayuda de los Lemas anteriores. a Si denotamos por γh las estimaciones m´ ˆ ınimo cuadr´ticas condicionadas a o restringidas por Aˆ = 0, tenemos que: γ X γh = Ph y ˆ ˜ y = (PM − PM ∩h⊥ )˜ ′ ′ −1 = [X(X X) X − PM ∩h⊥ ]˜ y (4.5) (4.6) (4.7)

´ 4.3. ESTIMACION CONDICIONADA.

55

en que el paso de (4.5) a (4.6) ha hecho uso del Lema 4.3. Pero es que, de acuerdo con el Lema 4.4, M ∩ h⊥ = R[X(X ′ X)−1 X ′ X(X ′ X)−1 A ′ ] = R[X(X ′ X)−1 A ′ ]
PM B′ Z

a Por consiguiente, PM ∩h⊥ es, de acuerdo con el Lema 2.9, p´g. 35, PM ∩h⊥ = Z(Z ′ Z)−1 Z ′ , ecuaci´n que, llevada a (4.7), proporciona: o X γh = X(X ′ X)−1 X ′ y − X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ y ˆ ˜ ˜ ′ ′ −1 ′ −1 ′ −1 = X γ − X(X X) A [A(X X) A ] Aˆ , ˆ γ (4.9) en que γ es el vector de estimadores m´ ˆ ınimo-cuadr´ticos ordinarios al regresar a y sobre X. Si X es de rango total, como venimos suponiendo, de (4.9) se ˜ deduce: γh = γ − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 Aˆ . ˆ ˆ γ (4.10) (4.8)

(v´ase el Ejercicio 4.3.) e Hay algunas observaciones interesantes que hacer sobre las ecuaciones (4.9) y (4.10). En primer lugar, el lado izquierdo de (4.9) es una proyecci´n. o 2 1 Ello garantiza de manera autom´tica que y − X γh a ˜ ˆ es m´ ınimo . Adem´s, a el tratamiento anterior se generaliza de modo inmediato al caso de modelos de rango no completo, sin m´s que reemplazar en los lugares procedentes a matrices inversas por las correspondientes inversas generalizadas. En segundo lugar, dado que los estimadores m´ ınimo cuadr´ticos ordinaa rios estiman insesgadamente los correspondientes par´metros, tomando valor a medio en (4.10) vemos que: E[ˆh ] = γ − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 Aγ γ lo que muestra que γh es un estimador insesgado de γ si Aγ = 0. Es decir, la ˆ insesgadez se mantiene si los par´metros realmente verifican las condiciones a impuestas sobre los estimadores.
Si hubi´ramos llegado al mismo resultado minimizando una suma de cuadrados por e el procedimiento habitual (derivando un lagrangiano) tendr´ ıamos a´ n que mostrar que el u punto estacionario encontrado es un m´ ınimo y no un m´ximo. a
1

56

´ CAP´ ITULO 4. ESTIMACION CON RESTRICCIONES

En tercer lugar, si definimos: G = (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A tenemos que: γh = (I − G)ˆ . Por consiguiente, ˆ γ Σγ h = ˆ = = = (I − G)Σγ (I − G′ ) ˆ 2 (I − G)σ (X ′ X)−1 (I − G′ ) σ 2 [(X ′ X)−1 − G(X ′ X)−1 − (X ′ X)−1 G′ + G(X ′ X)−1 G′ ] σ 2 [(X ′ X)−1 − G(X ′ X)−1 G′ ]

que muestra, dado que el segundo sumando tiene claramente elementos no negativos en su diagonal principal (la matriz (X ′ X)−1 es definida no negativa), que Σγh tiene en la diagonal principal varianzas no mayores que las corresˆ pondientes en Σγ . Podemos concluir, pues, que la imposici´n de restricciones o ˆ lineales sobre el vector de estimadores nunca incrementa su varianza, aunque eventualmente, si las restricciones impuestas no son verificadas por los parametros a estimar, puede introducir alg´n sesgo. u Hemos razonado en las l´ ıneas anteriores sobre el modelo transformado. Podemos sustituir sin embargo (4.3) en (4.10) y obtener la expresi´n equivalente o en t´rminos de los par´metros originales: e a ˆ ˆ ˆ βh = β − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c) R: Ejemplo 4.1 (estimaci´n condicionada) o
No hay en R una funci´n de prop´sito general para realizar estio o maci´n condicionada. La extensibilidad del lenguaje hace sin embargo o extraordinariamente f´cil el definirla. El fragmento a continuaci´n ilusa o tra el modo de hacerlo y como utilizarla. No se ha buscado la eficiencia ni elegancia sino la correspondencia m´s directa con la teor´ expuesta a ıa m´s arriba. a Definimos en primer lugar una funci´n para uso posterior: o > lscond <- function(X, y, A, d, beta0 = TRUE) { + ajuste <- lsfit(X, y, intercept = beta0) + betas <- ajuste$coefficients + xxinv <- solve(t(X) %*% X) + axxa <- solve(A %*% xxinv %*% t(A)) + betas.h <- betas - xxinv %*% t(A) %*% + axxa %*% (A %*% betas - d) + betas.h <- as.vector(betas.h) + names(betas.h) <- names(ajuste$coefficients) + return(list(betas = betas, betas.h = betas.h, + ajuste.inc = ajuste)) + }

(4.11)

´ 4.3. ESTIMACION CONDICIONADA.
Generamos a continuaci´n los datos y realizamos la estimaci´n ci˜´no o ne donos a la teor´ del modo m´s directo. X es la matriz de dise˜o, beta ıa a n contiene los par´metros e y la variable respuesta: a > X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2

57

> beta <- c(2, 3, 4) > y <- X %*% beta + rnorm(6) Especificamos la restricci´n lineal β1 = β2 tomando la matriz A y o vector d siguientes: > A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE) > d <- 0 y a continuaci´n realizamos la estimaci´n condicionada: o o > resultado <- lscond(X, y, A = A, d = d, + beta0 = FALSE) > resultado$betas.h X1 X2 X3 2.8392 3.2647 3.2647 > resultado$betas X1 X2 X3 2.8037 3.0526 3.7138

Fin del ejemplo

58

´ CAP´ ITULO 4. ESTIMACION CON RESTRICCIONES Complementos y ejercicios 4.1 Sea un espacio vectorial M cualquiera, de dimensi´n finita. o Compru´bese que siempre existe una matriz C tal que M = K(C). e (Ayuda: consid´rese una matriz cuyas filas fueran una base de M ⊥ ). e 4.2 (↑ 4.1) Pru´bese la igualdad (E.15), p´g. 254. e a 4.3 Justif´ ıquese el paso de (4.9) a (4.10). 4.4 El Ejemplo 4.1 se sale del marco conceptual en el que nos movemos. Los regresores (K y L, ´ log(K) y log(L) al linealizar la o funci´n de producci´n) no pueden ser fijados por el experimentador: o o dependen de los agentes econ´micos. Estamos ante datos observados o en oposici´n a datos experimentales. Faraway (2005), Sec. 3.8, contiene o una di´fana discusi´n de los problemas que ello conlleva. Es tambi´n a o e interesante, aunque de m´s dif´ lectura, Wang (1993). a ıcil
Las restricciones que hemos discutido en la Secci´n 4.3 o son exactas. Los par´metros las verifican de modo exacto. En ocasioa nes se recurre a restricciones estoc´sticas, llevando a los par´metros a a a verificarlas de forma aproximada. Es muy f´cil introducirlas. Recora demos que, al hacer estimaci´n m´ o ınimo-cuadr´tica, los par´metros se a a fijan de modo que la suma de cuadrados de los residuos sea la m´ ınima posible. Si tenemos restricciones Aβ = c que queremos imponer de modo aproximado basta que a˜adamos las filas de A a la matriz X y n los elementos correspondientes de c al vector y para obtener: y c = X β +ǫ A

4.5

y hagamos m´ ınimos cuadrados ordinarios con la muestra ampliada (las filas a˜adidas se denominan en ocasiones pseudo-observaciones). n La idea es que las filas a˜adidas funcionan como observaciones y, por n ˆ tanto, el procedimiento de estimaci´n tender´ a hacer Aβ ≈ c (para o a ˆ que los residuos correspondientes c − Aβ sean “peque˜os”). A´n m´s: n u a podemos graduar la importancia que damos a las pseudo-observaciones (y por tanto el nivel de aproximaci´n con que deseamos imponer las o restricciones estoc´sticas): basta que las multipliquemos por una consa tante adecuada k para estimar y kc = X β + ǫ. kA (4.12)

´ 4.3. ESTIMACION CONDICIONADA.
Obs´rvese que ahora los residuos de las pseudo-observaciones ser´n e a ˆ y si tomamos k elevado el m´todo m´ k(c −Aβ) e ınimo cuadr´tico tendr´ a a ˆ que prestar atenci´n preferente a que Aβ ≈ c se verifique con gran o aproximaci´n (porque los cuadrados de los residuos correspondientes o entran en SSE afectados de un coeficiente k 2 ). Cuando k → ∞ nos acercamos al efecto de restricciones exactas. Un caso particular de inter´s se presenta cuando e en el problema anterior se toma A = I y c = 0 . Se dice entonces que estamos ante el estimador ridge de par´metro k. En 10.3, p´g. 142, a a abordamos su estudio y justificaci´n con detalle. o La estimaci´n de (4.12) haciendo uso de las o ecuaciones normales proporciona ˆ β = (X ′ X + k 2 A ′ A)−1 (X ′ y + k 2 A ′ c ), (4.13)

59

4.6 (↑ 4.5)

4.7 (↑ 4.5)

que admite una interpretaci´n bayesiana. Supongamos que a priori o β ∼ N (β 0 , Σ0 ). Dado β , Y se distribuye como N (X β , σ 2 I). La densidad a posteriori de β es entonces f (β |y , σ 2 , β 0 , Σ0 ) ∝ exp −
′ 1 (y − X β ) (y − X β ) 2 2σ ′ 1 × exp − (β − β 0 ) Σ−1 (β − β 0 ) 0 2 ′ 1 = exp − 2 (y − X β ) (y − X β ) 2σ

+ σ 2 (β − β 0 ) Σ−1 (β − β 0 ) 0 Tomando el logaritmo neperiano e igualando a cero su derivada respecto a β tenemos entonces − 1 (−2X ′ (y − X β ) + 2σ 2 Σ−1 (β − β 0 ) = 0 , 0 2σ 2

que proporciona (X ′ X + σ 2 Σ−1 )β − X ′ y − σ 2 Σ−1 β 0 = 0 , 0 0 y por tanto la moda de la distribuci´n a posteriori (que f´cilmente se o a comprueba es normal multivariante) es: ˆ β = (X ′ X + σ 2 Σ−1 )−1 (X ′ y + σ 2 Σ−1 β 0 ). 0 0 (4.14)

60

´ CAP´ ITULO 4. ESTIMACION CON RESTRICCIONES
Comparando (4.14) con (4.13) vemos que son id´nticas cuando kA = e σΣ0 2 y kc = σΣ0 2 β 0 : para obtener el estimador bayesiano con informaci´n a priori como la indicada, basta por tanto con obtener el o estimador MCO en una muestra ampliada con pseudo-observaciones.
−1 −1

Cap´ ıtulo 5

Especificaci´n inadecuada del o modelo

5.1.

Introducci´n. o

En lo que antecede hemos dado por supuesto que el modelo lineal que se estima es el “correcto”, es decir, que la variable aleatoria Y efectivamente se genera de la siguiente manera: Y = β0 X0 + β1 X1 + . . . + βp−1 Xp−1 + ǫ. (5.1)

En la pr´ctica, sin embargo, no tenemos un conocimiento preciso del mea canismo que genera las Y ’s. Tenemos, todo lo m´s, una lista de variables a susceptibles de formar parte de la ecuaci´n (5.1) en condici´n de regresores. o o De ordinario, por ello, incurriremos en errores en la especificaci´n, que o pueden ser de dos naturalezas: 1. Incluir en (5.1) regresores irrelevantes. 2. Omitir en (5.1) regresores que hubieran debido ser incluidos. Estudiamos en lo que sigue el efecto de estos dos tipos de mala especificaci´n. o 61

62

´ CAP´ ITULO 5. ESPECIFICACION INADECUADA DEL MODELO

5.2.

Inclusi´n de regresores irrelevantes. o
Y = Xβ + ǫ (5.2)

Supongamos que

pese a lo cual decidimos estimar el modelo Y = X β + Zγ + ǫ (5.3)

¿Qu´ ocurre con los estimadores de los par´metros β ? e a Al estimar el modelo sobreparametrizado (5.3) obtendr´ ıamos: ˆ β γ ˆ = X ′X X ′Z Z ′X Z ′Z
−1

X′ Y Z′

(5.4)

En el caso particular de columnas Z ortogonales a las columnas en X, los estimadores de β proporcionados por (5.3) son id´nticos a los que se obtene dr´ de (5.2). En efecto, si existe tal ortogonalidad, la matriz inversa en (5.4) ıan ˆ es una matriz diagonal por bloques y β = (X ′ X)−1 X ′ Y . Fuera de este caso particular, los estimadores de β procedentes de (5.4) son diferentes a los que se obtendr´ de estimar (5.2). ıa Sin embargo, (5.4) proporciona estimadores insesgados, sean cuales fueren los regresores irrelevantes a˜adidos1 . En efecto, sustituyendo (5.2) en (5.4) n tenemos: ˆ β γ ˆ = = X ′X X ′Z Z ′X Z ′Z
−1

X′ Z′
−1

X Z X ′ǫ Z ′ǫ .

β 0

(5.5) (5.6)

X ′X X ′Z β + Z ′X Z ′Z 0

Al tomar valor medio en la ecuaci´n anterior obtenemos: o ˆ E[β] = β , E[ˆ ] = 0. γ (5.7) (5.8)

De la misma ecuaci´n (5.6) obtenemos que la matriz de covarianzas del vector o ˆ′ γ ′ )′ es: (β ˆ Σ = σ2
1

X ′X X ′Z Z ′X Z ′Z

−1

.

(5.9)

De los que lo unico que supondremos es que no introducen combinaciones lineales ´ exactas que hagan inestimables los par´metros. a

´ 5.2. INCLUSION DE REGRESORES IRRELEVANTES.

63

ˆ El bloque superior izquierdo de (5.9) es la matriz de covarianzas de los β obtenidos en el modelo sobreparametrizado. Debemos comparar dicho bloque ˆ con σ 2 (X ′ X)−1 , matriz de covarianzas de los β obtenidos al estimar el modelo (5.2). Haciendo uso del Teorema A.3, p´g. 228, vemos que el bloque que nos a interesa de (5.9) es σ 2 multiplicado por (X ′ X)−1 + (X ′ X)−1 X ′ Z[Z ′ Z − Z ′ X(X ′ X)−1 X ′ Z]−1 Z ′ X(X ′ X)−1 . Por simple inspecci´n vemos que el segundo sumando es una matriz definida o no negativa2 , y por tanto la expresi´n anterior tendr´ en su diagonal princio a pal elementos no menores que los de la diagonal principal de (X ′ X)−1 . En consecuencia, la inclusi´n de regresores irrelevantes no disminuye, y en geneo ral incrementa, las varianzas de los estimadores de los par´metros relevantes. a No afecta sin embargo a su insesgadez. De cuanto antecede se deduce que Y − X Z ˆ β γ ˆ (5.10)

es un vector aleatorio de media cero. Denominando, L = ˆ δ = X Z , ˆ β , γ ˆ

un desarrollo enteramente similar al realizado en el Teorema 6.1, p´g. 70, a muestra que en el modelo sobreparametrizado SSE = Y ′ (I − L(L′ L)−1 L′ )Y = ǫ ′ (I − L(L′ L)−1 L′ )ǫ (5.11)

es, bajo los supuestos habituales m´s normalidad, una forma cuadr´tica con a a 2 2 distribuci´n σ χN −(p+q) , en que p y q son respectivamente los rangos de X y o Z. En consecuencia, σ2 = ˆ
2

SSE N − (p + q)

(5.12)

Llamemos G a dicho segundo sumando. Para mostrar que es definida no negativa, basta ver que para cualquier a se verifica a′ Ga ≥ 0. Pero a′ Ga = b′ (Z ′ Z − Z ′ X(X ′ X)−1 XZ)−1 b con b = Z ′ X(X ′ X)−1 a; ya s´lo tenemos que comprobar que (Z ′ Z − Z ′ X(X ′ X)−1 XZ)−1 o es definida no negativa, o equivalentemente que (Z ′ Z − Z ′ X(X ′ X)−1 XZ) lo es. Esto ′ ultimo es inmediato: (Z ′ Z − Z ′ X(X ′ X)−1 XZ) = Z ′ (I − X(X ′ X)−1 X)Z, y d Z ′ (I − ´ ′ X(X ′ X)−1 X)Z d puede escribirse como e (I − X(X ′ X)−1 X)e con e = Z d . La matriz de la forma cuadr´tica en e es la conocida matriz de coproyecci´n, definida no negativa por a o ser idempotente (con valores propios cero o uno).

64

´ CAP´ ITULO 5. ESPECIFICACION INADECUADA DEL MODELO

es un estimador insesgado de σ 2 . El unico efecto adverso de la inclusi´n de los ´ o q regresores irrelevantes ha sido la p´rdida de otros tantos grados de libertad. e

5.3.

Omisi´n de regresores relevantes. o

. Sea X = (X1 . X2 ) una matriz de dise˜o particionada en sendos bloques . n . ′ de p y r columnas. Sea β ′ = (β ′1 . β 2 ) el correspondiente vector de p + r . par´metros. Consideremos el caso en que el modelo “correcto” es a Y = X β + ǫ = X 1 β 1 + X2 β 2 + ǫ , (5.13)

pese a lo cual estimamos el modelo “escaso” Y = X1 β 1 + ǫ . (5.14)

Estimar (5.14) es lo mismo que estimar (5.13) junto con las restricciones h : β 2 = 0, expresables as´ ı: 0 0 0 I β1 β2 = 0 0 (5.15)

En consecuencia, podemos deducir cuanto necesitamos saber haciendo uso de los resultados en la Secci´n 4.3. Las siguientes conclusiones son as´ o ı inmediatas: ˆ(h) El estimador β1 obtenido en el modelo “escaso” (5.14) es, en general, sesgado. El sesgo puede obtenerse haciendo uso de (4.11). Tenemos as´ ı que ˆ(h) β1 0 = ˆ β1 ˆ β2 ˆ − (X ′ X)−1 A′ [A(X ′ X)−1 A′ ]−1 (Aβ − 0),

y en consecuencia ˆ E[β1 − β 1 ] = − (X ′ X)−1 A′ [A(X ′ X)−1 A′ ]−1
(h)

0 β2

(5.16)
(p×1)

en que [M ](p×q) designa el bloque superior izquierdo con p filas y q columnas de la matriz M . La ecuaci´n (5.16) muestra que el sesgo o introducido depende de la magnitud de los par´metros asociados a los a regresores omitidos.

´ 5.4. CONSECUENCIAS DE ORDEN PRACTICO

65

La ecuaci´n (5.16) muestra tambi´n que hay un caso particular en que o e ˆ(h) es insesgado para β 1 ; cuando las columnas de X1 y las de X2 son β1 ′ ortogonales, X1 X2 = 0, la matrix (X ′ X)−1 es diagonal por bloques, y (X X) A =
′ −1 ′ ′ X1 X1 0 ′ 0 X2 X 2 −1

0 0 0 I

(5.17)

tiene sus primeras p filas de ceros. Ello hace que el bloque considerado en (5.16) est´ formado por ceros. e El estimador de la varianza de la perturbaci´n o ˆ(h) ˆ(h) SSE (Y − X1 β1 )′ (Y − X1 β1 ) σ = ˆ = N −p N −p
2

(5.18)

no es insesgado. En efecto, puede verse que no es de aplicaci´n a (5.18) o el Teorema 2.3, p´g. 21. a

5.4.

Consecuencias de orden pr´ctico a

Los resultados de las dos Secciones anteriores pueden ayudarnos a tomar decisiones a la hora de especificar un modelo. Hemos visto que sobreparametrizar no introduce sesgos: tan s´lo incrementa la varianza de los estimadores o y resta grados de libertad. Errar “por exceso” tendr´ por ello en general a consecuencias menos graves, y tanto menos importantes cuanto mayor sea el tama˜o muestral. La p´rdida de un grado de libertad adicional originada n e por la inclusi´n de un par´metro es menos importante cuando los grados de o a libertad restantes (N − p) siguen siendo muchos. La s´la circunstancia en que la inclusi´n de un regresor innecesario puede o o perjudicar gravemente la estimaci´n se presenta cuando la muestra es muy o peque˜a o el par´metro adicional es aproximadamente combinaci´n lineal de n a o los ya presentes. A esta ultima cuesti´n volveremos en el Cap´ ´ o ıtulo 9. Omitir regresores relevantes tiene consecuencias en general m´s graves y a ˆ(h) que no se aten´an al crecer el tama˜o muestral: el sesgo de β1 en el modelo u n “escaso” (5.14) no decrece hacia cero al crecer N . En este cap´ ıtulo hemos rastreado las consecuencias de dos posibles errores de especificaci´n “puros”: falta o sobra de regresores. En la pr´ctica los dos o a tipos de errores se pueden presentar conjuntamente y sus efectos se combinan. Conocidos los problemas de una mala especificaci´n se plantea el proo blema de c´mo lograr una buena. Esta cuesti´n se trata en el Cap´ o o ıtulo 12. Algunas t´cnicas de an´lisis gr´fico de residuos que pueden ser de ayuda en e a a la especificaci´n de modelos se consideran en la Secci´n 13.2.1. o o

66

´ CAP´ ITULO 5. ESPECIFICACION INADECUADA DEL MODELO

Cap´ ıtulo 6

Regresi´n con perturbaciones o normales.

6.1.

Introducci´n. o

Si a los supuestos habituales (Secci´n 1.3, p´g. 5) a˜adimos1 el de que o a n ǫ ∼ N (0, σ 2 I), todos los resultados anteriores se mantienen; obtendremos no obstante muchos adicionales, relativos a la distribuci´n de diferentes estao d´ ısticos. Podremos tambi´n efectuar contrastes de hip´tesis diversas. Buena e o parte de estos resultados son consecuencia casi inmediata de alguno de los siguientes lemas. Lema 6.1 Si u ∼ N (0, σ 2 I) y A es una matriz sim´trica idempotente de e ′ orden n y rango r, entonces: u σAu ∼ χ2 . 2 r ´ Demostracion: Sea D la matriz diagonalizadora de A. Siendo A sim´trica, D es una e matriz ortogonal cuyas columnas son vectores propios de A, verific´ndose: a ′ D AD = Λ, en que Λ es una matriz en cuya diagonal principal aparecen los
El s´ ımbolo ∼ denotar´ en lo sucesivo que el lado izquierdo es una variable aleatoria a con la distribuci´n que especifica el lado derecho. o
1

67

´ 68 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES. valores propios de A. Como A es idempotente, Λ es de la forma r (n − r) I 0 , 0 0

Λ=

en que I es una matriz unidad de rango r, y los bloques de ceros que la circundan son de ´rdenes adecuados para completar una matriz cuadrada de o orden n × n. Si hacemos el cambio de variable v = D′ u (⇒ u = Dv), el nuevo vector v sigue tambi´n una distribuci´n N (0, σ 2 I). Entonces, e o u ′ Au v ′ D′ ADv v′ = = σ2 σ2 σ I 0 0 0 v = σ
r 2 vi . σ2

(6.1)

i=1

Pero el lado derecho de (6.1) es una suma de cuadrados de r variables aleatorias N (0, 1) independientes, y por tanto sigue una distribuci´n2 χ2 . o r

Lema 6.2 Sea B una matriz sim´trica n×n y P una matriz sim´trica ideme e potente del mismo orden y rango r. Sea u un vector aleatorio n-variante, u ∼ N (0, σ 2 I), y supongamos que se verifica BP = 0. Entonces, u ′ Bu y u ′ P u son variables aleatorias independientes. ´ Demostracion: Sea D la matriz diagonalizadora de P . Al igual que antes, definamos v = D′ u, (lo que implica u = Dv). Tenemos que: BP = 0 ⇒ D′ BDD′ P D = 0 r (n − r) I 0 0 0 (6.2) (6.3) =0 (6.4) (6.5) (6.6)

⇒ D′ BD

⇒ D BD tiene sus r primeras columnas nulas
2

El rec´ ıproco es tambi´n cierto; v´ase en Searle (1971), Teorema 2, pag. 57 una versi´n e e o m´s potente de este teorema. a

´ 6.1. INTRODUCCION. Por tanto: r (n − r) r (n − r) 0 L12 0 L22

69

D′ BD =

=0

(6.7)

Como, adem´s, D′ BD es sim´trica, L12 ha de ser tambi´n un bloque de a e e ceros, y: r (n − r) 0 0 v 0 L22

u ′ Bu = v ′ D′ BDv = v Por otra parte:

(6.8)

u ′ P u = v ′ D′ P Dv = v

r (n − r) I 0 v 0 0

(6.9)

De (6.8) y (6.9) se deduce que ambas formas cuadr´ticas consideradas a dependen de distintas componentes del vector v, y son por tanto independientes.

Lema 6.3 Sea M una matriz sim´trica idempotente de rango r y dimensioe nes n×n. Sea A una matriz que verifica AM = 0, y u ∼ N (0 , σ 2 I). Entonces Au y u ′ M u son variables aleatorias independientes. ´ Demostracion: Sea D la matriz que diagonaliza M . Al igual que antes, definamos v = D u (⇒ u = Dv). Como AM = 0, y D′ M D es una matriz diagonal con r unos y (n − r) ceros en la diagonal principal, se verifica que

AM = ADD M D = 0 ⇒ AD =

r (n − r) 0 | L2 ,

(6.10)

es decir, AD tiene sus primeras r columnas de ceros. Por consiguiente, r (n − r) 0 | L2 v.

Au = ADv =

(6.11)

´ 70 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES. Como r (n − r) I 0 v, 0 0

u ′ M u = v ′ D′ M Dv = v

(6.12)

deducimos de (6.11) y (6.12) que ambas variables aleatorias consideradas dependen de distintas componentes de v, y son consecuentemente independientes.

Podemos ahora, con ayuda de los Lemas precedentes, demostrar el siguiente resultado:

Teorema 6.1 Si Y = X β + ǫ , ǫ ∼ N (0, σ 2 I), y X es de orden N × p y rango p, se verifica: 1. 2. 3. 4. ˆ β ∼ N (β , σ 2 (X ′ X)−1 ) ˆ ˆ (β − β )′ (X ′ X)(β − β ) ∼ σ 2 χ2 p (N − p)ˆ 2 = SSE ∼ σ 2 χ2 −p σ N ˆ ˆ β y σ 2 son variables aleatorias independientes.

´ Demostracion: El apartado 1) es inmediato. Si se verifican los supuestos habituales, fue ˆ ya demostrado (Teorema 2.2, p´g. 19) que β es un estimador insesgado de β a con la matriz de covarianzas indicada. Como, adem´s, β es una combinaci´n a ˆ o lineal de variables aleatorias normales e independientes, es tambi´n normal. e El apartado 2) es consecuencia inmediata del Lema 6.1, una vez que 1 ˆ observamos que (X ′ X) 2 (β − β ) ∼ N (0 , σ 2 I).

´ 6.1. INTRODUCCION. Para demostrar el apartado 3) observemos que: ˆ ˆ SSE (Y − X β )′ (Y − X β ) = σ2 σ2 (Y − X(X ′ X)−1 X ′ Y )′ (Y − X(X ′ X)−1 X ′ Y ) = σ2 ′ ′ ′ −1 Y [I − X(X X) X ]Y = σ2 ′ (X β + ǫ ) [I − X(X ′ X)−1 X ′ ](X β + ǫ ) = σ2 ′ ′ −1 ǫ [I − X(X X) X ′ ]ǫ = σ2 ′ ǫ Mǫ = σ2 ∼ χ2 −p , N

71

(6.13) (6.14) (6.15) (6.16) (6.17) (6.18) (6.19)

donde (6.19) es consecuencia inmediata del Lema 6.1, ya que M es sim´trica e idempotente y de rango N − p. Para probar 4), basta invocar el Lema 6.3, ya que ˆ β = (X ′ X)−1 X ′ Y , σ2 = ˆ Y [I − X(X X) X ]Y SSE = . N −p N −p
′ ′ −1 ′

(6.20) (6.21)

ˆ De la ecuaci´n (6.20) deducimos (sustituyendo Y por X β + ǫ ) que β = o ′ ′ −1 β + (X X) X ǫ . La misma sustituci´n en (6.21) muestra que o σ2 = ˆ Como (X ′ X)−1 X ′ [I − X(X ′ X)−1 X ′ ] = 0, el Lema 6.3, p´g. 69, demuestra la independencia de las formas lineal y cuaa dr´tica anteriores y por tanto de (6.20) y (6.21). a ǫ ′ [I − X(X ′ X)−1 X ′ ]ǫ . N −p

´ 72 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES. R: Ejemplo 6.1 (ejemplo de simulaci´n) o
El c´digo que sigue tiene por objeto ilustrar c´mo examinar´ o o ıamos emp´ ıricamente la concordancia entre lo que la teor´ predice y lo que ıa podemos obtener en la pr´ctica. Lo que se hace es generar m´ltiples a u muestras artificiales, obtener de ellas m´ltiples observaciones del esu tad´ ıstico de inter´s (aqu´ β) y examinar el ajuste de la distribuci´n e ı, ˆ o emp´ ırica de los mismos a la te´rica. o Generemos en primer lugar la matriz de dise˜o X, vector de par´n a metros β y los valores medios de la respuesta X β : > X <- matrix(c(1, 1, 1, 1, 1, 1, 9, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 9 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2

> beta <- c(2, 3, 4) > Ey <- X %*% beta Definiremos ahora una matriz b de dimensiones 100 × 3, cada una ˆ de cuyas filas guardar´ los par´metros estimados β con una muestra a a artificial diferente > muestras <- 100 > b <- matrix(0, muestras, 3) e iteremos, generando en cada pasada del bucle for un nuevo vector de perturbaciones ǫ (mediante rnorm), un nuevo vector de valores de ˆ ˆ la variable respuesta y y nuevas estimaciones β de los par´metros β a (fit$coefficients, que se almacenan en b[i,]): > for (i in 1:muestras) { + y <- Ey + rnorm(6) + fit <- lsfit(X, y, intercept = FALSE) + b[i, ] <- fit$coefficients + }

´ 6.1. INTRODUCCION.
La distribuci´n te´rica de los betas es Normal, con vector de medias o o ′ (2, 3, 4) y matriz de covarianzas (X ′ X)−1 (la varianza de las perturbaciones generadas por rnorm es 1 si no se especifica otra cosa).

73

> cov.betas <- solve(t(X) %*% X)

Por consiguiente, un modo de verificar que los resultados emp´ ıricos son congruentes con la teor´ consistir´ en tipificar las estimaciones de los ıa ıa par´metros y comparar su distribuci´n con una N (0, 1). Podemos por a o ejemplo comparar la media y varianza emp´ ıricas con las te´ricas, o

> beta1.tipif <- (b[, 1] - beta[1])/sqrt(cov.betas[1, + 1]) > mean(beta1.tipif)

[1] 0.19871

> var(beta1.tipif)

[1] 1.1125

dibujar el histograma

> hist(beta1.tipif, ylab = "Frecuencia absoluta", + main = "Histograma de beta1.tipif")

´ 74 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES.

Histograma de beta1.tipif

Frecuencia absoluta

0

5

10

15

−2

−1

0 beta1.tipif

1

2

o llevar a cabo alg´n contraste de normalidad especializado: u > ks.test(beta1.tipif, "pnorm") One-sample Kolmogorov-Smirnov test data: beta1.tipif D = 0.1036, p-value = 0.2334 alternative hypothesis: two-sided > shapiro.test(beta1.tipif) Shapiro-Wilk normality test data: beta1.tipif W = 0.9874, p-value = 0.4679 Lo que antecede ilustra, reducido a sus rasgos esenciales, el llamado m´todo de Monte-Carlo. Puede parecer un ejercicio ocioso en el e ˆ caso que nos ocupa (ya “sab´ ıamos” c´mo se distribuye β ¿a que vieo ne comprobarlo mediante una simulaci´n?). Sin embargo, tiene una o enorme aplicaci´n pr´ctica por varias razones: o a

´ 6.2. CONTRASTE DE HIPOTESIS LINEALES.
1. En ocasiones no conocemos la distribuci´n te´rica de los estao o d´ ısticos de inter´s para muestras finitas. Todo lo que podemos e obtener te´ricamente es la distribuci´n asint´tica (la distribuci´n o o o o cuando el tama˜o muestral tiende a infinito). En este caso, la sin mulaci´n permite ver si la aproximaci´n asint´tica es aceptable o o o para un cierto tama˜o muestral. n 2. En otras ocasiones, ni siquiera la distribuci´n asint´tica es obteo o nible anal´ ıticamente. Este es el caso m´s frecuente en la pr´ctica. a a De nuevo el m´todo de Monte-Carlo proporciona un m´todo para e e obtener aproximaciones a la distribuci´n de cualquier estad´ o ıstico. El uso del m´todo de Monte-Carlo reposa en la posibilidad de genee rar mediante un ordenador n´meros aleatorios con la distribuci´n que u o deseemos. En este ejemplo, se ha empleado rnorm para generar variables aleatorias normales. (R ofrece generadores de n´meros aleatorios u de las distribuciones m´s usuales, como casi cualquier otro paquete a estad´ ıstico.) Fin del ejemplo

75

6.2.

Contraste de hip´tesis lineales. o

El problema que nos planteamos es el siguiente: dado el modelo lineal Y = X β + ǫ con los supuestos habituales m´s normalidad, queremos, con a ayuda de una muestra, contrastar la siguiente hip´tesis lineal o h : Aβ = c (rango de A = q < p), (6.22)

siendo A de dimensiones q ×p. Cualquier hip´tesis lineal sobre los par´metros o a se puede expresar en la forma (6.22). En particular, mediante adecuada elecci´n de A se pueden hacer contrastes de nulidad de uno o varios par´metros, o a de igualdad de dos o m´s de ellos, etc. a Observaci´n 6.1 Llamamos hip´tesis lineales a las que pueden o o expresarse del modo (6.22); multitud de hip´tesis de inter´s admiten o e tal expresi´n, como se ver´ en lo que sigue. Hay hip´tesis, sin embargo, o a o que no pueden escribirse de tal forma. Por ejemplo, restricciones de no negatividad sobre los par´metros (βi > 0) o sobre el m´dulo de β a o 2 + β 2 = 1). (cosas como β1 2

´ 76 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES. La forma de efectuar el contraste es la habitual. Se busca un estad´ ıstico que bajo la hip´tesis nula h siga una distribuci´n conocida; si el valor obtenido o o en el muestreo de dicho estad´ ıstico es “raro” de acuerdo con lo esperable cuando h es cierta, rechazaremos la hip´tesis nula. El estad´ o ıstico de contraste y su distribuci´n se deducen del siguiente teorema: o ˆ Teorema 6.2 Sea h : Aβ = c una hip´tesis lineal, βh el vector de estimadoo ˆ 2 Bajo res m´ ınimo cuadr´ticos condicionados por h, y SSEh = Y − X βh a los supuestos habituales m´s el de normalidad en las perturbaciones, se veria fica: 1. 2. ˆ ˆ SSEh − SSE = (Aβ − c )′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c ) Si h : Aβ = c es cierta, Qh = (SSEh − SSE)/q ∼ Fq,N −p SSE/(N − p)

en que q ≤ p es el rango de A. ´ Demostracion:

SSEh − SSE

= = = = =

ˆ ˆ ˆ +2 < (Y − X β ), (X β − X βh ) > ˆ ˆ 2 X β − X βh ˆ ˆ ˆ ˆ (β − βh )′ (X ′ X)(β − βh ).

ˆ 2 ˆ 2 Y − X βh − Y − X β (6.23) 2 2 ˆ ˆ ˆ ˆ Y − X β + X β − X βh − Y − X β (6.24) 2 2 ˆ ˆ ˆ ˆ 2 Y − X β + X β − X βh − Y − X β

(6.25) (6.26) (6.27)

Se ha hecho uso en el paso de (6.25) a (6.26) de que ǫ es ortogonal a ˆ toda combinaci´n lineal de las columnas de X, lo que garantiza la nulidad o del producto interno en (6.25). Haciendo uso de la ecuaci´n (4.11), p´g. 56, la expresi´n (6.27) se cono a o vierte en: ˆ ˆ SSEh − SSE = (Aβ − c )′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c ). ˆ β = β + (X ′ X)−1 X ′ ǫ, (6.28)

Esto finaliza la demostraci´n del primer apartado. Por otra parte, como o

´ 6.2. CONTRASTE DE HIPOTESIS LINEALES. tenemos que, cuando se verifica la hip´tesis h, o ˆ ˆ (Aβ − c) = (Aβ − Aβ ) = A(X ′ X)−1 X ′ ǫ, resultado que llevado a (6.28) proporciona: SSEh − SSE = ǫ ′ X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ ǫ
G h

77

(6.29) Esta expresi´n muestra que SSEh − SSE es una forma cuadr´tica en o a variables normales (las ǫ) de matriz G que f´cilmente comprobamos es idema potente. Por tanto, seg´n el Lema 6.1, p´g. 67, SSEh − SSE sigue una disu a tribuci´n σ 2 χ2 , con grados de libertad q iguales al rango de G (= rango(A)). o q Tenemos adem´s (Teorema 6.1) que: a SSE = Y ′ (I − PM )Y ∼ σ 2 χ2 −p N (6.30)

Para demostrar que Qh en el enunciado es una variable aleatoria con distribuci´n F de Snedecor, s´lo resta comprobar que numerador y denominador o o son independientes: pero ´sto es inmediato, ya que e (I − PM ) X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ = 0.
G

El Lema 6.2 garantiza por tanto la independencia.

Observaci´n 6.2 Hay cuestiones de inter´s sobre el Teorema o e 6.2. En primer lugar, es claro que, para un nivel de significaci´n α, o α la regi´n cr´ o ıtica estar´ formada por valores mayores que Fq,N −p . En a efecto, son grandes discrepancias entre SSEh y SSE las que cabe considerar evidencia contra h. Desde otro punto de vista, el apartado 1) del Teorema 6.2 muestra que el estad´ ıstico tiene en su numerador ˆ una forma cuadr´tica que crece al separarse Aβ de c. a Observaci´n 6.3 La presentaci´n es puramente heur´ o o ıstica; se
ha propuesto el estad´ ıstico Qh y encontrado su distribuci´n, indic´no a dose, sin otro apoyo que el sentido com´n, qu´ valores debemos consiu e derar en la regi´n cr´ o ıtica. Podr´ ıamos llegar a un resultado an´logo si a

´ 78 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES.
construy´ramos un estad´ e ıstico de contraste basado en la raz´n geneo ralizada de verosimilitudes: Λ= m´xβ g(β; y, X) a ˆ ˆ ˆ m´x ˆ g(βh ; y, X) a
βh

ˆ ˆ ˆ siendo βh aquellos β verificando h : Aβ = c. Ello proporciona una justificaci´n al estad´ o ıstico anterior.

Observaci´n 6.4 Del enunciado del teorema anterior se sigue o con facilidad que cuando h no es cierta (y en consecuencia Aβ − c = d = 0, Qh sigue una distribuci´n F de Snedecor no central, con o 2 = t ′ t (v´ase Ap´ndice B.1), siendo e e par´metro de no centralidad δ a
t = [A(X ′ X)−1 A ′ ]− 2 (Aβ − c ). Ello permite calcular f´cilmente la potencia de cualquier contraste a frente a alternativas prefijadas, si se dispone de tablas o ´bacos de la a F de Snedecor no central. En R se dispone de la funci´n pf que admite o un par´metro de no centralidad. Alternativamente, puede estimarse la a potencia por simulaci´n. o
1

R: Ejemplo 6.2 (contraste de una hip´tesis lineal) o
Veamos el modo en que contrastar´ ıamos una hip´tesis lineal geo neral sobre los par´metros de un modelo de regresi´n lineal. Nos sera o viremos de la funci´n lscond para realizar estimaci´n condicionada o o presentada en el Ejemplo 4.1, p´g. 56. a > lscond <- function(X, y, A, d, beta0 = TRUE) { + ajuste <- lsfit(X, y, intercept = beta0) + betas <- ajuste$coefficients + xxinv <- solve(t(X) %*% X) + axxa <- solve(A %*% xxinv %*% t(A)) + betas.h <- betas - xxinv %*% t(A) %*% + axxa %*% (A %*% betas - d) + betas.h <- as.vector(betas.h) + names(betas.h) <- names(ajuste$coefficients) + return(list(betas = betas, betas.h = betas.h, + ajuste.inc = ajuste)) + } Definiremos ahora una nueva funci´n, contraste.h, que calcula SSE, o SSEh (utilizando lscond), el estad´ ıstico Qh y su nivel de significaci´n. o

´ 6.2. CONTRASTE DE HIPOTESIS LINEALES.
> contraste.h <- function(X, y, A, d, beta0 = TRUE) { + lscond.result <- lscond(X, y, A, d, + beta0 = beta0) + betas <- lscond.result$betas + betas.h <- lscond.result$betas.h + SSE <- sum((y - X %*% betas)^2) + SSE.h <- sum((y - X %*% betas.h)^2) + numer <- (SSE.h - SSE)/nrow(A) + denom <- SSE/(nrow(X) - ncol(X)) + Qh <- numer/denom + p.value <- 1 - pf(Qh, nrow(A), nrow(X) + ncol(X)) + return(list(Qh = Qh, p.value = p.value)) + } Generemos datos artificiales: > X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2

79

> beta <- c(2, 3, 4) > y <- X %*% beta + rnorm(6) “Sabemos”, porque los datos han sido artificialmente generados, que β1 = 3 y β2 = 4. Probaremos a continuaci´n a contrastar la hip´tesis o o β1 = β2 , que debiera ser rechazada. La matriz A y vector c especificando dicha hip´tesis pueden construirse as´ o ı: > A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE) > d <- 0 El contraste puede entonces llevarse a cabo as´ ı:

´ 80 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES.
> result <- contraste.h(X, y, A = A, d = d, + beta0 = FALSE) > result$Qh [1] 161.11 > result$p.value [1] 0.0010548 Rechazar´ ıamos por consiguiente la hip´tesis contrastada para cualo quier nivel de significaci´n α > 0.0010548. o Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hip´tesis de inter´s de manera m´s simple. o e a En el caso que nos ocupa, si realmente β1 = β2 , Y = β0 X 0 + β1 X 1 + β2 X 2 + ǫ es equivalente a Y = β0 X0 + β1 (X1 + X2 ) + ǫ y las sumas de cuadrados SSE y SSEh podr´ obtenerse as´ ıan ı: > > > > + SSE <- sum(lsfit(X, y)$residuals^2) Xmod <- cbind(X[, 1], X[, 2] + X[, 3]) SSE.h <- sum(lsfit(Xmod, y)$residuals^2) Qh <- ((SSE.h - SSE)/1)/(SSE/(nrow(X) ncol(X))) (6.32) (6.31)

Puede verse que el valor de Qh as´ calculado es id´ntico al obtenido ı e m´s arriba: a > Qh [1] 161.11 Esta t´cnica de calcular las sumas de cuadrados SSE y SSEh en dos e regresiones ad-hoc puede ser muy frecuentemente utilizada. En el caso frecuente de hip´tesis de exclusi´n (alguno o varios betas iguales a o o cero), puede obtenerse SSEh de una regresi´n en que los regresores o correspondientes est´n ausentes. Si en nuestro ejemplo quisi´ramos a e contrastar h : β1 = β2 = 0, podr´ ıamos obtener SSE de la regresi´n o (6.31) y SSEh de la regresi´n o Y = β0 X0 + ǫ, para calcular el estad´ ıstico Qh as´ ı:

´ 6.2. CONTRASTE DE HIPOTESIS LINEALES.
> > > + > SSE <- sum(lsfit(X, y)$residuals^2) SSE.h <- sum(lsfit(X[, 1], y)$residuals^2) Qh <- ((SSE.h - SSE)/2)/(SSE/(nrow(X) ncol(X))) Qh

81

[1] 16956 El valor que dicho estad´ ıstico Qh deja en a su derecha en la distribuci´n o de referencia, > 1 - pf(Qh, 2, nrow(X) - ncol(X)) [1] 8.3193e-07 permite rechazar contundentemente la hip´tesis h : β1 = β2 = 0 cono trastada. Fin del ejemplo

6.2.1.

Contraste sobre coeficientes βi aislados.

El Teorema 6.2 permite obtener como casos particulares multitud de contrastes frecuentemente utilizados. Por ejemplo, la hip´tesis h : βi−1 = 0 puede o contrastarse tomando c = 0 y A = 0 · · · 1 · · · 0 , ocupando el unico ´ “uno” la posici´n i-´sima (recu´rdese que los par´metros β se numeran a o e e a partir de β0 ). En tal caso, Qh puede escribirse as´ ı: ˆ ˆ (βi−1 − 0)′ [(X ′ X)−1 ]−1 (βi−1 − 0) ii Qh = (6.33) σ2 ˆ donde (X ′ X)−1 = [A(X ′ X)−1 A ′ ] designa el elemento en la posici´n i-´sima o e ii ′ −1 de la diagonal principal de (X X) . Bajo la hip´tesis h, (6.33) sigue una o ˆ2 distribuci´n F1,N −p , y como σ 2 (X ′ X)−1 = σβ tenemos que: o ˆ ˆ ii
i−1

Qh =

ˆ βi−1 ∼ σβi−1 ˆˆ

F1,N −p ∼ tN −p

(6.34)

La regla de decisi´n que se deduce de (6.34) es: o Rechazar h : βi−1 = 0 al nivel de significaci´n α si o ˆ βi−1 α/2 > tN −p . σβi−1 ˆˆ ˆ El estad´ ıstico |βi−1 /ˆβi−1 | recibe el nombre de estad´ σˆ ıstico t o t-ratio. De forma an´loga se contrasta la hip´tesis h : βi−1 = c. a o

´ 82 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES.

6.2.2.

Contraste de significaci´n conjunta de la regreo si´n. o

Otra hip´tesis frecuentemente de inter´s es: h : β1 = · · · = βp−1 = 0 —es o e decir, nulidad de todos los par´metros, salvo el correspondiente a la columna a de “unos”, β0 —. En este caso,
N

SSEh =
i=1

(Yi − Y )2

y la hip´tesis h puede expresarse o  0 1 0 0 0 1  A = . . . . . . . . . 0 0 0

una matriz con (p − 1) filas y p columnas, y: c′ = 0 0 ···

en la forma Aβ = c siendo:  ··· 0 0 · · · 0 0  . . = 0 | I . . . . ··· 0 1 0

Pero SSEh en este caso particular es lo que hemos definido (Teorema 2.4, p´g. 28) como SST . Por tanto, a Qh = = = (SST − SSE)/(p − 1) SSE/(N − p) N − p (SST − SSE) × p−1 SSE N −p R2 × p−1 (1 − R2 )

siendo R el coeficiente de correlaci´n m´ltiple definido en el Teorema 2.4, o u p´g. 29. El contraste de h requiere solamente conocer R2 . Cuando h es cierta, a Qh se distribuye como una Fp−1,N −p .

6.3.

Construcci´n de intervalos de confianza o para la predicci´n. o

Supongamos de nuevo que trabajamos sobre el modelo Y = X β + ǫ con los supuestos habituales m´s el de normalidad en las perturbaciones. a

´ 6.3. INTERVALOS DE CONFIANZA PARA LA PREDICCION

83

Frecuentemente es de inter´s, adem´s de la estimaci´n de los par´metros, la e a o a utilizaci´n del modelo con finalidad predictiva. o Sea x∗ un vector p × 1 de valores a tomar por los regresores. La correspondiente Y∗ ser´: Y∗ = x∗ ′ β + ǫ∗ . Una predicci´n Y∗ del valor a tomar por a o ˆ ˆ ˆ la Y∗ es: Y∗ = x∗ ′ β. Teorema 6.3 Se verifica lo siguiente: 1. 2. ˆ E(Y∗ − Y∗ ) = 0 ˆ E(Y∗ − Y∗ )2 = σ 2 (1 + x∗ ′ (X ′ X)−1 x∗ )

´ Demostracion: El apartado 1) se sigue inmediatamente de las ecuaciones (6.35) y (6.36) a continuaci´n, consecuencia la primera de los supuestos habituales, y la o ˆ segunda de la insesgadez de β (Teorema 2.2, p´g. 19). a E(Y∗ ) = E(x∗ ′ β + ǫ∗ ) = x∗ ′ β ˆ ˆ E(Y∗ ) = E(x∗ ′ β) = x∗ ′ β (6.35) (6.36)

ˆ Se dice que Y∗ es una predicci´n insesgada de Y∗ . Observemos que: o ˆ ˆ E(Y∗ − Y∗ )2 = E[x∗ ′ β + ǫ ∗ − x∗ ′ β ]2 ˆ = E[x∗ ′ (β − β) + ǫ∗ ]2
′ 2

(6.37) (6.38)
2

ˆ = E[x∗ (β − β)] + E[ǫ∗ ] ˆ ˆ = E[x∗ ′ (β − β)(β − β)′ x∗ ] + E[ǫ∗ ]2 = x∗ ′ Σβ x∗ + σ 2 ˆ

(6.39) (6.40) (6.41) (6.42) (6.43)

= x∗ ′ σ 2 (X ′ X)−1 x∗ + σ 2 = σ 2 [1 + x∗ ′ (X ′ X)−1 x∗ ]

En el paso de (6.38) a (6.39) se ha hecho uso de la circunstancia de que ˆ ˆ β y ǫ∗ son independientes (β depende solamente de ǫ , y ǫ∗ es perturbaci´n o ˆ de una observaci´n adicional, distinta de las que han servido para estimar β o e independiente de ellas).

El examen de (6.43) muestra dos cosas. Una, que la varianza del error de predicci´n es mayor o igual que la varianza de la perturbaci´n (ya que o o x∗ ′ (X ′ X)−1 x∗ es una forma cuadr´tica semidefinida positiva). Esto es l´gico: a o ˆ∗ incorpora una fuente ǫ∗ es del todo impredecible, y, adem´s, la predicci´n Y a o ˆ en lugar de β . adicional de error, al emplear β

´ 84 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES. Por otra parte, (6.43) muestra que la varianza del error de predicci´n o ′ depende de x∗ . Habr´ determinadas Y∗ cuya predicci´n ser´ m´s precisa que a o a a la de otras. En el Cap´ ıtulo 9 volveremos sobre el particular.

6.4.

Lectura recomendada.

Sobre la teor´ ıa. Pueden ser consultados los manuales repetidamente citados: Seber (1977), Cap. 4, Draper and Smith (1998) Cap. 8, Stapleton (1995) Sec. 3.8, Pe˜a (2002) Sec. 7.7 son unos cuantos. n Sobre generadores de n´meros aleatorios, pueden consultarse Knuth (1968), u Kennedy (1980), Lange (1998), Thisted (1988) y, en general, cualquier texto sobre computaci´n estad´ o ıstica. Sobre el contraste raz´n generalizada de verosimilitudes, puede verse Cox o and Hinkley (1974) p. 313 y para su aplicaci´n al contraste de hip´tesis o o lineales generales, Stapleton (1995) Sec. 3.8. Sobre la utilizaci´n de R. En el Ejemplo 4.1, p´g. 56 y siguientes, se o a han definido las funciones lscond y contraste.h por motivos did´cticos. En a R hay funciones en varios paquetes que proporcionan an´loga funcionalidad. a Puede consultarse por ejemplo la documentaci´n de linear.hypothesis (pao quete car) y glh.test (paquete gmodels). Por lo que hace a intervalos de confianza, que tambi´n pueden obtenerse e f´cilmente de acuerdo con la teor´ esbozada en la Secci´n 6.3, puede ser de a ıa o utilidad la funci´n confint (paquete stats). o El empleo de dichas funciones, sin embargo, presupone familiaridad con la funci´n lm, que es objeto de atenci´n en el Cap´ o o ıtulo 7 a continuaci´n. o

6.4. LECTURA RECOMENDADA. Complementos y ejercicios 6.1 Demu´strese que si G es la matriz definida en (6.29) con A e y (X ′ X) ambas de rango completo, entonces rango(G) = rango(A).

85

´ 86 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES.

Cap´ ıtulo 7

Estimaci´n del modelo de o regresi´n lineal con R. o
En los cap´ ıtulos anteriores han aparecido fragmentos de c´digo ilustrando o el modo de llevar a cabo diversos c´lculos en R. Se presenta aqu´ la funci´n a ı o lm y algunas otras, para ilustrar tanto los conceptos te´ricos adquiridos como o la potencia del entorno de modelizaci´n proporcionado por R. o Este cap´ ıtulo es eminentemente pr´ctico y puede ser omitido sin p´rdia e da de continuidad por lectores que no est´n interesados en utilizar R como e herramienta de c´lculo. a

7.1.

Tipolog´ de variables explicativas. ıa

Interesar´ distinguir dos tipos de variables: cualitativas (tambi´n llamaa e das categ´ricas) y num´ricas. Las variables cualitativas se desglosan a su o e vez en nominales y ordinales. Una variable cualitativa nominal especifica una caracter´ ıstica o atributo que puede tomar un n´mero entero (y habitualmente peque˜o) de niveles u n o estados. Por ejemplo, una variable Zona podr´ tomar los niveles o estaıa dos: “Europa”, “Africa”, “Asia”, “America” y “Ocean´ Requeriremos que las ıa”. categor´ sean exhaustivas, de forma que todo caso muestral pueda recibir ıas un valor. Si es preciso, podemos crear una categor´ especial como “Otros” o ıa “Resto”. 87

88

´ CAP´ ITULO 7. REGRESION CON R

Una variable cualitativa ordinal se diferencia unicamente de una nominal ´ en que hay una ordenaci´n natural entre las categor´ Por ejemplo, en una o ıas. variable como Nivel de estudios podr´ ıamos tener categor´ como: “Sin ıas estudios”, “Primarios”, “Secundarios”, “Superiores”. La diferencia esencial con las variables nominales es que hay una ordenaci´n entre los distintos niveles: o cada una de las categor´ en el orden en que se hay escrito implica “m´s” ıas a estudios que la categor´ precedente. No hab´ en cambio, en el ejemplo ıa ıa, anterior una ordenaci´n natural entre las zonas geogr´ficas. o a Las variables que hemos denominado num´ricas pueden en principio poe nerse en correspondencia con un intervalo de n´meros reales. Ser´ el caso de u ıa variables como Peso ´ Temperatura (aunque en la pr´ctica el n´mero de o a u estados que pueden tomar es finito a causa de la precisi´n tambi´n finita de o e los instrumentos de medida que empleamos). En cierto sentido, los tres tipos de variables, en el orden en que se han descrito, reflejan una mayor finura o contenido informativo: una variable num´rie ca puede convertirse en ordinal fijando intervalos: por ejemplo, Temperatura podr´ convertirse en una variable ordinal con niveles “Fr´ “Templado” ıa ıo”, y “Caliente”, al precio de un cierto sacrificio de informaci´n: dos temperao turas de, por ejemplo, 80C y 93C podr´ ambas convertirse en “Caliente”, ıan perdi´ndose la informaci´n de que la segunda es superior a la primera. e o An´logamente, una variable ordinal puede tratarse como nominal, haciena do abstracci´n de su orden, tambi´n al precio de sacrificar cierta informaci´n. o e o

Observaci´n 7.1 En general, no interesar´ “degradar” una vao a riable trat´ndola como un tipo inferior, aunque en algunos casos, puea de convenirnos hacerlo. Por ejemplo, si examinamos la influencia de la renta sobre el consumo de un cierto bien en una muestra de familias, medir la renta en euros da al coeficiente β asociado la interpretaci´n o de “Incremento de consumo asociado a un incremento de renta de un euro”. T´ ıpicamente, tendr´ un valor muy peque˜o. Adem´s, el suponer a n a una dependencia lineal del consumo sobre la renta ser´ en la mayor´ a ıa de los casos poco realista. En tal caso, podr´ convenirnos redefinir ıa la variable renta en categor´ Los coeficientes estimados ser´n m´s ıas. a a f´cilmente interpretables, y tendremos un modelo m´s flexible, que no a a fuerza una relaci´n lineal entre renta y consumo. (Adicionalmente, si o la variable se obtiene por encuestaci´n, los sujetos podr´ ser m´s o ıan a veraces al encuadrarse en intervalos amplios de renta que al responder directamente sobre su valor.)

7.2. FACTORES Y DATAFRAMES.

89

7.2.

Factores y dataframes.

R ofrece excelentes facilidades para tratar variables de diferentes tipos como regresores. En la jerga de R, una variable cualitativa se denomina factor. Hay factores ordinarios, que permiten manejar variables cualitativas nominales, y factores ordenados (ordered factors), para variables cualitativas ordinales. El Ejemplo 7.1 a continuaci´n ilustra la manera de operar con o ellos. R: Ejemplo 7.1 Para que una variable sea un factor, hay que
especificarlo. Observemos el siguiente fragmento de c´digo: o > Zona.chr <- c("Europa", "Europa", "Asia", + "Africa", "America", "Oceanía", "Asia") > Zona <- as.factor(Zona.chr) > Zona.chr [1] "Europa" "Europa" "Asia" [5] "America" "Ocean´a" "Asia" ı > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Africa America Asia Europa Ocean´a ı Obs´rvese que Zona.chr y Zona se imprimen de manera similar, aune que uno es una cadena de caracteres y otro un factor. La diferencia estriba en las comillas en el primer caso y la l´ ınea adicional especificando los niveles en el segundo. Podemos preguntar la clase de objeto con la funci´n class o ver la structura con la funci´n str para ver la o o diferencia: > class(Zona.chr) [1] "character" > class(Zona) [1] "factor" > str(Zona.chr) chr [1:7] "Europa" "Europa" "Asia" ... "Africa"

90
> str(Zona)

´ CAP´ ITULO 7. REGRESION CON R

Factor w/ 5 levels "Africa","America",..: 4 4 3 1 2 5 3 Un factor tiene definidos niveles, en tanto una cadena de caracteres no: > levels(Zona.chr) NULL > levels(Zona) [1] "Africa" "America" "Asia" [5] "Ocean´a" ı "Europa"

Veamos ahora como definir un factor ordenado: > Estudios <- ordered(c("Superiores", "Medios", + "Medios", "Primarios", "Ningunos")) Si no se especifica lo contrario, el orden de los niveles se determina por el orden alfab´tico de sus denominaciones. Esto har´ que en Estudios e ıa el nivel “Medios” precediera a “Ningunos”, y ´ste a “Primarios”, lo que e es indeseable: > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos 4 Levels: Medios < Ningunos < ... < Superiores Para especificar un orden, podemos crear el objeto Estudios as´ ı: > Estudios <- ordered(c("Superiores", "Medios", + "Medios", "Primarios", "Ningunos", + "Medios", "Primarios"), levels = c("Ningunos", + "Primarios", "Medios", "Superiores")) > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Ningunos < Primarios < ... < Superiores

7.2. FACTORES Y DATAFRAMES.
Podemos de modo an´logo reordenar los niveles. Si, por ejemplo, quea remos revertir el orden, podemos hacerlo as´ ı:

91

> Estudios.1 <- ordered(Estudios, levels = c("Superiores", + "Medios", "Primarios", "Ningunos")) o, mas simplemente podemos revertir el orden de los niveles mediante la funcion rev, sin necesidad de enumerarlos. Comprobemos a continuaci´n que obtenemos en ambos casos el mismo objeto con el orden o de los niveles deseado: > Estudios.2 <- ordered(Estudios, levels = rev(levels(Estudios))) > Estudios.1 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < ... < Ningunos > Estudios.2 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < ... < Ningunos Una manipulaci´n que deseamos hacer de ordinario con factores no o ordenados es la de poner en primer lugar uno de los niveles, el nivel de referencia. Podemos lograrlo c´modamente con la funci´n relevel o o > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Africa America Asia Europa Ocean´a ı > Zona <- relevel(Zona, ref = "Asia") > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Asia Africa America Europa Ocean´a ı Veremos en el Ejemplo 7.5 la utilidad de esto. Definamos ahora dos variables num´ricas: e

92

´ CAP´ ITULO 7. REGRESION CON R
> Ingresos <- c(13456, 12345, 3456, 1234, + 6789, 4567, 2300) > Mortalidad <- c(0.003, 0.004, 0.01, 0.02, + 0.006, 0.005, 0.015) Podemos reunir variables de diferentes tipos en una dataframe. A todos los efectos, es como una matriz, pero presenta la peculiaridad de que sus columnas pueden ser de diferentes tipos: > Datos <- data.frame(Zona, Estudios, Ingresos, + Mortalidad) > Datos Zona Estudios Ingresos Mortalidad 1 Europa Superiores 13456 0.003 2 Europa Medios 12345 0.004 3 Asia Medios 3456 0.010 4 Africa Primarios 1234 0.020 5 America Ningunos 6789 0.006 6 Ocean´a ı Medios 4567 0.005 7 Asia Primarios 2300 0.015 > str(Datos)

³data.frame³: $ Zona : $ Estudios : $ Ingresos : $ Mortalidad:

7 obs. of 4 variables: Factor w/ 5 levels "Asia","Africa",..: 4 4 1 2 3 5 1 Ord.factor w/ 4 levels "Ningunos"<"Primarios"<..: 4 3 3 2 1 3 2 num 13456 12345 3456 1234 6789 ... num 0.003 0.004 0.01 0.02 0.006 0.005 0.015

Una dataframe tiene la misma representaci´n interna que una lista. o Podemos referirnos a sus t´rminos como a los elementos de una lista, e o proporcionando ´ ındices de fila y columna: > Datos$Ingresos [1] 13456 12345 > Datos[[3]] [1] 13456 12345 3456 1234 6789 4567 2300 3456 1234 6789 4567 2300

> Datos[, "Ingresos"] [1] 13456 12345 3456 1234 6789 4567 2300

7.2. FACTORES Y DATAFRAMES.
> Datos[3, 2:3] 3 Estudios Ingresos Medios 3456

93

Fin del ejemplo

Una dataframe provee un entorno de evaluaci´n. Muchas funciones en R o admiten un argumento data que permite especificar la dataframe en la que es preciso buscar las variables que se nombran. Adicionalmente, la instrucci´n attach hace que las columnas en una dataframe sean accesibles como o variables definidas en el espacio de trabajo. El Ejemplo 7.2, continuaci´n del o Ejemplo 7.1, lo ilustra. R: Ejemplo 7.2 Comencemos por eliminar del espacio de trabajo algunas variables: > rm(Zona, Estudios, Ingresos, Mortalidad) Si ahora tecle´ramos el nombre de alguna de ellas obtendr´ a ıamos un error. No obstante, tras invocar la funci´n attach sus columnas son o visibles como si variables en el espacio de trabajo se tratase: > attach(Datos) > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Asia Africa America Europa Ocean´a ı La funci´n detach revierte el efecto de attach: o > detach(Datos) Si un objeto existe en el espacio de trabajo, su valor oculta el de la columna del mismo nombre en una dataframe “attacheada”: > Zona <- c("a", "b", "c") > attach(Datos)

94

´ CAP´ ITULO 7. REGRESION CON R
The following object(s) are masked _by_ ³.GlobalEnv³: Zona > Zona [1] "a" "b" "c" Fin del ejemplo

7.3.

F´rmulas o

Bastantes funciones en R hacen uso de f´rmulas. Permiten, entre otras o cosas, especificar de modo simple modelos de regresi´n, simplemente nomo brando a la izquierda del s´ ımbolo ~ la variable respuesta, y a la derecha las variables regresores. Una f´rmula puede proporcionarse como argumento directamente para o estimar un modelo de regresi´n lineal ordinaria (mediante la funci´n lm; un o o ejemplo en la Secci´n 7.4), regresi´n lineal generalizada (mediante la funci´n o o o glm) o regresi´n no lineal (mediante la funci´n nlme en el paquete del mismo o o nombre). Por razones did´cticas, sin embargo, exploraremos primero el a modo en que los diferentes tipos de variables son tratados en una f´rmula o por la funci´n model.matrix. o La funci´n model.matrix recibe como argumentos una f´rmula y, opcioo o nalmente, una dataframe en la que los t´rminos de la f´rmula son evaluados. e o Proporciona la matriz de dise˜o asociada al modelo que especificamos en la n f´rmula. o R: Ejemplo 7.3 Supongamos que deseamos investigar la relaci´n entre la variable Mortalidad y la variable Ingresos. Podemos o construir la matriz de dise˜o as´ n ı: > X <- model.matrix(Mortalidad ~ Ingresos, + data = Datos) > X 1 2 3 4 (Intercept) Ingresos 1 13456 1 12345 1 3456 1 1234

´ 7.3. FORMULAS
5 1 6 1 7 1 attr(,"assign") [1] 0 1 6789 4567 2300

95

Como podemos ver, se ha a˜adido autom´ticamente una columna de n a “unos”. Si esto fuera indeseable por alg´n motivo, podr´ u ıamos evitarlo incluyendo como regresor “-1”. > X <- model.matrix(Mortalidad ~ -1 + Ingresos, + data = Datos) > X Ingresos 1 13456 2 12345 3 3456 4 1234 5 6789 6 4567 7 2300 attr(,"assign") [1] 1 Obs´rvese que la variable Mortalidad no juega ning´n papel en la e u conformaci´n de la matriz de dise˜o. Podr´ o n ıamos omitirla y dar s´lo el o lado derecho de la f´rmula, as´ o ı: > X <- model.matrix(~Ingresos, data = Datos) > X (Intercept) Ingresos 1 1 13456 2 1 12345 3 1 3456 4 1 1234 5 1 6789 6 1 4567 7 1 2300 attr(,"assign") [1] 0 1

96

´ CAP´ ITULO 7. REGRESION CON R
Fin del ejemplo

La comodidad que proporciona la utilizaci´n de f´rmulas se hace m´s o o a evidente, sin embargo, cuando tenemos regresores cualitativos. El Ejemplo 7.4 lo ilustra. R: Ejemplo 7.4 Consideremos un modelo que tiene como regresores Zona, Ingresos y Estudios. Podemos construir su matriz de dise˜o as´ n ı: > X <- model.matrix(~Zona + Estudios + Ingresos, + data = Datos) Las variables Zona y Estudios son cualitativas. Requieren ser tratadas de manera especial, y la funci´n model.matrix as´ lo hace. Veamos la o ı matriz de dise˜o que proporciona: n > X 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 (Intercept) ZonaAfrica ZonaAmerica ZonaEuropa 1 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 ZonaOcean´a Estudios.L Estudios.Q Estudios.C ı 0 0.67082 0.5 0.22361 0 0.22361 -0.5 -0.67082 0 0.22361 -0.5 -0.67082 0 -0.22361 -0.5 0.67082 0 -0.67082 0.5 -0.22361 1 0.22361 -0.5 -0.67082 0 -0.22361 -0.5 0.67082 Ingresos 13456 12345 3456 1234 6789 4567 2300

´ 7.3. FORMULAS
attr(,"assign") [1] 0 1 1 1 1 2 2 2 3 attr(,"contrasts") attr(,"contrasts")$Zona [1] "contr.treatment" attr(,"contrasts")$Estudios [1] "contr.poly"

97

La variable Ingresos (num´rica) ha sido dejada tal cual. La variable e Zona es cualitativa nominal, y requiere ser desglosada en tantas columnas como niveles tiene (as´ el β asociado a cada columna recoge el ı, efecto del correspondiente nivel). Eso es lo que ha hecho model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido de otro modo. El nivel omitido (Asia) pasa as´ a formar parte del caso de referencia: la ı funci´n relevel (ver Ejemplo 7.1) permitir´ cambiar f´cilmente el o ıa a nivel que forma parte del caso de referencia. El tratamiento de las variables ordinales como Estudios es algo m´s elaborado. En una variable ordinal hay una noci´n natural de a o proximidad entre niveles: el nivel de estudios Medios est´ m´s cerca del a a nivel Superiores que el nivel Primarios. Lo que hace model.matrix es conceptualmente equivalente a hacer lo siguiente (detalles en la Observaci´n 7.2, p´g. 98): o a 1. Asignar a cada nivel de Estudios un valor entero, respetando el orden de la variable: “Ningunos”=1, “Primarios”=2, “Medios”=3 y “Superiores”=4. 2. Con la variable Estudios as´ codificada, crear tantas columı nas para la variable Estudios como niveles tenga, de la forma: (Estudios)0 , (Estudios)1 , (Estudios)2 , (Estudios)3 . La primera columna, que es constante, es autom´ticamente desechada a si en la matriz de dise˜o existe columna de “unos”, para evitar la muln ticolinealidad. Las restantes son rotuladas con las letras “L” (Linear), “Q” (Quadratic), “C” (Cubic), y as´ sucesivamente. ı Si empleamos todas las columnas que model.matrix crea para una variable ordinal, obtenemos exactamente el mismo subespacio que habr´ ıamos obtenido con columnas de ceros y unos como las empleadas para una variable nominal: la ventaja de utilizar una base de dicho subespacio como la que model.matrix construye, es que permite en ocasiones realizar una modelizaci´n m´s simple: podemos, a voluntad, o a emplear en un modelo de regresi´n algunas, varias o todas las columnas o

98

´ CAP´ ITULO 7. REGRESION CON R
como regresores, para modelizar un efecto m´s o menos “suave” sobre a la variable respuesta. Fin del ejemplo

Observaci´n 7.2 Se indica en el Ejemplo 7.4 que el efecto de o
una variable ordinal se recoge de modo conceptualmente equivalente a construir potencias de orden creciente de la variable ordinal codificada por valores enteros que respetan el orden. Ayudar´ representar gr´ficaa a mente las columnas correspondientes de la matriz X frente a los enteros codificando los niveles de la variable Estudios. Para ello, eliminamos primero niveles duplicados y representaremos los restantes: > > > + + > > x <- as.numeric(Datos[, "Estudios"]) i <- !duplicated(x) plot(x[i], X[i, "Estudios.L"], type = "b", pch = "L", xaxp = c(1, 4, 3), xlab = "x", ylab = "Estudios.{L,Q,C}") points(x[i], X[i, "Estudios.Q"], pch = "Q") points(x[i], X[i, "Estudios.C"], pch = "C")

0.6

C Q

L Q

0.4

Estudios.{L,Q,C}

−0.2

0.0

0.2

L

C

C

L

−0.4

Q −0.6 L 1 2 x

Q C 3 4

´ 7.3. FORMULAS
Hemos dibujado una l´ ınea uniendo las “L” para destacar su crecimiento lineal. Las “Q” puede verse que se sit´an sobre una par´bola y u a las “C” sobre una funci´n c´bica. o u Un vistazo al gr´fico anterior muestra, sin embargo, que el t´rmino a e lineal, por ejemplo, no toma los valores 1, 2, 3 4, ni el cuadr´tico 1, 4, a 9, 16. En efecto, > X[i, 6:8] 1 2 4 5 Estudios.L Estudios.Q Estudios.C 0.67082 0.5 0.22361 0.22361 -0.5 -0.67082 -0.22361 -0.5 0.67082 -0.67082 0.5 -0.22361

99

En realidad se han rescalado las columnas y se han ortogonalizado: > round(crossprod(X[i, 6:8])) Estudios.L Estudios.Q Estudios.C Estudios.L Estudios.Q Estudios.C 1 0 0 0 1 0 0 0 1

Ello se hace por razones de conveniencia num´rica y de interpretaci´n. e o Aunque por razones did´cticas hemos construido primero la matriz a de dise˜o y extraido luego un subconjunto de filas y columnas para n ver como se codificaba la variable Estudios, R proporciona un modo m´s simple de hacerlo: a > contrasts(Datos[, "Estudios"]) [1,] [2,] [3,] [4,] .L .Q .C -0.67082 0.5 -0.22361 -0.22361 -0.5 0.67082 0.22361 -0.5 -0.67082 0.67082 0.5 0.22361

Observaci´n 7.3 El anterior es el comportamiento “por omio
si´n” de la funci´n model.matrix. Podemos alterarlo especificando o o distintos modos de desdoblar los factores y factores ordenados. Ello se hace invocando la funci´n options de modo similar al siguiente: o

100

´ CAP´ ITULO 7. REGRESION CON R
options(contrasts=c("contr.treatment","contr.poly")) La primera opci´n en el argumento contrasts se aplica a los factoo res, la segunda a los factores ordenados. Por ejemplo, para los factores podemos especificar que se desdoblen en tantas columnas como niveles haya, sin incluir ning´n nivel en el caso de referencia. Para ello, u deberemos proporcionar contr.sum como primer valor de contrasts: options(contrasts=c("contr.sum","contr.poly")) V´ase la documentaci´n de contrasts para m´s detalles. e o a Adicionalmente, podemos invocar directamente las funciones contr.sum, contr.treatment, contr.poly, contr.helmert para obtener informaci´n sobre el diferente modo en que quedar´ o ıa codificado un factor. Por ejemplo, > NivelEstudios <- levels(Datos[, "Estudios"]) > contr.sum(NivelEstudios) Ningunos Primarios Medios Superiores [,1] [,2] [,3] 1 0 0 0 1 0 0 0 1 -1 -1 -1

> contr.treatment(NivelEstudios) Ningunos Primarios Medios Superiores Primarios Medios Superiores 0 0 0 1 0 0 0 1 0 0 0 1

> contr.poly(NivelEstudios) .L .Q .C [1,] -0.67082 0.5 -0.22361 [2,] -0.22361 -0.5 0.67082 [3,] 0.22361 -0.5 -0.67082 [4,] 0.67082 0.5 0.22361 Obs´rvese que mientras contrasts se invoca tomando como argumene to un factor, las funciones contr.sum y similares toman como argumento el vector de niveles de un factor.

´ 7.4. LA FUNCION LM.

101

7.4.

La funci´n lm. o

La funci´n lm es un instrumento potente y c´modo de utilizar para el o o an´lisis de regresi´n lineal. Puede utilizarse con tan solo dos argumentos: a o una f´rmula y una dataframe que suministra los valores para evaluar las o expresiones en dicha f´rmula. Por ejemplo, as´ o ı: ajuste <lm(y ~ x1 + x2 + x4, data=datos)

La funci´n lm construye entonces la matriz de dise˜o mediante la funci´n o n o model.matrix y estima el modelo deseado, suministrando un c´mulo de inu formaci´n sobre la estimaci´n. El Ejemplo 7.5 a continuaci´n proporciona o o o detalles. R: Ejemplo 7.5 Veamos en primer lugar los datos que utilizaremos. Se trata de datos correspondientes a 47 estados en EE.UU. y referidos al a˜os 1960. Forman parte del paquete MASS (soporte n del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instrucci´n library(MASS)). Tras hacerlo, podemos obtener o informaci´n detallada sobre los datos tecleando help(UScrime). o > library(MASS) > UScrime[1:3, 1:5] M So Ed Po1 Po2 1 151 1 91 58 56 2 143 0 113 103 95 3 142 1 89 45 44 > str(UScrime)

³data.frame³: $ M : int $ So : int $ Ed : int $ Po1 : int $ Po2 : int $ LF : int $ M.F : int $ Pop : int $ NW : int $ U1 : int $ U2 : int $ GDP : int

47 obs. of 16 variables: 151 143 142 136 141 121 127 131 157 140 ... 1 0 1 0 0 0 1 1 1 0 ... 91 113 89 121 121 110 111 109 90 118 ... 58 103 45 149 109 118 82 115 65 71 ... 56 95 44 141 101 115 79 109 62 68 ... 510 583 533 577 591 547 519 542 553 632 ... 950 1012 969 994 985 964 982 969 955 1029 ... 33 13 18 157 18 25 4 50 39 7 ... 301 102 219 80 30 44 139 179 286 15 ... 108 96 94 102 91 84 97 79 81 100 ... 41 36 33 39 20 29 38 35 28 24 ... 394 557 318 673 578 689 620 472 421 526 ...

102
$ $ $ $ Ineq: Prob: Time: y : int num num int

´ CAP´ ITULO 7. REGRESION CON R
261 194 250 167 174 126 168 206 239 174 ... 0.0846 0.0296 0.0834 0.0158 0.0414 ... 26.2 25.3 24.3 29.9 21.3 ... 791 1635 578 1969 1234 682 963 1555 856 705 ...

La funci´n str permite ver la estructura de cualquier objeto en R. Lo o que muestra en el fragmento anterior es que UScrime es una dataframe. En este caso, todas las variables son num´ricas, algunas reales (num) y e otras enteras (int). Vemos tambi´n que tiene 47 filas (=observaciones) e y 16 columnas (=posibles regresores). Probemos ahora a hacer una regresi´n1 . La variable y (tasa de o criminalidad) podemos relacionarla con la desigualdad(Ineq), probabilidad de ser encarcelado (Prob) y con un indicador de Estado sure˜o n (So): > fit <- lm(y ~ Ineq + Prob + So, data = UScrime) > fit Call: lm(formula = y ~ Ineq + Prob + So, data = UScrime) Coefficients: (Intercept) 1538.36 So 242.99

Ineq -1.58

Prob -8698.46

El objeto fit, al imprimirlo, proporciona una informaci´n muy suo maria: apenas la descripci´n del modelo ajustado y los coeficientes o estimados. El empleo de la funci´n summary, sin embargo, proporcioo na un estadillo con informaci´n mucho m´s completa. o a > summary(fit) Call: lm(formula = y ~ Ineq + Prob + So, data = UScrime) Residuals: Min 1Q Median -662.8 -163.8 -56.1
1

3Q Max 82.5 1057.4

No se afirma que el modelo que ensayamos sea el mejor en ning´ n sentido: es s´lo una u o ilustraci´n. El Cap´ o ıtulo 12 abordar´ la cuesti´n de c´mo seleccionar modelos. a o o

´ 7.4. LA FUNCION LM.
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1538.36 345.84 4.45 6e-05 Ineq -1.58 1.95 -0.81 0.4220 Prob -8698.46 2725.42 -3.19 0.0026 So 242.99 169.48 1.43 0.1589

103

(Intercept) *** Ineq Prob ** So --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 353 on 43 degrees of freedom Multiple R-squared: 0.22, Adjusted R-squared: 0.166 F-statistic: 4.05 on 3 and 43 DF, p-value: 0.0127 Desmenucemos la salida anterior. Se imprime, en primer lugar, el modelo ajustado y unos estad´ ısticos sobre los residuos (m´ ınimo, m´ximo a y cuartiles, es decir, valores dejando a su izquierda el 25 %, 50 % y 75 % de los residuos; el segundo cuartil es la mediana). A continuaci´n, teo nemos un estadillo proporcionando para cada regresor mencionado al margen: ˆ 1. Su βi (bajo Estimate). 2. Su σβi (bajo Std. Error). ˆˆ 3. Su estad´ ıstico t, ˆ βi σβi ˆˆ

(bajo t value). 4. La probabilidad bajo la hip´tesis nula H0 : βi = 0 de obtener un o valor del estad´ ıstico t tan o m´s alejado de cero que el obtenido a (bajo Pr(>|t|)). A continuaci´n tenemos o SSE , N −p (Residual standard error), que estima σǫ , los grados de libertad 2 N − p, (43 degrees of freedom), R2 (que toma el valor 0.22) y R (Adjusted R-squared; este ultimo estad´ ´ ıstico ser´ introducido en el a Cap´ ıtulo 12). Finalmente, tenemos el estad´ ıstico Qh para contrastar

104

´ CAP´ ITULO 7. REGRESION CON R
significaci´n conjunta de la regresi´n, como se indica en la Secci´n 6.2.2 o o o (F-statistic). Aqu´ toma el valor 4.05. Dicho valor deja a su derecha ı en una distribuci´n F3,43 una cola de probabilidad 0.0127, que es el o nivel de significaci´n conjunto de la regresi´n ajustada. o o El objeto compuesto fit contiene la informaci´n que ha permitido o imprimir todos los anteriores resultados y mucha otra, cuyos nombres son autoexplicativos: > attributes(fit) $names [1] "coefficients" [3] "effects" [5] "fitted.values" [7] "qr" [9] "xlevels" [11] "terms" $class [1] "lm" Podemos referirnos a los componentes de fit y emplearlos en c´lculos a subsiguientes. Por ejemplo, para obtener la suma de cuadrados de los residuos, SSE, podr´ ıamos hacer: > SSE <- sum(fit$residuals^2) > SSE [1] 5363970 El estadillo anterior suger´ que el regresor Prob era muy significativo, ıa en tanto los restantes no lo eran. Podemos contrastar la hip´tesis H0 : o β Ineq = β So = 0 del modo sugerido al final del Ejemplo 6.2, p´g. 80: a ajustamos una segunda regresi´n eliminando los regresores Ineq y So, o > fit.h <- lm(y ~ Prob, data = UScrime) calculamos la suma de cuadrados de sus residuos, > SSE.h <- sum(fit.h$residuals^2) y a continuaci´n el estad´ o ıstico Qh asociado a la hip´tesis y los grados o de libertad del mismo: "residuals" "rank" "assign" "df.residual" "call" "model"

´ 7.4. LA FUNCION LM.
> > > > > N <- nrow(UScrime) q <- 2 p <- 4 Qh <- ((SSE.h - SSE)/q)/(SSE/(N - p)) Qh

105

[1] 1.0417 La probabilidad que el valor 1.0417 del estad´ ıstico deja en la cola a su derecha es > 1 - pf(Qh, q, N - p) [1] 0.3616 lo que sugiere que podemos prescindir de dichos dos regresores. La instrucci´n anova proporciona una descomposici´n de la suma o o de cuadrados de los residuos correpondiente a cada regresor cuando se introducen en el orden dado. Comp´rese por ejemplo, a > anova(fit) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Ineq 1 220530 220530 1.77 0.191 Prob 1 1040010 1040010 8.34 0.006 ** So 1 256417 256417 2.06 0.159 Residuals 43 5363970 124743 --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 con: > fit2 <- lm(y ~ Prob + Ineq + So, data = UScrime) > anova(fit2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Prob 1 1257075 1257075 10.08 0.0028 **

106

´ CAP´ ITULO 7. REGRESION CON R
Ineq 1 3466 3466 0.03 0.8684 So 1 256417 256417 2.06 0.1589 Residuals 43 5363970 124743 --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Fin del ejemplo

No hay ninguna necesidad ni aparente ventaja en hacerlo as´ pero a efecı, tos puramente ilustrativos re-estimaremos la regresi´n anterior convirtiendo o previamente la variable indicadora So (Estado del Sur) en una variable nominal y la variable Ineq en una variable ordinal (o factor ordenado). Para lo primero, basta que reemplacemos la columna So de la dataframe del siguiente modo:
> UScrime[, "So"] <- factor(UScrime[, "So"], + labels = c("Norte", "Sur"))

Para la segunda variable, dividiremos su recorrido en tres intervalos, y a continuaci´n definimos un factor ordenado con tres categor´ o ıas:
> Temp <- ordered(cut(UScrime[, "Ineq"], + breaks = 3), labels = c("Baja", "Media", + "Alta")) > UScrime[, "Ineq"] <- Temp

Podemos ahora repetir la estimaci´n anterior: o R: Ejemplo 7.6 (continuaci´n del Ejemplo 7.5) o
> fit3 <- lm(y ~ Prob + Ineq + So, data = UScrime) > summary(fit3) Call: lm(formula = y ~ Prob + Ineq + So, data = UScrime) Residuals: Min 1Q Median -641.9 -195.5 -55.4

3Q Max 124.3 1059.5

´ 7.4. LA FUNCION LM.
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1212.4 134.8 8.99 2.4e-11 Prob -9013.8 2717.7 -3.32 0.0019 Ineq.L -143.2 132.7 -1.08 0.2866 Ineq.Q -10.6 110.4 -0.10 0.9238 SoSur 284.8 184.3 1.55 0.1298

107

(Intercept) *** Prob ** Ineq.L Ineq.Q SoSur --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.232, Adjusted R-squared: 0.159 F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229

La variable ordinal Ineq da lugar a tres t´rminos (constante, omitido e por colineal con la columna de unos, lineal y cuadr´tico). La variable a nominal So se desglosa tambi´n en dos: el nivel “Norte” se integra en e el caso de referencia y el par´metro restante mide el efecto deferencial a del nivel “Sur” respecto al nivel “Norte”. A t´ ıtulo ilustrativo, podemos ajustar la anterior regresi´n empleando un diferente desdoblamiento o del regresor cualitativo So: > options(contrasts = c("contr.sum", "contr.poly")) > fit4 <- lm(y ~ Prob + Ineq + So, data = UScrime) > summary(fit4) Call: lm(formula = y ~ Prob + Ineq + So, data = UScrime) Residuals: Min 1Q Median -641.9 -195.5 -55.4

3Q Max 124.3 1059.5

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1354.7 151.0 8.97 2.6e-11 Prob -9013.8 2717.7 -3.32 0.0019

108
Ineq.L Ineq.Q So1 -143.2 -10.6 -142.4

´ CAP´ ITULO 7. REGRESION CON R
132.7 110.4 92.1 -1.08 -0.10 -1.55 0.2866 0.9238 0.1298

(Intercept) *** Prob ** Ineq.L Ineq.Q So1 --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.232, Adjusted R-squared: 0.159 F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229 (V´ase la Observaci´n 7.3.) Vemos un s´lo regresor asociado a So1, el e o o primer nivel de So; el asociado al segundo nivel es su opuesto, ya que contr.sum fuerza los coeficientes asociados a un regresor nominal a sumar cero. Si observamos los dos ajustes, vemos que son id´nticos. Lo unie ´ co que se altera es la interpretaci´n de los par´metros. En fit3, el o a tratarse de un Estado del Sur ten´ como efecto incrementar la tasa ıa de criminalidad en 284.8, respecto de la tasa prevalente en un Estado del Norte de an´logas caracter´ a ısticas. La parametrizaci´n en el model o fit4 expresa lo mismo de otro modo: en un Estado del Norte, la criminalidad desciende en -142.4 sobre el nivel promedio de Norte y Sur, mientras que en un Estado del Sur aumenta en 142.4. La diferencia entre ambos niveles contin´a siendo 284.8. u Puede encontrarse una discusi´n exhaustiva de las diferentes opo ciones de parametrizaci´n disponibles en Venables and Ripley (1999a), o Sec. 6.2. Fin del ejemplo

7.5.

Lectura recomendada.

Sobre R. Son ya bastantes las obras que es posible consultar sobre la utilizaci´n de R como herramienta para los c´lculos que requiere la regresi´n o a o lineal. Una excelente referencia es Venables and Ripley (1999a). Exclusivamente orientado a modelos lineales es Faraway (2005).

Cap´ ıtulo 8

Inferencia simult´nea. a

8.1.
8.1.1.

Problemas que plantea el contrastar m´lu tiples hip´tesis simult´neas o a
Evidencia contra una hip´tesis o

Si examinamos la teor´ sobre contrastes de hip´tesis presentada en la ıa o Secci´n 6.2 veremos que el m´todo ha sido el habitual en Estad´ o e ıstica no bayesiana. Los pasos se pueden esquematizar as´ ı: 1. Fijar una hip´tesis H0 sobre los par´metros de un modelo. o a 2. Seleccionar un estad´ ıstico cuya distribuci´n sea conocida cuando H0 es o cierta y que se desv´ de modo predecible de dicha distribuci´n cuando ıa o H0 no es cierta. 3. Calcular el valor del estad´ ıstico en una determinada muestra. 4. Si el valor de dicho estad´ ıstico es an´malo respecto de lo que o esperar´ ıamos bajo H0 , rechazar H0 . La l´gica subyacente es: “Como cuando H0 es cierta es dif´ que se de o ıcil un valor del estad´ ıstico como el observado, lo m´s plausible es que H0 no sea a cierta.” 109

110

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.

Cuando el estad´ ıstico que empleamos en el contraste tiene una distribuci´n continua, todos los valores posibles tienen probabilidad cero. No obstano te, podemos ordenarlos de m´s a menos “raros” de acuerdo con su densidad a respectiva. Ejemplo 8.1 Para una muestra X1 , . . . , Xn procedente de una distribuci´n N (µ, σ 2 ), todos los posibles valores del estad´ o ıstico X tienen probabilidad cero. No obstante, la distribuci´n de dicho estad´ o ıstico —una N (µ, σ 2 /n)— genera de modo frecuente observaciones en las cercan´ de µ, y s´lo raramente valores en las colas. Consideraremos a ıas o estos ultimos “raros” y favoreciendo el rechazo de H0 . Tienen densidad ´ menor que los cercanos a µ.
Fin del ejemplo

Tendr´ inter´s en lo que sigue la noci´n de nivel de significaci´n emp´ a e o o ırico 1 . Definici´n 8.1 Llamamos nivel de significaci´n emp´ o o ırico asociado al valor observado de un estad´ ıstico a la probabilidad de obtener en el muestreo (bajo H0 ) valores tan o m´s raros que el obtenido. a Ejemplo 8.2 En el Ejemplo 8.1, supongamos que H0 : µ = 0. Supongamos conocida σ 2 = 1. Sea una muestra con n = 100, e ima√ ginemos que obtenemos un valor de X de 0.196 (= 1,96 × 100−1 ). El nivel de significaci´n emp´ o ırico (u observado) ser´ 0.05, porque baıa jo H0 hay probabilidad 0.05 de observar valores de X igual o m´s a alejados de µ que el que se ha presentado.
Fin del ejemplo

Si en ocasiones al abordar un contraste de hip´tesis prefijamos de ano temano el nivel de significaci´n que deseamos utilizar (y la regi´n cr´ o o ıtica), es muy frecuente realizar el contraste sin una regi´n cr´ o ıtica preespecificada y tomar el nivel de significaci´n emp´ o ırico como una medida del acuerdo (o desacuerdo) de la evidencia con la hip´tesis de inter´s. Niveles de significaci´n o e o emp´ ıricos muy peque˜os habr´ as´ de entenderse como evidencia contra la n ıan ı hip´tesis nula objeto de contraste. o
1

O p-value, en la literatura inglesa.

´ ´ ´ 8.1. MULTIPLES HIPOTESIS SIMULTANEAS

111

8.1.2.

¿C´mo de “raro” ha de ser algo para ser realo mente “raro”?

El siguiente ejemplo2 ilustra que un resultado aparentemente muy raro puede no serlo tanto. Ejemplo 8.3 Consideremos un mono frente a una m´quina de a escribir. Imaginemos que tras un periodo de tiempo observamos el conjunto de folios tecleados por el mono y constatamos que ¡ha escrito sin una s´la falta de ortograf´ Hamlet! o ıa Bajo la hip´tesis nula H0 : “mono irracional”, tal resultado es abo solutamente inveros´ ımil. La probabilidad de que golpeando al azar el teclado un mono logre tal cosa es rid´ ıculamente baja. Supongamos que una obra como Hamlet requiriera, entre blancos y caracteres, de 635000 digitaciones. Supongamos que hay 26 letras m´s caracteres de a puntuaci´n, etc. totalizando 32 posibilidades de digitaci´n. Componer o o Hamlet totalmente al azar consistir´ en apretar la tecla correcta suıa cesivamente 635.000 veces, algo que, suponiendo las 32 posibilidades de digitaci´n equiprobables, tendr´ probabilidad: o ıa
p= 1 32
635000

≈ 5,804527 × 10−955771 .

(8.1)

La observaci´n de un mono que teclea Hamlet ser´ pr´cticamente o ıa a imposible bajo H0 : habr´ ıamos de rechazar H0 y pensar en alguna alternativa (¿quiz´ Shakespeare reencarnado en un mono?) a Imaginemos ahora una multitud de monos a los que situamos frente a m´quinas de escribir, haci´ndoles teclear a su entero arbitrio 635.000 a e digitaciones. Espec´ ıficamente, imaginemos 10955771 monos. Supongamos que examinando el trabajo de cada uno de ellos, nos topamos con que el mono n-´simo ¡ha compuesto Hamlet! ¿Lo separar´ e ıamos de sus cong´neres para homenajearlo como reencarnaci´n de Shakese o peare? Claramente no; porque, entre tantos, no es extra˜o que uno, n por puro azar, haya tecleado Hamlet. De hecho, si todos los conjuntos de 635.000 digitaciones son equiprobables, del trabajo de 10955771 monos esperar´ ıamos obtener en torno a 5,8045 transcripciones exactas de Hamlet. Lo observado no es raro en absoluto. Fin del ejemplo

El ejemplo anterior, deliberadamente extremo e inveros´ ımil, ilustra un punto importante. Algo, aparentemente lo mismo, puede ser raro o no dependiendo del contexto. Observar un mono tecleando Hamlet es rar´ ısimo, pero
2

Par´frasis de un c´lebre comentario de Bertrand Russell. a e

112

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.

si seleccionamos el mono entre una mir´ ıada de ellos precisamente porque ha tecleado Hamlet, ya no podemos juzgar el suceso observado del mismo modo. ¡Hemos seleccionado la observaci´n por su rareza, no podemos extra˜arnos o n de que sea rara! Cuando seleccionamos la evidencia, hemos de tenerlo en cuenta al hacer inferencia. De otro modo, estaremos prejuzgando el resultado.

8.1.3.

An´lisis exploratorio e inferencia a

Es importante entender lo que el Ejemplo 8.3 intenta transmitir. El error, frecuente en el trabajo aplicado, es seleccionar la evidencia e ignorar este hecho al producir afirmaciones o resultados de tipo inferencial como rechazar tal o cual hip´tesis con nivel de significaci´n p, construir tal o cual intero o valo con confianza (1 − p). Es el valor de p que reportamos el que resulta completamente irreal a menos que corrijamos el efecto de la selecci´n. o Ejemplo 8.4 Regresemos al Ejemplo 8.3. Imaginemos la segunda situaci´n descrita en que uno entre los 10955771 monos examinados o compone Hamlet. Ser´ incorrecto rechazar la hip´tesis H0 : “Los moıa o nos son irracionales.” atribuyendo a esta decisi´n un nivel de significao ci´n de 5,804525 × 10−955771 . Por el contrario, la probabilidad de que o ninguno de los monos hubiera tecleado Hamlet ser´ ıa: p0 = (1 − p)10 = 1−
955771 955770 635000 10

1 32

≈ 0,0030138, el ultimo valor calculado haciendo uso de una aproximaci´n de Poisson ´ o (con media λ = 5,804527). Por tanto, la probabilidad de observar una o m´s transcripciones de Hamlet (un suceso tan raro o m´s raro que el a a observado, bajo H0 ) ¡es tan grande como 1 − 0,0030138 = 0,9969862! Dif´ ıcilmente considerar´ ıamos evidencia contra la hip´tesis nula algo o que, bajo H0 , acontece con probabilidad mayor que 0.99. Fin del ejemplo

Nada nos impide, sin embargo, hacer an´lisis exploratorio: examinar nuesa tros datos, y seleccionar como interesante la evidencia que nos lo parezca.

´ ´ ´ 8.1. MULTIPLES HIPOTESIS SIMULTANEAS Ejemplo 8.5 De nuevo en el Ejemplo 8.3, no hay nada reprobable en examinar el trabajo de cada uno de los monos y detenernos con toda atenci´n a examinar al animal que produce Hamlet. Seguramente o le invitar´ ıamos a seguir escribiendo. Ser´ del mayor inter´s que ese ıa e mono produjera a continuaci´n Macbeth. o Lo que es reprobable es seleccionar el unico mono que teclea Hamlet ´ y reportar el hallazgo como si ese mono fuera el unico observado. ´

113

Fin del ejemplo

8.1.4.

Inferencia simult´nea y modelo de regresi´n lia o neal ordinario

Pero ¿qu´ tiene ´sto que ver con el modelo de regresi´n lineal, objeto de e e o nuestro estudio? Bastante. En ocasiones, hemos de hacer uso de modelos con un n´mero u grande de par´metros. Cuando ello ocurre, hay muchas hip´tesis que podea o mos plantearnos contrastar. Si lo hacemos, hemos de ser conscientes de que algunas hip´tesis ser´n objeto de rechazo con una probabilidad mucho mayor o a que el nivel de significaci´n nominal empleado para contrastar cada una de o ellas. El siguiente ejemplo lo aclara. Ejemplo 8.6 Supongamos el modelo
Y = β0 X 0 + β1 X 1 + . . . + β99 X 99 + ǫ .

Supongamos, por simplicidad, normalidad de las perturbaciones y ortogonalidad de las columnas de la matriz de dise˜o. Dicho modelo n tiene su origen en nuestra completa ignorancia acerca de cu´l de las a cien variables regresoras consideradas, si es que alguna, influye sobre la respuesta. Si quisi´ramos contrastar la hip´tesis H0 : βi = 0, i = 0, . . . , 99, poe o dr´ ıamos (si se verifican los supuestos necesarios) emplear el contraste presentado en la Secci´n 6.2.2, p´g. 82. Podr´ o a ıamos ser m´s ambiciosos a e intentar al mismo tiempo ver cu´l o cuales βi son distintos de cero. a Ser´ incorrecto operar as´ ıa ı: 1. Contrastar las hip´tesis H0i : βi = 0 al nivel de significaci´n α o o α/2 comparando cada t-ratio en valor absoluto con tN −p . 2. Si alg´n t-ratio excede tN −p , rechazar la hip´tesis H0i , y por u o consiguiente H0 , reportando un nivel de significaci´n α. o
α/2

114

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.
Es f´cil ver por qu´ es incorrecto. Bajo H0 hay probabilidad tan s´lo a e o α/2 α de que un t-ratio prefijado exceda en valor absoluto de tN −p . Pero la probabilidad de que alg´n t-ratio exceda de tN −p es3 u Prob(Alg´n βi = 0) = 1 − (1 − α)p . u (8.2)
α/2

mayor (en ocasiones mucho mayor ) que α. Tomemos por ejemplo el caso examinado en que p = 100 y supongamos α = 0,05. La probabilidad de obtener alg´n t-ratio fuera de l´ u ımites es 1 − 0,95100 = 0,9940. Lejos de tener un nivel de significaci´n de α = 0,05, el que tenemos es o de 0,9940. Contrastar la hip´tesis H0 de este modo tiene una probabio lidad de falsa alarma de 0.9940. Si nuestro prop´sito fuera puramente exploratorio, nada debe dio suadirnos de estimar el modelo con los cien regresores y examinar luego las variables asociadas a t-ratios mayores, quiz´ estimando un a modelo restringido con muestra adicional. Lo que es inadmisible es dar un nivel de significaci´n incorrectamente calculado. o Fin del ejemplo

El problema de inferencias distorsionadas es grave y muchas veces indetectable. Pensemos en el investigador que hace multitud de regresiones, quiz´ a miles, a cu´l m´s descabellada. Por puro azar, encuentra una pocas con R2 a a muy alto, escribe un art´ ıculo y lo publica. Si el experimento es reproducible, cabe esperar que otros investigadores tratar´n de replicarlo y, al no lograrlo a 2 —el R alto era casualidad—, la supercher´ quedar´ al descubierto. Pero si la ıa a investigaci´n versa sobre, por ejemplo, Ciencias Sociales, en que con frecueno cia una y s´lo una muestra est´ disponible, todo lo que sus colegas podr´n o a a hacer es reproducir sus resultados con la unica muestra a mano. A menos que ´ el primer investigador tenga la decencia de se˜alar que el alto R2 obtenido n era el m´s alto entre miles de regresiones efectuadas (lo que permitir´ calcua ıa lar correctamente el nivel de significaci´n y apreciar de un modo realista su o valor como evidencia), es f´cil que su trabajo pase por ciencia. a De nuevo es preciso insistir: no hay nada objetable en la realizaci´n de o miles de regresiones, quiz´ con car´cter exploratorio. Tampoco es objetable el a a concentrar la atenci´n en la unica (o las pocas) que parecen prometedoras. Al o ´ rev´s, ello es muy sensato. Lo que es objetable es reportar dichas regresiones e como si fueran las unicas realizadas, el resultado de estimar un modelo prefi´ jado de antemano, dando la impresi´n de que la evidencia muestral sustenta o
Bajo la hip´tesis de independencia entre los respectivos t-ratios, hip´tesis que se verio o fica por la normalidad de las perturbaciones y la ortogonalidad entre las columnas de la matriz de dise˜ o. n
3

8.2. DESIGUALDAD DE BONFERRONI.

115

una hip´tesis o modelo pre-establecidos, cuando lo cierto es que la hip´tesis o o o modelo han sido escogidos a la vista de los resultados.

8.2.

Desigualdad de Bonferroni.

Consideremos k sucesos, Ei , (i = 1, . . . , k), cada uno de ellos con probabilidad (1 − α). Designamos por E i el complementario del suceso Ei . La probabilidad de que todos los sucesos Ei , (i = 1, . . . , k) acaezcan simult´neaa mente es: Prob{∩k Ei } = 1 − Prob{∩k Ei } = 1 − Prob{∪k Ei } ≥ 1 − kα i=1 i=1 i=1 (8.3)

Se conoce (8.3) como desigualdad de Bonferroni de primer orden. Es una igualdad si los Ei son disjuntos. Muestra que la probabilidad conjunta de varios sucesos puede, en general, ser muy inferior a la de uno cualquiera de ellos. Por ejemplo, si k = 10 y Prob{Ei } = 0,95 = 1 − 0,05, la desigualdad anterior solo permite garantizar que Prob{∩k Ei } ≥ 1 − 10 × 0,05 = 0,50. i=1 Consideremos ahora el modelo Y = X β + ǫ y los siguientes sucesos:
α/2 ˆ E1 : [(β1 ± σβ1 tN −p ) ˆˆ . . . α/2 ˆ Ek : [(βk ± σ ˆ t ˆ ) βk N −p

cubre β1 ]

(8.4) (8.5)

cubre βk ]

(8.6)

Cada Ei por separado es un suceso cuya probabilidad es 1 − α. De acuerdo con (8.3), sin embargo, todo cuanto podemos asegurar acerca de Prob{∩k Ei } es que su probabilidad es superior a 1 − kα. i=1 Las implicaciones son importantes. Si regres´ramos Y sobre X0 , . . . , Xp−1 a y quisi´ramos obtener intervalos de confianza simult´neos α para los par´mee a a tros β0 , · · · , βp−1 , ser´ claramente incorrecto emplear los que aparecen en ıa (8.4)–(8.6). Si actu´semos de este modo, el nivel de confianza conjunto no a ser´ el deseado de 1 − α, sino que tan s´lo podr´ ıa o ıamos afirmar que es mayor que 1 − kα. Si queremos intervalos de confianza simult´neos al nivel 1 − α, podr´ a ıamos construir intervalos para cada uno de los par´metros con un nivel de confianza a α e ıamos que la probabilidad de que todos los βi ψ = k . Haciendo ´sto, tendr´ fueran cubiertos por sus respectivos intervalos, ser´ mayor, de acuerdo con ıa α (8.3), que 1 − kψ = 1 − k( k ) = 1 − α. Ello se logra, sin embargo, al coste de ensanchar el intervalo de confianza correspondiente a cada βi quiz´ m´s de a a lo necesario. En lo que sigue veremos procedimientos para lograr el mismo resultado con intervalos en general m´s estrechos. a

116

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.

8.3.

Intervalos de confianza basados en la m´a xima t.

Supongamos que tenemos k variables aleatorias independientes, t1 , . . . , tk con distribuci´n t-Student, y n´mero com´n n de grados de libertad. La variao u u ble aleatoria m´x{|t1 |, . . . , |tk |} sigue una distribuci´n que se halla tabulada4 . a o Sea uα el cuantil 1 − α de dicha distribuci´n, es decir, un valor que o k,n resulta superado con probabilidad α por m´x{|t1 |, . . . , |tk |}. Entonces, a Prob{∩k [|ti | ≤ uα ]} = 1 − α, i=1 k,n a a dado que si uα acota con probabilidad 1 − α al m´ximo, acota simult´neak,n mente con la misma probabilidad la totalidad de las variables aleatorias. ˆ σ ˆ o Si ai ′ β/ˆai ′ β (i = 1, . . . , k) fueran independientes, y la hip´tesis nula ′ h : ai β = 0 (i = 1, . . . , k) fuera cierta, tendr´ ıamos que:
k

Prob
i=1

ˆ ai ′ β ≤ uα k,n σai ′ β ˆ ˆ

=1−α

(8.7)

ˆ σ ˆ Es claro que ai ′ β/ˆai ′ β (i = 1, . . . , k) no son independientes. Sin embargo, la distribuci´n aludida del m´ximo valor absoluto de k variables t de Student o a est´ tambi´n tabulada cuando dichas variables tienen correlaci´n ρ por pares. a e o (Esto sucede en algunos casos particulares, como el de ciertos dise˜os de n An´lisis de Varianza equilibrados: la correlaci´n ρ entre parejas de t-ratios es a o la misma, y f´cil de calcular.) a A´n cuando la correlaci´n ρ por pares de t-ratios no sea siempre la misma, u o (8.7) es de utilidad. Suministra intervalos simult´neos de confianza aproximaa da 1 − α. En caso de que conozcamos ρ, podemos emplear la expresi´n (8.7) o con uα reemplazado por uα , extra´ ´ste ultimo de la tabla corresponıdo e ´ k,n k,n,ρ diente; en caso de que no conozcamos ρ, o ´sta no sea constante, podemos e utilizar uα , lo que hace en general los intervalos calculados con ayuda de k,n,ρ=0 (8.7) conservadores (es decir, la probabilidad conjunta en el lado izquierdo de (8.7) es mayor que 1 − α). Es importante se˜alar que, si nuestro objetivo es contrastar una hip´tesis n o del tipo h : Aβ = c con rango(A) > 1, tenemos que emplear un contraste como el descrito en la Secci´n 6.2, p´g. 75. El comparar cada una de las o a α/2 ′ˆ variables aleatorias (ai β − ci )/ˆai ′ β σ ˆ (i = 1, . . . , k) con una tN −p supone emplear un nivel de significaci´n mayor que α. Como caso particular, es o
4

V´ase, por ej., Seber (1977), Ap´ndice E. e e

´ ´ 8.4. METODO S DE SCHEFFE.

117

inadecuado contrastar la hip´tesis h : β1 = · · · = βp = 0 comparando cada o α/2 uno de los t-ratios con tN −p ; tal contraste tendr´ un nivel de significaci´n ıa o sensiblemente superior a α, en especial si p es grande. En el caso de que el contraste conjunto rechace h : Aβ = c y queramos saber qu´ filas de A son culpables del rechazo, podr´ e ıamos comparar α ′ˆ u o (ai β − ci )/ˆai ′ β (i = 1, . . . , k) con uk,n (k = n´mero de filas de A). N´σ ˆ tese que es perfectamente posible rechazar la hip´tesis conjunta y no poder o rechazar ninguna de las hip´tesis parciales correspondientes a las filas de A. o

8.4.

M´todo S de Scheff´. e e

Este m´todo permite la construcci´n de un n´mero arbitrario de intervalos e o u de confianza simult´neos, de manera muy simple. Necesitaremos el siguiente a lema: Lema 8.1 Sea L una matriz sim´trica de orden k × k definida positiva, y c, e b vectores k-dimensionales cualesquiera. Se verifica que: sup
c=0

[c ′ b]2 c ′ Lc

=

b ′ L−1 b

(8.8)

´ Demostracion: Siendo L definida positiva, existe una matriz R cuadrada no singular tal que: L = RR′ . Si definimos: v = R ′c u = R b y tenemos en cuenta que por la desigualdad de Schwarz, < u, v >2 u 2 v 2 ≤ 1 (8.11)
−1

(8.9) (8.10)

entonces sustituyendo (8.9) y (8.10) en (8.11) obtenemos (8.8).

Podemos ahora abordar la construcci´n de intervalos de confianza simulo t´neos por el m´todo de Scheff´. Supongamos que tenemos k hip´tesis lineales a e e o ′ hi : ai β = ci (i = 1, . . . , k) cuyo contraste conjunto deseamos efectuar. Si denominamos:

118

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.

 a1 ′ a ′  A= 2  · · · ak ′

 c1 c  c= 2 · · · ck

(8.12)

dichas k hip´tesis se pueden escribir como h : Aβ = c. Cuando h es cierta, o sabemos (Secci´n 6.2) que: o ˆ ˆ (Aβ − c)′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c) ∼ Fq,N −p qˆ 2 σ (8.13)

siendo q = m´ ın(d, p), en que d = rango A y p = rango(X ′ X). Las inversas pueden ser inversas generalizadas, si los rangos de las matrices as´ lo exigen. ı ˆ Llamemos c a Aβ. Bajo h, sabemos que: ˆ 1 − α = Prob (ˆ − c )′ [A(X ′ X)−1 A ′ ]−1 (ˆ − c ) ≤ qˆ 2 Fq,N −p (8.14) c c σ α = Prob (ˆ − c )′ L−1 (ˆ − c ) ≤ qˆ 2 Fq,N −p c c σ α en que L = [A(X ′ X)−1 A′ ]. Teniendo en cuenta el Lema 8.1, obtenemos:  
2

(8.15)

1 − α = Prob

La ecuaci´n (8.17) muestra que (qˆ 2 Fq,N −p ) 2 es un valor que acota con o σ α probabilidad 1 − α un n´mero arbitrariamente grande de cocientes como: u h ′ (ˆ − c ) c h ′ Lh Por consiguiente, cuantos intervalos para h ′ c construyamos de la forma: h ′c ± ˆ (h ′ Lh )(qˆ 2 Fq,N −p ) σ α (8.19) (8.18)

≤ qˆ 2 Fq,N −p σ α ′ Lh   h =0 h        1 c  h ′ (ˆ − c )  2 α 2 = Prob ≤ (qˆ Fq,N −p )  σ  1    h =0  ′ Lh 2 h sup
1

[h (ˆ − c )] c

2

 

(8.16)

(8.17)

tendr´n confianza simult´nea 1 − α. a a

´ ´ 8.4. METODO S DE SCHEFFE.

119

Esto es m´s de lo que necesitamos —pues s´lo quer´ a o ıamos intervalos de confianza simult´neos para c1 , . . . , ck —. El m´todo de Scheff´ proporciona a e e intervalos de confianza conservadores (m´s amplios, en general, de lo estrica tamente necesario). Obs´rvese que, en el caso particular en que A = Ip×p , los intervalos de e confianza en (8.19) se reducen a: ˆ h ′β ±

(h ′ (X ′ X)−1 h )(pˆ 2 Fp,N −p ) σ α

(8.20)

expresi´n que ser´ frecuente en la pr´ctica. Cuando el conjunto de hip´tesis o a a o simult´neas que se contrastan configure una matriz A de rango q < p, ser´ a a sin embargo conveniente tener en cuenta este hecho, ya que obtendremos intervalos menos amplios. R: Ejemplo 8.1 (uso del m´todo de Scheff´) e e
El siguiente c´digo implementa el m´todo de Scheff´ para contraso e e tar la igualdad entre todas las parejas de par´metros intervinientes a en un modelo. La matriz de dise˜o es una matriz de ceros y unos. Si, n por ejemplo, Xkl fuera “uno” cuando la k-´sima parcela se siembra e con la variedad l-´sima de semilla y la variable respuesta recogiera las e cosechas obtenidas en las diferentes parcelas, los par´metros βi ser´ a ıan interpretables como la productividad de las diferentes variedades de semilla (suponemos que no hay otros factores en juego; las parcelas son todas homog´neas). e En una situaci´n como la descrita tendr´ inter´s contrastar todas o ıa e las hip´tesis del tipo: hij : βi − βj = 0. Aquellas parejas para las que o no se rechazase corresponder´ a variedades de semilla no significatiıan vamente diferentes. F´cilmente se ve que el contraste de todas las hip´tesis de intea o r´s agrupadas (h : Aβ = c ) no es de gran inter´s: no nos interesa e e saber si hay algunas variedades de semilla diferentes, sino cu´les son. a F´cilmente se ve tambi´n que, incluso para un n´mero moderado de a e u variedades de semilla, hay bastantes parejas que podemos formar y el realizar m´ltiples contrastes como hij : βi − βj = 0 requerir´ el uso de u a m´todos de inferencia simult´nea. e a Comencemos por construir una matriz de dise˜o y generar artifin cialmente las observaciones: > X <- matrix(c(rep(1, 5), rep(0, 25)), + 25, 5) > X

120

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.
[,1] [,2] [,3] [,4] [,5] 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1

[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [21,] [22,] [23,] [24,] [25,]

> b <- c(3, 4, 4, 5, 5) > y <- X %*% b + rnorm(25, sd = 0.1) Construyamos la matriz definiendo la hip´tesis conjunta Aβ = c : o > > > > p <- ncol(X) N <- nrow(X) A <- cbind(1, diag(-1, p - 1)) A [,1] [,2] [,3] [,4] [,5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1

[1,] [2,] [3,] [4,]

> q <- nrow(A)

´ ´ 8.4. METODO S DE SCHEFFE.
Aunque por motivos did´cticos hemos constru´ A del modo que a ıdo se ha visto, hay funciones standard que permiten hacerlo con mayor comodidad. > A <- t(contrasts(as.factor(1:5))) > A [1,] [2,] [3,] [4,] 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 5 -1 -1 -1 -1

121

que es equivalente a la A precedente. Habiendo p betas a comparar, habr´ un total de p(p−1) compaa 2 raciones a efectuar. Construimos una matriz cada una de cuyas filas corresponde a una comparaci´n: o > > > + + + + > H <- matrix(0, p * (p - 1)/2, p) j <- 0 for (i in ((p - 1):1)) { H[(j + 1):(j + i), (p - i):p] <- cbind(1, diag(-1, i)) j <- j + i } H [,1] [,2] [,3] [,4] [,5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 0 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 0 1 -1 0 0 0 1 0 -1 0 0 0 1 -1

[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

El siguiente fragmento de c´digo construye ahora todos los intero valos de la forma dada por (8.20) y los imprime:

122
> > > > > > + + + + + + + + + +

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA.
fit <- lsfit(X, y, intercept = FALSE) betas <- fit$coefficients s2 <- sum(fit$residuals^2)/(N - p) qsf <- q * s2 * qf(0.05, q, N - p) xxi <- solve(t(X) %*% X) for (i in 1:nrow(H)) { cat("Intervalo comp. ", H[i, ]) z <- sqrt(t(H[i, ]) %*% xxi %*% H[i, ] * qsf) d <- t(H[i, ]) %*% betas cat(" es: (", d - z, " , ", d + z, ")") if ((d - z < 0) && (d + z > 0)) cat("\n") else cat(" * \n") }

Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo

comp. comp. comp. comp. comp. comp. comp. comp. comp. comp.

1 1 1 1 0 0 0 0 0 0

-1 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 1 -1 0 0 1 0 -1 0 1 0 0 -1 0 1 -1 0 0 1 0 -1 0 0 1 -1

es: es: es: es: es: es: es: es: es: es:

( ( ( ( ( ( ( ( ( (

-1.0463 , -0.94141 ) * -1.0631 , -0.95825 ) * -2.0886 , -1.9837 ) * -2.0670 , -1.9622 ) * -0.069268 , 0.035591 ) -1.0947 , -0.98989 ) * -1.0732 , -0.96834 ) * -1.0779 , -0.97305 ) * -1.0564 , -0.9515 ) * -0.030881 , 0.073979 )

Vemos que la mayor´ de intervalos de confianza simult´neos no cubren ıa a el cero. Los correspondientes a β2 − β3 y β4 − β5 si lo hacen, como esper´bamos, ya que en ambas parejas los par´metros han sido fijados a a al mismo valor.

Fin del ejemplo

´ ´ 8.5. EMPLEO DE METODOS DE INFERENCIA SIMULTANEA.

123

8.5.

Empleo de m´todos de inferencia simule t´nea. a

Si el desarrollo anterior es formalmente simple, puede no ser obvio, en cambio, en que situaciones es de aplicaci´n. Las notas siguientes esbozan o 5 algunas ideas sobre el particular . Emplearemos inferencia simult´nea cuando a priori, y por cualquier a motivo, estemos interesados en m´ltiples contrastes (o intervalos de u confianza) y queramos que el nivel de significaci´n conjunto sea 1 − α. o Esta situaci´n se presenta con relativa rareza en la pr´ctica estad´ o a ıstica. M´s importante, emplearemos los m´todos anteriores cuando la elecci´n a e o de hip´tesis o par´metros objeto de contraste o estimaci´n se haga a o a o la vista de los resultados. Esta situaci´n es muy frecuente en el an´lisis o a exploratorio. Ser´ incorrecto, por ejemplo, estimar una ecuaci´n con ıa o ˆ veinte regresores, seleccionar aquel βi con el m´ximo t-ratio, y comparar a dicho t-ratio con una t de Student con grados de libertad adecuados. ˆ Dado que hemos seleccionado el βi de inter´s como el de mayor t-ratio, e hemos de comparar ´ste con los cuantiles de la distribuci´n del m´ximo e o a de k (k = 20 en este caso) variables aleatorias con distribuci´n t de o Student (uα −20 ). 20,N Por ultimo, conviene resaltar la diferencia entre el contraste de varias ´ hip´tesis simult´neas ai ′ β = ci agrupadas en Aβ = c mediante Qh o a (Secci´n 6.2) y el que hace uso de (8.7). El primero es perfectamente o utilizable; el segundo ser´, en general, conservador —menos rechazos de a los que sugiere el nivel de significaci´n nominal—, pero tiene la ventaja o de arrojar luz sobre cuales de las “subhip´tesis” ai ′ β = ci son respono sables del rechazo, caso de que se produzca. Esta informaci´n queda o sumergida al emplear Qh .

5

Puede consultarse tambi´n Troc´niz (1987a) Cap. 5 y Cox and Hinkley (1974), Sec. e o

7.4.

124

´ CAP´ ITULO 8. INFERENCIA SIMULTANEA. Complementos y ejercicios 8.1 Un investigador sospecha que la concentraci´n de una toxio na en la sangre puede estar relacionada con la ingesta de alg´n tipo de u alimento. Realiza un completo estudio en que para N = 500 sujetos mide la concentraci´n de dicha toxina y las cantidades consumidas o de 200 diferentes tipos de alimento. Cree razonable proponer como modelo explicativo,
Y = β0 + β1 X1 + . . . + β200 X200 + ǫ.

Tras estimar los 201 par´metros del mismo, se plantea contrastar la a hip´tesis como H0 : β1 = . . . = β200 y considera las siguientes posibilio dades: ˆ σ Comparar cada uno de los t-ratios βi /ˆ ˆ con el cuantil tN −p ;α/2 .
βi

Idem con el cuantil correspondiente de una distribuci´n del m´o a ximo de k variables t de Student, con grados de libertad apropiados. ˆ ˆ Calcular el estad´ ıstico Qh para la hip´tesis H0 : β1 , . . . , β200 = 0 o Juzga los diferentes procedimientos, e indica con cu´l (o cu´les) de a a ellos tendr´ ıamos garantizada una probabilidad de error de tipo I no superior al α prefijado. y comparar con F200,500−201;α.

8.2 Preocupado por el posible impacto de las antenas de telefon´ m´vil sobre la salud de los ni˜os, un pol´ ıa o n ıtico solicita un listado completo de las 15320 escuelas del pa´ a menos de 500 metros de una ıs antena. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia que se han registrado en dichas escuelas. Aparece un caso llamativo: en la escuela X con 650 ni˜os hay tres n que han contraido la enfermedad, lo que, de acuerdo con los c´lculos a realizados por nuestro pol´ ıtico, asistido por un epidemi´logo, acono tecer´ por azar con probabilidad 0,0003. Al d´ siguiente acude al ıa ıa Parlamento y pide la dimisi´n del Ministro de Sanidad: “Hay —dice– o evidencia concluyente de que las antenas de telefon´ m´vil influyen ıa o en la prevalencia de la leucemia entre la poblaci´n infantil. Un evento o como el registrado en la escuela X s´lo se presentar´ por azar con o ıa probabilidad 0,0003”. Comenta.

Cap´ ıtulo 9

Multicolinealidad.
9.1. Introducci´n. o

Hemos visto (Cap´ ıtulo 3) que, en presencia de multicolinealidad exacta entre las columnas de la matriz de dise˜o X, la proyecci´n de y sobre M = n o R(X) sigue siendo unica, pero no hay una unica estimaci´n de β . Dec´ ´ ´ o ıamos entonces que el vector de par´metros no estaba identificado. a 1 Este Cap´ ıtulo analiza esta cuesti´n con mayor detalle. En particular, o aborda las siguientes cuestiones: 1. ¿Es estimable una cierta combinaci´n lineal c ′ β de los par´metros? o a 2. Si c ′ β es estimable, ¿cu´l es la varianza de la estimaci´n?. ¿De qu´ a o e depende la precisi´n con que pueden estimarse distintas combinaciones o lineales de los par´metros? a 3. ¿C´mo escoger la matriz de dise˜o X —u observaciones adicionales a la o n misma— si el objetivo es estimar determinadas combinaciones lineales c ′ β con varianza m´ ınima? Responder a la primera requiere que caractericemos las formas lineales estimables. N´tese que cuando c es un vector de ceros con un 1 en una o unica posici´n, la primera cuesti´n incluye, como caso particular, la de si un ´ o o par´metro concreto es estimable. a
1

Basado en Silvey (1969).

125

126

CAP´ ITULO 9. MULTICOLINEALIDAD.

La segunda cuesti´n introducir´ la idea de multicolinealidad aproximada. o a Mientras que desde un punto de vista formal la matriz de dise˜o es de rango n deficiente o no lo es, en la pr´ctica interesa distinguir aqu´llas situaciones en a e que la matriz de dise˜o es de rango “casi” deficiente. Cuando esto ocurra, en n un sentido que se aclarar´ m´s abajo, todo es estimable, pero algunas formas a a lineales c ′ β lo son con gran imprecisi´n: la varianza de su mejor estimador o lineal insesgado depende de la direcci´n del vector c en R(X ′ X). o La tercera cuesti´n hace referencia a un tema de gran inter´s; el de dise˜o o e n ´ptimo. Admitido que algunas formas lineales quiz´ s´lo pueden ser estimadas o a o con gran varianza ¿c´mo habr´ que escoger o ampliar X en los casos en que o ıa somos libres de ampliar la muestra? El principal hallazgo al responder a las dos primeras cuestiones ser´ que a ′ combinaciones lineales c β con c aproximadamente colineal a un vector propio de (X ′ X) de valor propio asociado “peque˜o”, son las de estimaci´n m´s n o a imprecisa. La consecuencia ser´ que haremos lo posible en nuestros dise˜os a n experimentales para que, si c ′ β es una forma lineal de inter´s, no haya e vectores propios de (X ′ X) con valor propio peque˜o aproximadamente en n la misma direcci´n de c . Recurriremos para ello a ampliar la muestra, si o podemos hacerlo, o a procedimientos ad-hoc de manipulaci´n de dichos vao lores propios peque˜os para obtener estimadores diferentes del MCO. Esta n cuesti´n se estudia en el Cap´ o ıtulo 10. Realizaremos un an´lisis formal de la multicolinealidad en las Seccioa nes 9.4 y siguientes. Previamente ser´ de inter´s abordar la cuesti´n desde una a e o perspectiva informal (en la Secci´n 9.2) y examinar los s´ o ıntomas que evidencian problemas de multicolinealidad en una matriz de dise˜o (Secci´n 9.3). n o

9.2.

Una aproximaci´n intuitiva o

La Figura 9.1 recoge sendas situaciones de multicolinealidad exacta (en el panel superior) y multicolinealidad aproximada (en el inferior). En el panel superior, PM y = 5,3 1,9 X0 = 2,65 0,95 X1 = 1,325 0,475 (9.1)

Puede comprobarse que X0 = 0,5 × X1 , por lo que la matriz de dise˜o n que tuviera a ambos vectores por columnas ser´ de rango deficiente. Conıa secuentemente, los estimadores MCO de los par´metros β0 y β1 no est´n a a un´ ıvocamente determinados. Puede comprobarse que ˆ ˆ PM y = β0 X0 + β1 X1 (9.2)

´ 9.2. UNA APROXIMACION INTUITIVA

127

Figura 9.1: Multicolinealidad exacta (panel superior) y aproximada (panel inferior).

y

X0 X1 PM y

y

X0 X1 PM y

128

CAP´ ITULO 9. MULTICOLINEALIDAD.

ˆ ˆ ˆ ˆ o se verifica con β0 = 2 y β1 = 0 ´ con β0 = 0 y β1 = 4, por ejemplo. De hecho, ˆ ˆ ˆ ˆ cualesquiera β0 , β1 verificando β0 + 2β1 = 2 son una soluci´n de (9.2). o En el panel inferior de la Figura 9.1, PM y = 5,3 1,9 X0 = 2,75 0,75 X1 = 1,525 ; 0,675 (9.3)

puede comprobarse que ahora PM y = 0,9544X0 + 1,7544X1 . Si, no obstante, PM y fuera ligeramente diferente, con los mismos regresores, PM y = 5,4 1,8 X0 = 2,75 0,75 X1 = 1,525 0,675 (9.4)

tendr´ ıamos que la soluci´n unica ser´ PM y = 1,263X0 + 1,2632X1 . Una o ´ ıa peque˜a perturbaci´n en PM y ha originado un cambio dr´stico en los valores n o a de los estimadores. Si examinamos el panel inferior de la Figura 9.1, podemos entender f´cila mente lo que sucede: los regresores son linealmente independientes y generan el plano horizontal, pero tienen una colinealidad acusada. Un leve cambio en la posici´n de PM y hace que sea mucho m´s colineal con un regresor que con o a ˆ ˆ otro, y provoca una dr´stica modificaci´n en los valores de β0 y β1 . a o Tenemos as´ que si en situaciones de multicolinealidad exacta los par´meı a tros (o algunos de entre ellos) son radicalmente inestimables, cuando el rango de la matrix X es completo, pero algunas de sus columnas son acusadamente colineales, la estimaci´n es posible, pero imprecisa. Decimos que estamos o ante una situaci´n de multicolinealidad aproximada. o La multicolinealidad aproximada es, en esencia, una matriz de dise˜o pon bre, que no permite deslindar con precisi´n el efecto de cada regresor sobre o la variable respuesta. Es una situaci´n muy frecuente en la pr´ctica, a medio o a camino entre la multicolinealidad exacta y la ortogonalidad entre los regresores. La Secci´n que sigue detalla algunos s´ o ıntomas que permiten percibir su existencia.

9.3.

Detecci´n de la multicolinealidad aproxio mada

Hay algunos indicios y estad´ ısticos que pueden ayudar en el diagn´stico o de multicolinealidad.

´ 9.3. DETECCION DE LA MULTICOLINEALIDAD APROXIMADA 129 Elevado R2 y todos los par´metros no significativos. La multicolia nealidad aproximada se pone de manifiesto en elevadas varianzas de los par´a metros estimados que, como consecuencia, son de ordinario no significativos y frecuentemente toman signos contrarios a los previstos. Una situaci´n t´ o ıpica es aqu´lla, aparentemente parad´jica, en que todos e o los par´metros en β son no significativos y sin embargo R2 es muy elevado. a ¡Parece que ning´n regresor ayuda a ajustar el regresando, y sin embargo u todos en conjunto lo hacen muy bien! Ello se debe a que la multicolinealidad no permite deslindar la contribuci´n de cada regresor. o Valores propios y “n´ mero de condici´n” de (X ′ X). La existencia de u o relaciones lineales aproximadas entre las columnas de X se traduce en relaciones lineales aproximadas entre las columnas de (X ′ X). Los m´todos usuales e para examinar el condicionamiento de una matriz en an´lisis num´rico son a e por tanto de aplicaci´n. En particular, puede recurrirse a calcular los valores o propios de la matriz (X ′ X); uno o mas valores propios muy peque˜os (cero, n en caso de multicolinealidad perfecta) son indicativos de multicolinealidad aproximada. A menudo se calcula el “n´mero de condici´n” de la matriz (X ′ X), definiu o do como λ1 /λp ; n´meros de condici´n “grandes” evidencian gran disparidad u o entre el mayor y menor valor propio, y consiguientemente multicolinealidad aproximada. Hay que notar, sin embargo, que se trata de un indicador relativo, que, en particular, depende de la escala en que se miden las respectivas columnas de la matriz X —algo perfectamente arbitrario—. Factores de incremento de varianza (VIF). Otra pr´ctica muy usual a consiste en regresar cada columna de X sobre las restantes; un R2 muy elevado en una o m´s de dichas regresiones evidencia una relaci´n lineal aproximaa o da entre la variable tomada como regresando y las tomadas como regresores. Llamemos R2 (i) al R2 resultante de regresar X i sobre las restantes columnas de X. Se define el factor de incremento de varianza (variance inflation factor) VIF(i) as´ ı: 1 def ; (9.5) VIF(i) = 1 − R2 (i)

valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0,90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las restantes columnas de X. Observaci´n 9.1 El nombre de “factores de incremento de vao
rianza” tiene la siguiente motivaci´n. Supongamos que X tiene sus o

130

CAP´ ITULO 9. MULTICOLINEALIDAD.
columnas normalizadas de modo que (X ′ X) es una matriz de correlaˆ ci´n (elementos diagonales unitarios). La varianza de βi es σ 2 (X ′ X)ii , o ′ ii denota el elemento en la fila y columna i de la matriz en que (X X) (X ′ X)−1 . Si X tuviera sus columnas ortogonales, (X ′ X) (y por tanto (X ′ X)−1 ) ˆ ser´ matrices unidad y Var(βi ) = σ 2 ; por tanto, (X ′ X)ii recoge el ıan ˆ factor en que se modifica en general Var(βi ) respecto de la situaci´n o de m´ ınima multicolinealidad (= regresores ortogonales). Se puede demostrar que (X ′ X)ii = (1 − R2 (i))−1 , lo que muestra que se trata precisamente del VIF(i).

9.4.

Caracterizaci´n de formas lineales estio mables.

Teorema 9.1 La forma lineal c ′ β es estimable si, y solo si, c es una combinaci´n lineal de los vectores propios de X ′ X asociados a valores propios no o nulos. ´ Demostracion: Observemos que el enunciado no es sino una par´frasis del Teorema 3.1, a p´g. 45. La siguiente cadena de implicaciones, que puede recorrerse en ambas a direcciones, establece la demostraci´n. o c ′ β estimable ⇐⇒ ∃d : c ′ β = E[d ′ Y ] ⇐⇒ c ′ β = d ′ X β ⇐⇒ c = d X ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒
′ ′ ′

(9.6) (9.7) (9.8) (9.9) (9.10) (9.11) (9.12)

c=Xd c ∈ R(X ′ ) c ∈ R(X ′ X) c = α1 v1 + · · · + αp−j vp−j

siendo v1 , . . . , vp−j los vectores propios de (X ′ X) asociados a valores propios no nulos. El paso de (9.10) a (9.11) hace uso del hecho de que tanto las columnas de X ′ como las de X ′ X generan el mismo subespacio2 de Rp . La
Es inmediato ver que R(X ′ X) ⊆ R(X ′ ), pues si v ∈ R(X ′ X) ⇒ ∃a : v = X ′ Xa = X ′ d, siendo d = Xa. Por otra parte, R(X ′ X) no es subespacio propio de R(X ′ ), pues ambos tienen la misma dimensi´n. Para verlo, basta comprobar que toda dependencia o lineal entre las columnas de X ′ X es una dependencia lineal entre las columnas de X. En efecto, X ′ X b = 0 ⇒ b′ X ′ X b = d′ d = 0 ⇒ d = 0 ⇒ X b = 0.
2

´ 9.4. CARACTERIZACION DE FORMAS LINEALES ESTIMABLES. 131 equivalencia entre (9.11) y (9.12) hace uso del hecho de que los vectores propios de R(X ′ X) asociados a valores propios no nulos generan R(X ′ X).

Hay una forma alternativa de llegar al resultado anterior, que resulta interesante en s´ misma y util para lo que sigue. Sea V la matriz diagonalizadora ı ´ de X ′ X, y definamos: Z = XV γ = V β

(9.13) (9.14)

Entonces, como V V ′ = I tenemos que: X β = XV V ′ β = Zγ (9.15)

y por consiguiente el modelo Y = X β + ǫ se transforma en: Y = Zγ + ǫ . El cambio de variables y par´metros ha convertido la matriz de dise˜o en a n una matriz de columnas ortogonales: Z ′ Z = (XV )′ (XV ) = V ′ X ′ XV = Λ (9.16)

siendo Λ una matriz cuya diagonal principal contiene los valores propios de X ′ X. Sin p´rdida de generalidad los supondremos ordenados de forma que e los p − j primeros λ′ s son no nulos, y los restantes j son cero: λp = λp−1 = · · · = λp−j+1 = 0. Observemos que de (9.14) se deduce, dado que V es ortogonal, que β = V γ . Por consiguiente, es equivalente el problema de estimar β al de estimar γ , pues el conocimiento de un vector permite con facilidad recuperar el otro. Las ecuaciones normales al estimar γ son: (Z ′ Z)ˆ = Λˆ = Z ′ y γ γ o en forma desarrollada:  λ1 0  0 λ2 . . . . . .  0 0  0 0 . . . . . . 0 0 (9.17)

... ... ... ... ... ...

0 0 . . . λp−j 0 . . . 0

 0 0 .  . . . . .  . . . 0 γ = Z ′ y ˆ  . . . 0 .. . . . . ... 0 ... ...

(9.18)

132

CAP´ ITULO 9. MULTICOLINEALIDAD.

El sistema (9.18) es indeterminado; solo los (p − j) primeros γ ′ s pueden ˆ obtenerse de ´l. Obs´rvese adem´s que de (9.18 ) se deduce que var(ˆi ) ∝ 1/λi , e e a γ (i = 1, . . . , p − j). Consideremos una forma lineal cualquiera c ′ β . Tenemos que: c ′ β = c ′ V V ′ β = (c ′ V )γ = (V ′ c )′ γ

(9.19)

ˆ a ˆ y consiguientemente una estimaci´n de c ′ β vendr´ dada por (V ′ c )′ γ . Por o ′ ′ˆ tanto, c β ser´ estimable si γ es estimable, o si c β depende s´lo de aquellos a ˆ o γ ′ s que pueden ser estimados. Es decir, en el caso de rango (p − j) corresponˆ diente a las ecuaciones normales (9.18), c ′ β podr´ estimarse si (V ′ c)′ tiene a nulas sus ultimas j coordenadas, lo que a su vez implica: ´ c ⊥ vp c ⊥ vp−1 . . . c ⊥ vp−j+1 (9.20) (9.21) (9.22) (9.23)

o Para que c ′ β sea estimable, c debe poder escribirse como combinaci´n lineal de los vectores propios de (X ′ X) que no figuran en (9.20)–(9.23): c = α1 v1 + · · · + αp−j vp−j . Toda forma estimable debe por tanto ser expresable as´ ı: c ′ β = (α1 v1 + · · · + αp−j vp−j )′ β , resultado al que hab´ ıamos llegado. Recapitulemos: una forma lineal c ′ β es estimable si c = α1 v1 + · · · + αp−j vp−j , es decir, no depende de vectores propios de (X ′ X) asociados a valores propios nulos. Tal como suger´ la Secci´n 9.2, podemos sin embargo ıa o esperar que formas lineales que son estrictamente estimables lo sean muy imprecisamente, en situaciones de multicolinealidad aproximada. La Secci´n o que sigue formaliza esta intuici´n, mostrando que si c depende de vectores o propios de valor propio cercano a cero, la forma lineal c ′ β ser´ estimable a s´lo con gran varianza. o (9.24)

´ 9.5. VARIANZA EN LA ESTIMACION DE UNA FORMA LINEAL. 133

9.5.

Varianza en la estimaci´n de una forma o lineal.

ˆ Si premultiplicamos ambos lados de las ecuaciones normales (X ′ X)β = ′ X Y por vi , (i = 1, . . . , p − j), tenemos: ˆ vi ′ (X ′ X)β = vi ′ X ′ Y ˆ λi vi ′ β = vi ′ X ′ Y y tomando varianzas a ambos lados: ˆ λ2 var(vi ′ β) = i = = = De la igualdad (9.25) se deduce que: ˆ var(vi ′ β) = Adem´s, para cualquier i = j se tiene: a ˆ ˆ cov(vi ′ β, vj ′ β) = vi ′ Σβ vj ˆ = = = = vi ′ (X ′ X)−1 vj σ 2 vi ′ λj −1 vj σ 2 σ 2 λj −1 vi ′ vj 0 σ2 λi (9.26) var(vi ′ X ′ Y ) vi ′ X ′ σ 2 IXvi vi ′ X ′ Xvi σ 2 λi σ 2

(9.25)

(9.27)

La varianza de cualquier forma estimable c ′ β , teniendo en cuenta que puede escribirse como en (9.24), y haciendo uso de (9.26) y (9.27), ser´: a ˆ ˆ var(c ′ β) = var[(α1 v1 + · · · + αp−j vp−j )′ β] ˆ ˆ = α2 var(v1 ′ β) + · · · + α2 var(vp−j ′ β)
1 p−j 2 = α1

= σ2

σ2 σ 2 + · · · + αp−j λ1 λp−j 2 2 αp−j α1 + ··· + λ1 λp−j
2

(9.28)

134

CAP´ ITULO 9. MULTICOLINEALIDAD.

La expresi´n (9.28) es reveladora; la varianza en la estimaci´n de c ′ β deo o 2 pender´ de la varianza de la perturbaci´n σ y de la direcci´n de c. Si c no a o o puede expresarse como combinaci´n lineal de los vectores propios con valor o propio no nulo, c ′ β no es estimable. Si c = α1 v1 + · · · + αp−j vp−j y los α′ s multiplicando a vectores propios con reducido valor propio son sustanciales, los correspondientes sumandos tender´n a dominar la expresi´n (9.28). a o En definitiva, la varianza en la estimaci´n de una forma lineal c ′ β depeno de, fundamentalmente, de cu´n colineal es c con vectores propios de reducido a valor propio. Hemos razonado en esta Secci´n y la precedente en el caso de que j valores o propios de X ′ X son exactamente cero. Es claro que si todos los valores propios son mayores que cero, todas las formas lineales ser´n estimables, con varianza: a ˆ ˆ var(c ′ β) = var[(α1 v1 + · · · + αp−j vp−j )′ β] ˆ ˆ = α2 var(v1 ′ β) + · · · + α2 var(vp ′ β)
1 p 2 = α1 2 σ 2 σ + · · · + αp λ1 λp 2 2 αp α1 + ··· + λ1 λp 2

(9.29)

= σ2

(9.30)

9.6.

Elecci´n ´ptima de observaciones. o o

La expresi´n (9.28) y comentario posterior muestran que, para guarecero nos de varianzas muy grandes en la estimaci´n de algunas formas lineales, o debemos actuar sobre los valores propios m´s peque˜os de (X ′ X), incremena n 3 t´ndolos . En lo que sigue, examinamos esta cuesti´n con m´s detalle. a o a Supongamos que tenemos un conjunto de N observaciones (y | X), y nos planteamos ampliar X con una fila adicional xN +1 ′ (e y con el correspondiente valor observado de Y ) de modo que se reduzca al m´ximo la varianza en la a ′ estimaci´n de una determinada forma lineal c β en que estamos interesados. o Supondremos tambi´n en lo que sigue (X ′ X) de rango completo, aunque e quiz´ con acusada multicolinealidad4. Emplearemos los sub´ a ındices N + 1 y N para designar estimaciones respectivamente con y sin esta observaci´n o
O suprimi´ndolos. Los m´todos de regresi´n sesgada del Cap´ e e o ıtulo 10 hacen expl´ ıcita esta idea. 4 Los resultados se pueden generalizar al caso en que (X ′ X) es de rango deficiente, y s´lo mediante la nueva fila xN +1 ′ se hace c ′ β estimable. o
3

´ ´ 9.6. ELECCION OPTIMA DE OBSERVACIONES. adicional. Tenemos entonces que: ΣβN = σ 2 (X ′ X)−1 ˆ ΣβN +1 = σ 2 (X ′ X + xN +1 xN +1 ′ )−1 ˆ
2 σc ′ βN = σ 2 c ′ (X ′ X)−1 c ˆ 2 σc ′ βN +1 = σ 2 c ′ (X ′ X + xN +1 xN +1 ′ )−1 c ˆ

135

(9.31) (9.32) (9.33) (9.34)

Entonces,
2 2 σc ′ βN − σc ′ βN +1 = σ 2 c ′ [(X ′ X)−1 − (X ′ X + xN +1 xN +1 ′ )−1 ]c ˆ ˆ

(9.35)

y el problema es encontrar xN +1 maximizando esta expresi´n. Sea V la matriz o que diagonaliza a (X ′ X). Denominemos: a = V ′c z = V ′ xN +1 D = V ′ (X ′ X)V Entonces, (9.35) puede transformarse as´ ı:
2 2 σc ′ βN − σc ′ βN +1 = σ 2 c ′ V V ′ [(X ′ X)−1 − (X ′ X + xN +1 xN +1 ′ )−1 ]V V ′ c ˆ ˆ

(9.36) (9.37) (9.38)

= σ 2 a ′ [D−1 − V ′ (X ′ X + xN +1 xN +1 ′ )−1 V ]a = σ 2 a ′ [D−1 − (V ′ (X ′ X + xN +1 xN +1 ′ )V )−1 ]a = σ 2 a ′ [D−1 − (D + z z ′ )−1 ]a D−1 z z ′ D−1 1 + z ′ D−1 z D−1 z z ′ D−1 a 1 + z ′ D−1 z ai zi λi zi2 λi
2

(9.39)

Pero (v´ase Teorema A.2, p´g. 228): e a (D + z z ′ )−1 = D−1 − Sustituyendo (9.40) en (9.39):
2 2 σc ′ βN − σc ′ βN +1 = σ 2 a ′ ˆ ˆ

(9.40)

(9.41)

= σ2

i

(9.42)

1+
i

Obs´rvese que el problema de maximizar (9.35) carece de sentido si no e imponemos restricciones, pues la expresi´n equivalente (9.42) es mon´tona o o

136

CAP´ ITULO 9. MULTICOLINEALIDAD.

creciente al multiplicar z por una constante k mayor que la unidad5 . Necesio tamos una restricci´n del tipo z ′ z = i zi2 = K 2 para obtener una soluci´n o unica. Formando entonces el lagrangiano, ´ ai zi λi zi2
i 2

Φ(z ) = σ 2

i

1+

−µ

i

zi2 − K 2

(9.43)

λi
2

y derivando respecto a zi , (i = 1, . . . , p), obtenemos p igualdades de la forma: ai zi λi ai 1 + λi 1+
i

σ2

i

i

zi2 λi zi2 λi


2

i

ai zi λi

zi λi − µzi = 0 (9.44)

Denominando: A =
i

ai zi λi zi2 λi

(9.45) (9.46)

B =

1+
i

las p igualdades anteriores toman la forma: zi A2 µzi ai A − − 2 =0 (9.47) λi B λi B 2 σ Multiplicando por zi cada una de las anteriores igualdades y sum´ndolas, a puede despejarse: A2 2 µ = 2 2σ K B y por consiguiente de (9.47) se obtiene: zi A2 A2 ai A − − 2 2 zi = 0 λi B λi B 2 K B zi
5

(9.48)

(i = 1, . . . , p) (i = 1, . . . , p)

(9.49) (9.50)

1 1 + 2 λi K

=

B ai A λi

Observemos que al multiplicar z por k el numerador queda multiplicado por k2 , en tanto s´lo una parte del denominador lo hace. Es pues claro que el numerador crece m´s o a que el denominador, y el cociente en consecuencia aumenta.

´ ´ 9.6. ELECCION OPTIMA DE OBSERVACIONES. o sea: zi ∝ ai λi 1 + 1 λi K2 = ai λ 1 + Ki 2

137

(9.51)

para i = 1, . . . , p. Las anteriores p igualdades pueden expresarse en notaci´n o matricial as´ ı: z ∝ (I + K −2 D)−1 a (9.52)

Por tanto, la fila a a˜adir a X para mejorar al m´ximo la estimaci´n de c ′ β n a o ser´: a xN +1 = (por (9.52)) ∝ = (por (9.36)) = = = Vz V (I + K −2 D)−1 a V (I + K −2 D)−1 V ′ V a V (I + K −2 D)−1 V ′ c [V (I + K −2 D)V ′ ]−1 c [I + K −2 (X ′ X)]−1 c

Recordemos que hemos obtenido una soluci´n unica para z (y en cono ´ o o o secuencia xN +1 ) s´lo mediante la imposici´n de una restricci´n de escala 2 2 o i zi = K . Es decir, podemos determinar la direcci´n de z , pero no su norma. El examen de (9.42) hace evidente que una norma tan grande como sea posible es lo deseable. Cabe hacer dos comentarios sobre esta ultima afirmaci´n. El primero, que ´ o es l´gico que as´ sea. Si σ 2 es fija, es claro que siempre preferiremos filas de o ı m´dulo muy grande, pues si: o Yi = mi + ǫi = β0 + · · · + βp−1 xi,p−1 + ǫi (9.53)

incrementar el m´dulo de xN +1 equivale a incrementar |mi |; y haciendo o |mi | ≫ ǫi podemos reducir en t´rminos relativos el peso de ǫi en yi . e En la pr´ctica, sin embargo, hay un l´ a ımite al valor de |mi |, cuyo crecimiento desaforado podr´ llevarnos a regiones en las que las Yi dejan de ser una ıa funci´n aproximadamente lineal de los regresores. Por ejemplo, si el modelo o intenta ajustar una constante biol´gica como funci´n lineal de ciertos tipos o o de nutrientes, hay un l´ ımite pr´ctico a los valores que pueden tomar los rea gresores: el impuesto por las cantidades que los sujetos bajo estudio pueden ingerir. En definitiva, el desarrollo anterior suministra la direcci´n en que debe o tomarse una observaci´n adicional para mejorar al m´ximo la varianza en o a

138

CAP´ ITULO 9. MULTICOLINEALIDAD.

la estimaci´n de c ′ β . Tomaremos xN +1 tan grande como sea posible en o dicha direcci´n. Si no tuvi´ramos una forma estimable unica como objetivo, o e ´ una estrategia sensata consistir´ en tomar observaciones de forma que se ıa incrementasen los menores valores propios de la matriz (X ′ X). Podr´ ıamos tambi´n aceptar como criterio el de maximizar el determinante de (X ′ X). e Este criterio se conoce como de D-optimalidad6 .

6

V´ase Silvey (1980), una monograf´ que trata el tema de dise˜ o ´ptimo. e ıa n o

Cap´ ıtulo 10

Regresi´n sesgada. o
10.1. Introducci´n. o

De acuerdo con el teorema de Gauss-Markov (Teorema 2.2, p´g. 19), los a estimadores m´ ınimo cuadr´ticos ordinarios (MCO) son los de varianza m´ a ınima en la clase de los estimadores lineales insesgados. Cualesquiera otros que consideremos, si son lineales y de varianza menor, habr´n de ser sesgados. a Si consideramos adecuado como criterio en la elecci´n de un estimador c o ˆ def su error cuadr´tico medio, ECM = E[ˆ − c]2 , y reparamos en que: a c E[ˆ − c]2 = E [ˆ − E[ˆ] + E[ˆ] − c]2 c c c c 2 = E [ˆ − E[ˆ]] + E [E[ˆ] − c]2 + 2 E [ˆ − E[ˆ]] [E[ˆ] − c] c c c c c c
=0

= var(ˆ) + (sesgo c) c ˆ

2

(10.1)

podemos plantearnos la siguiente pregunta: ¿Es posible reducir el ECM en la estimaci´n tolerando un sesgo? Si la respuesta fuera afirmativa, podr´ o ıamos preferir el estimador resultante que, aunque sesgado, tendr´ un ECM menor, ıa producido por una disminuci´n en la varianza capaz de compensar el segundo o sumando en (10.1). El Cap´ ıtulo 9 pon´ de manifiesto que vectores propios de (X ′ X) con valor ıa propio asociado nulo o muy peque˜o eran responsables de la inestimabilidad n (en el caso extremo de valores propios exactamente cero) o estimaci´n muy o ′ imprecisa de formas lineales c β en los par´metros. Analizaremos ahora las a implicaciones del an´lisis realizado. a 139

140

´ CAP´ ITULO 10. REGRESION SESGADA.

Si los valores propios peque˜os son causantes de elevada varianza en las n estimaciones, caben varias soluciones: 1. Incrementarlos mediante observaciones adicionales, seg´n se indic´ en u o la Secci´n 9.6, p´g. 134. o a 2. Incrementarlos mediante procedimientos “ad-hoc”, que no requieren la toma de observaciones adicionales (ridge regression). 3. Prescindir, simplemente, de ellos (regresi´n en componentes principales o y regresi´n en ra´ o ıces latentes). Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para reducir la varianza de los estimadores. De acuerdo con los comentarios anteriores, los procedimientos que dise˜emos habr´n perdido la condici´n de n a o insesgados. Observaci´n 10.1 De ah´ la denominaci´n colectiva de m´too ı o e dos de regresi´n sesgada. Denominaciones alternativas son regresi´n o o regularizada o m´todos de estimaci´n por encogimiento (“shrinkage ese o timators”), est´ ultima abarcando un conjunto de estimadores mucho a´ m´s amplio que el considerado aqu´ a ı. Si se utilizan, es con la fundada creencia de que, en presencia de multicolinealidad acusada, la reducci´n de varianza que se obtiene compensa la introo ducci´n de sesgo. Existe incluso un resultado (Teorema 10.1, p´g. 145) que o a demuestra la existencia de un estimador sesgado que domina (en t´rminos de e ECM) al MCO; su aplicaci´n pr´ctica est´ limitada por el hecho de que no o a a es inmediato saber cu´l precisamente es este estimador. a

10.2.

Una aproximaci´n intuitiva. o

Antes de introducir los estimadores sesgados m´s utilizados en la pr´ctica, a a es util ver sobre un ejemplo simple las ideas que explotan. ´ Ejemplo 10.1 Consideremos la siguiente situaci´n. Tenemos dos o 2 2 poblaciones con media com´n µ y varianzas respectivas σ1 , σ2 . Nuesu tro objetivo es estimar µ, para lo que contamos con dos observaciones, 2 una de cada poblaci´n. Sean ´stas X1 , X2 . Sabemos adem´s que σ2 o e a 2. es mucho mayor que σ1 Es claro que 1 (10.2) µ = (X1 + X2 ) ˆ 2

´ 10.2. UNA APROXIMACION INTUITIVA.
2 2 es un estimador insesgado de µ. Su varianza ser´ Var(ˆ) = σ1 /4+σ2 /4. a µ ¿Es de m´ ınima varianza? No; y en general puede ser sumamente 2 2 ineficiente. Imaginemos, por ejemplo, que σ1 = 1 y σ2 = 99; entonces, 2 + σ 2 )/4 = (1 + 99)/4 = 25, mientras que µ∗ = X , por Var(ˆ) = (σ1 µ ˆ 1 2 ˆ∗ ) = 1. ejemplo, ser´ tambi´n insesgado con Var(µ ıa e La conclusi´n a la que llegamos es que es mejor prescindir de la o observaci´n X2 —dando muy imprecisa informaci´n acerca del valor o o de µ— que utilizarla en pie de igualdad con X1 . Si examinamos el ejemplo con m´s cuidado, se nos hace evidente a que podemos hacerlo mejor: si nos limitamos a estimadores lineales —por simplicidad— cualquier estimador insesgado ser´ de la forma a ∗∗ µˆ = δ1 X1 + δ2 X2

141

con δ1 + δ2 = 1 (pues de otro modo al tomar valor medio en (10.3), no obtendr´ ıamos µ, como requiere la condici´n de insesgadez). o Podemos a continuaci´n plantearnos cu´les son δ1 y δ2 = 1 − δ1 o a o ´ptimos. De (10.3) deducimos que
2 2 2 2 Var(ˆ∗∗ ) = δ1 σ1 + δ2 σ2 µ 2 = δ1 · 1 + (1 − δ1 )2 · 99 2 = 99 − 198δ1 + 100δ1

Derivando respecto a δ1 e igualando a cero obtenemos δ1 = 99/100 y consecuentemente δ2 = 1/100. F´cilmente se comprueba que se traa ta de un m´ ınimo. El estimador insesgado de varianza m´ ınima es por tanto: 1 99 X1 + X2 . µ∗∗ = ˆ 100 100 El resultado parece l´gico; debemos ponderar las dos observaciones o dando m´s peso a la m´s fiable. La segunda conclusi´n a que llegamos a a o es que cuando tengamos observaciones con grado de precisi´n muy o variable, convendr´ ponderarlas de forma inversamente proporcional a a sus respectivas varianzas. Fin del ejemplo

El ejemplo anterior pretende ilustrar dos principios, que se resumen en uno: es mejor prescindir de informaci´n imprecisa que hacerle demasiado o caso. El primer estimador construido, µ∗ , prescind´ directamente de X2 ; el ˆ ıa segundo, µ∗∗ , se serv´ de dicha observaci´n pero haci´ndole poco caso. ˆ ıa o e Se ha razonado sobre estimadores a los que hemos impuesto la condici´n o de ser insesgados, por mantener el ejemplo simple, pero esta condici´n es o

142

´ CAP´ ITULO 10. REGRESION SESGADA.

inesencial. (De hecho, como veremos a continuaci´n, todav´ ser´ posible o ıa ıa ∗∗ mejorar µ en t´rminos de ECM si tolerasemos un sesgo.) ˆ e ¿Qu´ implicaciones tiene lo anterior sobre la estimaci´n de β (o, en genee o ′ ral, de c β ) en un modelo lineal? Recordemos la discusi´n en la Secci´n 9.5. o o ′ El estimador de cualquier forma lineal c β puede escribirse como combinaˆ ˆ ˆ ci´n lineal de v ′1 β, v ′2 β, . . . , v ′p β, seg´n muestra (9.29), p´g. 134. Adem´s, o u a a ′ˆ 1 v i β para i = 1, . . . , p son variables aleatorias incorreladas con varianzas ˆ respectivas Var(vi ′ β) = σ 2 /λi , (9.26), p´g. 133. a Tenemos pues c ′ β puede escribirse como combinaci´n lineal de “observao ′ˆ ciones” v i β con varianzas muy diferentes. Al igual que en el Ejemplo 10.1 al estimar µ, podemos tener inter´s en prescindir de algunas de estas “observae ′ˆ ciones” v i β, ´ atenuarlas, si sus varianzas son muy grandes; ello acontecer´ o a cuando los valores propios λi sean muy peque˜os. n Los estimadores que se presentan a continuaci´n hacen precisamente esto. o El estimador en componentes principales de la Secci´n 10.4 prescinde de alguo ′ˆ ˆ a nas v i β; el estimador ridge de la Secci´n 10.3 aten´a las v ′i β m´s inestables. o u Volveremos de nuevo sobre la cuesti´n en la Secci´n 10.4.3, p´g. 156. o o a

10.3.
10.3.1.

Regresi´n ridge. o
Error cuadr´tico medio del estimador m´ a ınimo cuadr´tico ordinario a

Dado que hay varios par´metros a estimar, definiremos como ECM del a estimador MCO:
′ ˆ ˆ ˆ ECM(β) = E[(β − β ) (β − β )]

(10.3)

que podemos ver tambi´n como el valor medio del cuadrado de la distancia e ˆ eucl´ ıdea ordinaria entre β y β . Supondremos (X ′ X) de rango total, y por ′ −1 ˆ tanto que (X X) existe (este supuesto se puede relajar). Como E[β] = β
1

Independientes, si se verifica el supuesto de normalidad.

´ 10.3. REGRESION RIDGE. y Σβ = σ 2 (X ′ X)−1 , tenemos que: ˆ
′ ˆ ˆ ˆ ECM(β) = E[traza (β − β ) (β − β )] ′ ˆ ˆ = E[traza (β − β )(β − β ) ]

143

= σ 2 traza (X ′ X)−1 = σ 2 traza (X ′ X)−1 V V ′ = σ 2 traza V ′ (X ′ X)−1 V
p

(V = diagonalizadora de (X ′ X)−1 )

= σ

2 i=1

1 , λi

(10.4)

en que los λi son los valores propios de la matriz (X ′ X). (Recu´rdese que e los vectores propios de las matrices (X ′ X) y (X ′ X)−1 son los mismos, y los valores propios de una los inversos de los de la otra.)

10.3.2.

Clase de estimadores ridge
ˆ β (k) = (X ′ X + kI)−1 X ′ Y (10.5)

Definici´n 10.1 Definiremos el estimador ridge de par´metro k as´ o a ı:

siendo k una constante positiva a determinar. El estimador ridge es id´ntico al MCO en el caso particular en que k = 0. La e relaci´n entre ambos para un valor arbitrario de k queda de manifiesto en la o siguiente cadena de igualdades: ˆ β (k) = (X ′ X + kI)−1 (X ′ X)(X ′ X)−1 X ′ Y ˆ = (X ′ X + kI)−1 (X ′ X)β −1 ˆ β = (X ′ X)−1 (X ′ X + kI) = I + k(X ′ X)−1 ˆ = Zβ
−1 −1

ˆ β (10.6)

siendo Z = [I + k(X ′ X)−1 ] . El Teorema 10.1, que muestra la superioridad del estimador ridge sobre el MCO para alg´n valor de k, es consecuencia del Lema 10.1 a continuaci´n. u o Lema 10.1 El error cuadr´tico medio del estimador ridge de par´metro k a a viene dado por la expresi´n o
p

def

ˆ ECM [β (k) ]

=

σ2
i=1

λi + (λi + k)2

p

i=1

2 k 2 αi (λi + k)2

(10.7)

144

´ CAP´ ITULO 10. REGRESION SESGADA.

en que los λi son los valores propios de la matrix (X ′ X) y α = V ′ β , siendo V una matriz cuyas columnas son vectores propios de (X ′ X). ´ Demostracion: El ECM del estimador ridge que habremos de comparar con (10.4) es: ˆ ˆ ˆ ECM [β (k) ] = E[(β (k) − β )′ (β (k) − β )] ˆ ˆ (por (10.6)) = E[(Z β − β )′ (Z β − β )]

ˆ ˆ = E[(Z β − Z β + Z β − β )′ (Z β − Z β + Z β − β )] ˆ ˆ = E[(Z β − Z β )′ (Z β − Z β )] + (Z β − β )′ (Z β − β )
(a) (b)

(10.8) Obs´rvese que el primer t´rmino (a) es la suma de varianzas de los elementos e e ˆ(k) , mientras que (b) es la suma de los sesgos al cuadrado de dichos elede β mentos. Examinemos por separado los dos sumandos de la expresi´n anterior: o ˆ ˆ (a) = E[(β − β )′ Z ′ Z(β − β )] ˆ ˆ = E[traza{(β − β )′ Z ′ Z(β − β )}]

ˆ ˆ = E[traza{(β − β )(β − β )′ Z ′ Z}] ˆ ˆ = traza{E(β − β )(β − β )′ Z ′ Z} = σ 2 traza [(X ′ X)−1 Z ′ Z] = σ 2 traza (X ′ X)−1 I + k(X ′ X)−1
−1

(10.9) I + k(X ′ X)−1
−1 −1 −1

= σ 2 traza (X ′ X) + kI + kI + k 2 (X ′ X)−1 = σ 2 traza
p

(X ′ X) + 2kI + k 2 (X ′ X)−1

VV′ (10.10) (10.11) (10.12)

= σ 2 traza V ′ [(X ′ X) + 2kI + k 2 (X ′ X)−1 ]−1 V = σ2
i=1 p

1 λi + 2k + λ−1 k 2 i λi . (λi + k)2

= σ2
i=1

La obtenci´n de la expresi´n (10.9) hace uso de el habitual intercambio de o o ˆ los operadores de traza y valor medio, as´ como del hecho de que si β es el ı ′ 2 ˆ ˆ estimador MCO y X X es de rango completo, E[(β−β )(β−β )] = σ (X ′ X)−1 (Teorema 2.2, p´g. 19). En el paso de (10.10) a (10.11) se ha empleado el a hecho de que si V diagonaliza a (X ′ X) diagonaliza tambi´n a cada una de las e

´ 10.3. REGRESION RIDGE.

145

matrices en el corchete, y por consiguiente a la matriz inversa de la contenida en el corchete. Tomando ahora el segundo t´rmino de (10.8), e (b) = (Z β − β )′ (Z β − β ) = β′ = β ′ (Z − I)′ (Z − I)β I + k(X ′ X)−1
−1

= k 2 α′ (Λ + kI)−2 α = traza k 2 α′ (Λ + kI)−2 α
p

−I

I + k(X ′ X)−1

−1

−I β (10.13)

=
i=1

2 k 2 αi (λi + k)2

(10.14)

El paso a (10.13) desde la expresi´n anterior hace uso de que α = V ′ β . o Sustituyendo (10.12) y (10.14) en (10.8) se obtiene (10.7)

El Teorema 10.1 se sigue casi inmediatamente del resultado anterior. ˆ Teorema 10.1 Hay alg´n valor de k > 0 para el que ECM [β (k) ] dado por u (10.7) es estrictamente menor que el ECM del estimador MCO dado por (10.4). ´ Demostracion: ˆ Hemos visto m´s arriba que cuando k = 0, el estimador ridge β (k) coina cide con el MCO. Por consiguiente, para k = 0 la expresi´n (10.7) debe o coincidir con (10.4), como en efecto puede comprobarse que sucede. Derivando (??) respecto de k, es f´cil comprobar que la derivada en k = 0 existe y a p −2 2 es −2σ i=1 λi , claramente negativa. Por consiguiente, siempre podremos (incrementando ligeramente k) lograr que: ˆ ˆ ˆ ECM [β (k) ] < ECM [β (0) ] = ECM [β] lo que demuestra el teorema. (10.15)

Una percepci´n intuitiva del resultado anterior la proporciona la compao raci´n de las expresiones (10.4) y (10.8), valores medios respectivamente de o ˆ − β )′ (β − β ) y (β (k) − β )′ (β (k) − β ). Se observa que (10.4) puede hacerse ˆ ˆ ˆ (β

146

´ CAP´ ITULO 10. REGRESION SESGADA.

ˆ Figura 10.1: Componentes del ECM (β (k) ) en el estimador ridge. Las l´ ıneas ˆ de trazos y puntos representa respectivamente la varianza y (sesgo)2 de β (k) ˆ en funci´n de k. La curva s´lida representa ECM [β (k) ]. La l´ o o ınea horizontal ˆ es la varianza (y ECM) del estimador β MCO.

0.35

0.30

ECM ridge (a) + (b)

ECM, varianza y (sesgo)2

0.20

0.25

ECM MCO

Sesgo ridge (b)

0.05

0.10

0.15

Var ridge (a)

0.00 0.00

0.02

0.04 k

0.06

0.08

0.10

arbitrariamente grande si λi ≈ 0 para alg´n i. La expresi´n (10.12) est´ a u o a cobijo de tal eventualidad, pues ninguno de los sumandos puede crecer por encima de λi /k 2 . La Figura 10.1 muestra en un caso concreto c´mo var´ en funci´n de o ıan o k los componentes (a) y (b) de (10.8), y su suma. Como t´rmino de come ˆ paraci´n se ha representado mediante una l´ o ınea horizontal la varianza del β MCO (igual a su varianza, puesto que es insesgado). Puede verse que, tal ˆ como el Teorema 10.1 establece, hay valores de k en que el ECM (β (k) ) desˆ ocurre para valores de k menores que 0.039 ciende por debajo del ECM (β); aproximadamente.

´ 10.3. REGRESION RIDGE.

147

10.3.3.

Elecci´n de k o

Sabemos que existe un k (de hecho, un intervalo de valores de k) mejorando el ECM del estimador MCO; pero nada en la discusi´n anterior nos o permite decidir cu´l es su valor. En la pr´ctica, se recurre a alguna o varias a a de las siguientes soluciones: Uso de trazas ridge. Se prueban diversos valores de k represent´ndose a las diferentes estimaciones del vector β (trazas ridge); se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. La idea es intuitivamente atrayente: peque˜os incrementos de k partiendo n de cero tienen habitualmente un efecto dr´stico sobre β , al coste de introducir a alg´n sesgo. Incrementaremos k por tanto hasta que parezca que su influencia u sobre β se aten´a —hasta que las trazas ridge sean casi horizontales. El u decidir d´nde ocurre esto es, no obstante, bastante subjetivo. o Elecci´n de k por validaci´n cruzada. La idea es tambi´n muy simo o e ple, aunque computacionalmente algo laboriosa. Sea y(i),k la predicci´n que ˆ o hacemos de la observaci´n yi cuando empleamos el estimador ridge de par´o a metro k obtenido con una muestra de la que excluimos la observaci´n i-´sima. o e Definamos
N

CV (k) =
i=1

(yi − y(i),k )2 ; ˆ

es decir, CV (k) es la suma de cuadrados de los residuos obtenidos al ajustar cada observaci´n con una regresi´n que la ha dejado fuera al estimar los o o par´metros. Entonces, a kCV = arg m´ CV (k), ın
k

y la idea es emplear este valor kCV . En principio, calcular CV (k) para un valor de k requerir´ llevar a cabo N regresiones, excluyendo cada vez una ıa observaci´n distinta. En la pr´ctica, el c´lculo puede agilizarse de modo cono a a siderable. Elecci´n de k por validaci´n cruzada generalizada (GCV). Es un o o criterio estrechamente emparentado con el anterior. Sean A(k) = X((X ′ X) + kI)−1 X ′ ˆ y = X β (k) = A(k)y ; ˆ

148 entonces, elegimos kGCV

´ CAP´ ITULO 10. REGRESION SESGADA.

= arg m´ ın
k

||(I − A(k))y ||2 . [traza(I − A(k))]2

(10.16)

Sobre la justificaci´n de dicha elecci´n puede verse Eubank (1988) o Brown o o (1993), por ejemplo; no podemos entrar aqu´ en detalles. Baste decir que la ı expresi´n que se minimiza en (10.16) se reduce a SSE/(N −p)2 cuando k = 0 o (m´ ınimos cuadrados ordinarios), como resulta inmediato de la definici´n de o A(k); una expresi´n cuya minimizaci´n parece razonable. Para otros valores o o de k el numerador de (10.16) contin´a siendo una suma de cuadrados de u los residuos y el denominador el cuadrado del n´mero de grados de libertad u equivalentes. Otros criterios. Nos limitamos a mencionarlos. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes.
′ kHKB = (p − 2)ˆ 2 /β β σ ˆ ˆ

(10.17)

ˆ ˆ kLW = (p − 2)ˆ 2 traza(X ′ X)/(pβ (X ′ X)β) σ
k i

(10.18) (10.19)

kM U R = arg m´ σ 2 ın ˆ

λi − k + k2 λi (λi + k)

i

αi ˆ2 (λi + k)2

El criterio (10.17) fue propuesto por Hoerl et al. (1975) y tiene una justificaci´n bayesiana. El criterio (10.18) fue propuesto en Lawless and Wang (1976). o El criterio (10.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimaci´n. o Observaci´n 10.2 En las ecuaciones (10.17)–(10.19), p es el oro
den y rango de la matrix (X ′ X). En caso de que (X ′ X) sea de rango deficiente r, r < p, puede sustituirse ´ste por p tomando como β el ese timador m´ ınimo cuadr´tico de m´ a ınima longitud; ver detalles en Brown (1993), p´g. 63. a

10.3.4.

Comentarios adicionales

Es evidente que la forma del ECM propuesto pondera por igual las discrepancias en la estimaci´n de un βi cuyo valor real es muy grande que o aqu´llas en la estimaci´n de uno cuyo valor real es muy peque˜o. Por ello, e o n es aconsejable antes de emplear el procedimiento normalizar los regresores. Alternativamente podr´ reproducirse el desarrollo anterior empleando como ıa

´ 10.3. REGRESION RIDGE.

149

ˆ ˆ ECM una expresi´n del tipo: (β − β )′ M (β− β ), siendo M una matriz definida o ˆ positiva adecuada2 “tipificando” los (β − β ). Es habitual no s´lo normalizar sino tambi´n centrar tanto las columnas o e de X como y . El par´metro β0 se sustrae as´ al proceso de estimaci´n ridge, a ı o restaur´ndolo al final. a Finalmente, es de inter´s se˜alar que el estimador ridge puede verse dese n de distintos puntos de vista. Uno de ellos lo interpreta como un estimador bayesiano, en la l´ ınea esbozada en los Ejercicios 4.6 y 4.7, p´g. 59. a R: Ejemplo 10.1 (ejemplo de regresi´n ridge) o
El siguiente c´digo muestra el uso de regresi´n ridge sobre un cono o junto de datos acusadamente colineal. La Figura 10.2 muestra las trazas ridge de los seis par´metros estimados y el valor del criterio GCV a para distintos valores de k. En ambas gr´ficas, que comparten la escaa la de abscisas, se ha trazado una recta vertical al nivel de kGCV . Los valores de kHKB y kLW son tambi´n output de la funci´n lm.ridge e o y podr´ haberse utilizado. El primero es pr´cticamente id´ntico a ıan a e kGCV y no se ha representado en la Figura 10.2; el segundo s´ ı. > > > > > > options(digits = 4) options(columns = 40) library(MASS) data(longley) names(longley)[1] <- "y" longley[1:3, ] Unemployed Armed.Forces 235.6 159.0 232.5 145.6 368.2 161.6 Year Employed 1947 60.32 1948 61.12 1949 60.17

y GNP 1947 83.0 234.3 1948 88.5 259.4 1949 88.2 258.1 Population 1947 107.6 1948 108.6 1949 109.8

> longley.mco <- lm(y ~ ., longley) > summary(longley.mco) Call: lm(formula = y ~ ., data = longley) Residuals:
Es decir, empleando una m´trica distinta de la eucl´ e ıdea ordinaria para medir la disˆ crepancia entre β y β ; M = (X ′ X) ser´ una elecci´n natural. ıa o
2

150

´ CAP´ ITULO 10. REGRESION SESGADA. Figura 10.2: Trazas ridge y GVC para los datos longley

Trazas ridge
kGCV 20 βi −10 0.00 0 10

0.02

0.04 k

0.06

0.08

0.10

Criterio GCV
kGCV kLW

GCV

0.120 0.00

0.130

0.140

0.02

0.04 k

0.06

0.08

0.10

´ 10.3. REGRESION RIDGE.
Min 1Q Median -2.009 -0.515 0.113 Coefficients: 3Q 0.423 Max 1.550

151

Estimate Std. Error t value (Intercept) 2946.8564 5647.9766 0.52 GNP 0.2635 0.1082 2.44 Unemployed 0.0365 0.0302 1.21 Armed.Forces 0.0112 0.0155 0.72 Population -1.7370 0.6738 -2.58 Year -1.4188 2.9446 -0.48 Employed 0.2313 1.3039 0.18 Pr(>|t|) (Intercept) 0.614 GNP 0.038 * Unemployed 0.258 Armed.Forces 0.488 Population 0.030 * Year 0.641 Employed 0.863 --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 1.19 on 9 degrees of freedom Multiple R-squared: 0.993, Adjusted R-squared: 0.988 F-statistic: 203 on 6 and 9 DF, p-value: 4.43e-09 N´tese la fuerte multicolinealidad, aparente en los reducidos t-ratios o y elevada R2 . Probemos ahora regresi´n ridge con valores de k (= o lambda) entre 0 y 0.1 variando de mil´sima en mil´sima. Imprimiremos e e a continuaci´n las estimaciones correspondientes a los tres primeros o valores de k ensayados. Cuando k = 0, deben coincidir las estimaciones con las obtenidas por MCO. > longley.rr <- lm.ridge(y ~ ., longley, + lambda = seq(0, 0.1, 0.001)) > summary(longley.rr) Length coef 606 scales 6 Inter 1 lambda 101 Class -none-none-none-noneMode numeric numeric numeric numeric

152
ym xm GCV kHKB kLW 1 6 101 1 1 -none-none-none-none-none-

´ CAP´ ITULO 10. REGRESION SESGADA.
numeric numeric numeric numeric numeric

> coef(longley.rr)[1:3, ] GNP Unemployed Armed.Forces 0.000 2947 0.2635 0.03648 0.011161 0.001 1896 0.2392 0.03101 0.009372 0.002 1166 0.2210 0.02719 0.008243 Population Year Employed 0.000 -1.737 -1.4188 0.23129 0.001 -1.644 -0.8766 0.10561 0.002 -1.565 -0.5011 0.03029

La funci´n select aplicada al objeto que devuelve lm.ridge devuelve o los valores ´ptimos de tres de los criterios mencionados m˜as arriba. o n > select(longley.rr) modified HKB estimator is 0.006837 modified L-W estimator is 0.05267 smallest value of GCV at 0.006

Podemos seleccionar el k ´ptimo de acuerdo, por ejemplo, al criterio o GCV, y hacer regresi´n ridge con ´l: o e > nGCV <- which.min(longley.rr$GCV) > lGCV <- longley.rr$lambda[nGCV] > lm.ridge(y ~ ., longley, lambda = lGCV) GNP 1.765e-01 Population -1.328e+00 Unemployed 1.937e-02 Year 2.556e-01

-3.144e+02 Armed.Forces 6.565e-03 Employed -5.812e-02

El c´digo a continuaci´n genera las gr´ficas en la Figura 10.2. o o a

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.
> > + + > > > > + + > > > >

153

par(mfrow = c(2, 1)) matplot(longley.rr$lambda, t(longley.rr$coef), type = "l", xlab = expression(k), ylab = expression(beta[i])) abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) title(main = "Trazas ridge") plot(longley.rr$lambda, longley.rr$GCV, type = "l", xlab = expression(k), ylab = "GCV", main = "Criterio GCV") abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) abline(v = longley.rr$kLW) mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)

Fin del ejemplo

10.4.
10.4.1.

Regresi´n en componentes principales. o
Descripci´n del estimador o

Consideraremos, por conveniencia notacional, el modelo habitual en que la columna de “unos”, si existe, ha sido segregada, y los restantes regresores han sido centrados y normalizados. Esto tiene por unico efecto multiplicar ´ los par´metros —y sus estimadores— por constantes respectivamente iguales a a la norma de las columnas de X afectadas. Con este convenio, el modelo de regresion lineal que consideramos se puede escribir as´ ı: y = 1β0 + W β ∗ + ǫ (10.20)

Supondremos, consistentemente con la notaci´n anterior, que β ∗ es un o vector (p − 1) × 1, y W una matriz N × (p − 1). La matriz W ′ W es una matriz con “unos” en la diagonal principal, sim´trica, y definida no negativa. e Existe siempre una diagonalizadora ortogonal V tal que: V ′ (W ′ W )V = Λ (⇐⇒ W ′ W = V ΛV ′ ) (10.21)

154

´ CAP´ ITULO 10. REGRESION SESGADA.

Sean v1 , . . . , vp−1 los vectores columna de V . Llamaremos componentes principales de W a los vectores u1 , . . . , up−1 definidos as´ ı: u1 u2 up−1 o abreviadamente: U = WV (10.23) = W v1 = W v2 . . . = W vp−1 (10.22)

La matriz U es N × (p − 1), con columnas combinaci´n lineal de las de o W . Es adem´s aparente que las columnas de U son ortogonales: U ′ U = a V ′ (W ′ W )V = Λ, y que generan el mismo subespacio de RN que las de W . Siendo V ortogonal, (10.20) puede transformarse as´ ı: y = 1β0 + W β ∗ + ǫ = 1β0 + W V V β + ǫ = 1β0 + U γ ∗ + ǫ
′ ∗

(10.24) (10.25) (10.26)

Teniendo en cuenta (ver Problema 10.2) que 1 ⊥ ui , (i = 1, . . . , p − 1), el vector de estimadores puede escribirse as´ ı: ˆ β0 γ∗ ˆ = y (U ′ U )−1 U ′ y = y Λ−1 U ′ y (10.27)

Todo lo que hemos hecho hasta el momento es tomar una diferente base del espacio de proyecci´n —la formada por las columnas de U en lugar de o la formada por las columnas de W —. Llegados a este punto, tenemos que recuperar los estimadores de los par´metros originales β ∗ a partir de γ ∗ . Si a ˆ lo hacemos mediante ˆ β∗ = V γ∗ ˆ estaremos obteniendo exactamente los estimadores MCO. La idea del estimaˆ∗ dor en componentes principales βCP es emplear s´lo algunos de los t´rminos o e ∗ en γ : ˆ ˆ∗ βCP = V γ(q) ˆ∗ . 0 (10.28)

Necesitamos por tanto criterios para escoger los estimadores γi que incluimos ˆ ∗ en γ(q) y los que reemplazamos por cero en (10.28). ˆ

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.

155

10.4.2.

Estrategias de selecci´n de componentes prino cipales

Hay varias estrategias. Una discusi´n m´s pormenorizada que el resumen o a a continuaci´n puede encontrarse en Brown (1993) o en Jolliffe (1986). o e Elecci´n basada en λi . Como quiera que la varianza de γi∗ es σ 2 λ−1 (v´ase o ˆ i ∗ (9.26), p´g. 133), una estrategia consistir´ en tomar los γi asociados a λi m´s a ıa ˆ a grande (es decir, con menos varianza), despreciando los restantes. El n´mero u de componentes principales a retener (= el n´mero de λi ’s “grandes”) es en u buena medida subjetivo. N´tese que puede ocurrir que componentes asociadas a par´metros γi∗ con o a ˆ mucha varianza —y por tanto desechados— tengan no obstante gran poder predictivo de y . En este caso, podr´ ser preferible emplear la estrategia a ıa continuaci´n. o Elecci´n basada en el contraste de nulidad de los γi∗ . Se procede as´ o ˆ ı: 1. Se calcula PU y
2

= U γ∗ ˆ

2

= γ1 u1 ˆ ∗2

2

+ · · · + γp−1 up−1 ˆ ∗2

2

,

(10.29)

la ultima igualdad haciendo uso de la ortogonalidad entre las columnas ´ de U . Entonces, SSR = PU y 2 , y SSE = y − y 2 − U γ ∗ 2 . ˆ 2. Se contrasta la hip´tesis de nulidad para cada uno de los par´metros, o a (Hi : γi∗ = 0, i = 1, . . . , p − 1), mediante el estad´ ˆ ıstico: Qi = N − p γi∗2 ui ˆ × 1 SSE
2

∼ F1,N −p

(10.30)

que sigue la distribuci´n indicada bajo los supuestos habituales m´s o a normalidad cuando Hi es cierta. Obs´rvese que, gracias a ser ortogonales las columnas de U , la fracci´n e o de SSR atribuible a cada regresor es independiente de los que pueda haber ya incluidos en la ecuaci´n de regresi´n; por tanto, la diferencia o o de suma de cuadrados explicada con y sin el regresor ui es precisamente γi∗2 ui 2 . ˆ 3. Se introducen todos los regresores cuyo estad´ ıstico Qi supere un nivel prefijado. Sin p´rdida de generalidad, supondremos que ´stos son los q e e ∗ primeros, formando el vector γ(q) . ˆ

156

´ CAP´ ITULO 10. REGRESION SESGADA.

ˆ∗ o 4. Los βCP se obtienen mediante la transformaci´n (10.28). N´tese que mientras que la estrategia precedente consist´ en desechar o ıa componentes principales asociadas a reducido λi , la presente propone desechar las asociadas a reducido Qi ; frecuentemente, no suele haber conflicto entre ambos objetivos: ui 2 = λi ≈ 0 ⇒ Qi ≈ 0 a menos que simult´neamente a γi∗ ≫ 0. Puede ocurrir, sin embargo, que una componente principal asociaˆ da a un λi muy peque˜o tenga apreciable valor predictivo (si γi∗ es grande). n ˆ Proceder´ incluir dicha componente principal como predictor si el valor de ıa Qi lo justifica y la predicci´n es el objetivo del an´lisis3 . o a Estrategia mixta. Propuesta por Jolliffe (1986), ordena los γi∗ de menor ˆ a mayor λi y realiza en este orden un contraste como el del apartado anterior sobre cada uno de ellos. Cuando se encuentra el primer γi∗ significativo, se ˆ retiene junto a todos los que le siguen (con λi mayor, por tanto). Todos los γi∗ retenidos componen el vector γ(q) . ˆ ˆ∗ Validaci´n cruzada. Computacionalmente muy laboriosa. Puede ocurrir o que al omitir distintas observaciones, dos componentes principales permuten su orden. V´anse detalles en Brown (1993). e

10.4.3.

Propiedades del estimador en componentes principales

ˆ∗ El sesgo de βCP es: ˆ∗ E[βCP − β ∗ ] = E V y su matriz de covarianzas: Σβ ∗ ˆ
CP

γ(q) ˆ∗ −Vγ∗ =− γi∗ vi ˆ 0 i=q+1

p−1

(10.31)

= V = σ
2

σ2
q

Iq 0 I 0 Λ−1 q 0 0 0 0 λ−1 vi vi ′ i

V′

(10.32) (10.33) (10.34) (10.35)

i=1 p−1

≤ σ2

λ−1 vi vi ′ i

= σ (W W )−1
3

i=1 2 ′

Pero este criterio no es un´nimemente compartido. V´ase Hocking (1976). a e

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.

157

en que el s´ ımbolo ≤ indica elementos no mayores en la diagonal principal. La diferencia entre la matriz de covarianzas de los estimadores MCO y la de los estimadores en componentes principales es:
p−1

σ

2 i=q+1

λ−1 vi vi ′ i

(10.36)

y ser´ importante si entre las componentes principales exclu´ a ıdas como regresores hay alguna asociada a un λi muy peque˜o. n Las expresiones (10.31) y (10.32)–(10.35) muestran el conflicto varianzasesgo en el caso de la regresi´n en componentes principales. De (10.31) se o deduce la siguiente expresi´n para la suma de los sesgos al cuadrado: o
′ ˆ∗ ˆ∗ [E(βCP ) − β ∗ ] [E(βCP ) − β ∗ ] = p−1

(ˆi∗ )2 γ
i=q+1

(10.37)

Es interesante comparar el estimador en componentes principales con el estimador ridge, y examinarlo a la luz del an´lisis efectuado en el Cap´ a ıtulo 9. En realidad, todo cuanto hace el estimador en componentes principales es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores de los par´metros originales despreciando informaci´n (algunos γi∗ ) de gran a o ˆ varianza (si se sigue el criterio de despreciar sin m´s componentes principales a ∗ 2 con peque˜o λi ) o de reducido Qi ∝ (ˆi ) λi ; este ultimo estad´ n γ ´ ıstico puede contemplarse como relaci´n se˜al/ruido. o n El estimador ridge no hace una elecci´n tan dr´stica sino que, mediano a te la introducci´n del par´metro k, aten´a las componentes principales reso a u ˆ ponsables en mayor medida de la varianza de β. Esto se hace evidente si comparamos la siguiente expresi´n: o ˆ∗ βCP = V Iq 0 ∗ γ =V ˆ 0 0 Iq 0 Λ−1 U ′ y 0 0 (10.38)

con la del estimador ridge equiparable4 : ˆ β (k) = (W ′ W + kI)−1 W ′ y = V V ′ (W ′ W + kI)−1 V V ′ W ′ y = V (Λ + kI)−1 U ′ y (10.39) (10.40) (10.41)

En (10.38) s´lo q columnas de U ′ y se utilizan; en (10.41), todas, si bien las o que corresponden a componentes principales con λi m´s peque˜o reciben una a n
Es decir, tras haber centrado y normado los regresores y segregado la columna de “unos”.
4

158

´ CAP´ ITULO 10. REGRESION SESGADA.

ponderaci´n menor, al ser divididas por λi +k en lugar de por λi . Por ejemplo, o si λ1 = 5, λ4 = ,002 y k = 0,01, la primera columna de U ′ y ser´ dividida ıa por 5,01 ≈ 5, mientras que la cuarta resultar´ dividida por 0,012 ≫ 0,002, ıa es decir, su ponderaci´n se reducir´ a la sexta parte de la original. o ıa R: Ejemplo 10.2 (regresi´n en componentes principales) o
La funci´n regCP que sigue traduce directamente de la teor´ exo ıa puesta el m´todo para llevar a cabo estimaci´n en componentes prine o cipales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos: tomar: Vector de ´ ındices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar´ las tres primeras. ıa sig: Nivel de significaci´n de las componentes principales a reo tener. Se toman todas aqu´llas –sea cual fuere su valor propio e asociado– significativas al nivel sig. La funci´n es ineficiente, no hace comprobaci´n de errores y tiene s´lo o o o inter´s did´ctico. e a > regCP <- function(X, y, tomar = NULL, + sig = 0.05) { + X.c <- scale(X, scale = FALSE) + y.c <- scale(y, scale = FALSE) + W <- scale(X.c, center = FALSE)/sqrt(nrow(X) + 1) + WW <- crossprod(W) + factores.escala <- X.c[1, ]/W[1, ] + N <- nrow(X) + p <- ncol(X) + res <- eigen(WW) + V <- res$vectors + landas <- res$values + U <- W %*% V + gamas <- (1/landas) * t(U) %*% y.c + if (is.null(tomar)) { + fit <- lsfit(X.c, y.c, intercept = FALSE) + SSE <- sum(fit$residuals^2) + qi <- (N - p) * (gamas * landas)^2/SSE + tomar <- (1:p)[sig > (1 - pf(qi, + 1, N - p))] + } + betasCPstar <- V[, tomar] %*% gamas[tomar] + betasCP <- betasCPstar/factores.escala

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.
+ + + + + + + + }

159

m.X <- apply(X, 2, mean) m.Y <- mean(y) beta0 <- m.Y - sum(m.X * betasCP) betasCP <- c(beta0, betasCP) names(betasCP) <- c("Intercept", dimnames(X)[[2]]) return(list(betasCP = betasCP, landas = landas, CP.usadas = tomar))

Veamos el modo de emplearla, con los datos longley, frecuentemente empleados como banco de pruebas por su muy acusada multicolinealidad: > > > > > library(MASS) data(longley) y <- longley[, 1] X <- as.matrix(longley[, -1]) regCP(X, y, tomar = 1:3) GNP 2.459e-02 Population 3.391e-01 Unemployed 9.953e-03 Year 4.967e-01

$betasCP Intercept -9.731e+02 Armed.Forces 1.553e-02 Employed 7.239e-01

$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 Una comprobaci´n util consiste en ver que el estimador en CP, cuando o ´ se utilizan todas las componente principales, coincide con el estimador MCO. Ve´moslo: a > regCP(X, y, tomar = 1:ncol(X)) $betasCP Intercept 2946.85636 GNP 0.26353 Unemployed 0.03648

160
Armed.Forces 0.01116 Employed 0.23129

´ CAP´ ITULO 10. REGRESION SESGADA.
Population -1.73703 Year -1.41880

$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 4 5 6 > lsfit(X, y)$coefficients Intercept 2946.85636 Armed.Forces 0.01116 Employed 0.23129 GNP 0.26353 Population -1.73703 Unemployed 0.03648 Year -1.41880

Para que la funci´n seleccione aquellas componentes principales con o un nivel de significaci´n de sus par´metros asociados prefijado, la ino a vocamos as´ ı: > regCP(X, y, sig = 0.1) $betasCP Intercept -961.37468 Armed.Forces 0.01991 Employed 0.66205 GNP 0.02372 Population 0.33197 Unemployed 0.01373 Year 0.49223

$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 Fin del ejemplo

´ 10.5. REGRESION EN RA´ ICES LATENTES

161

10.5.

Regresi´n en ra´ o ıces latentes
y = 1β0 + W β ∗ + ǫ (10.42)

Consideramos el modelo:

o alternativamente: y∗ = Wβ ∗ + ǫ (10.43)

en que tanto los regresores como la variable respuesta y ∗ han sido normalizados y centrados. Es decir, y ∗ = η −1 (y − y) siendo η 2 = N (yi − y)2 . Si i=1 constru´ ımos la matriz N × p siguiente: A = [y ∗ | W ] (10.44)

tenemos que la matriz (A′ A) es una matriz de correlaci´n (tiene “unos” en la o diagonal principal, es sim´trica y semidefinida positiva). Sea V = (v1 | · · · | e vp ) la matriz que la diagonaliza: V ′ (A′ A)V = Λ ⇐⇒ V ΛV ′ = A′ A Entonces, utilizando (10.44), tenemos Avj = v0j y ∗ + W vj , d´nde vj o
(0) (0)

(10.45)

(j = 1, . . . , p)

(10.46)

es vj desprovisto de su primer elemento: vj = v0j (0) . vj

Tomando norma al cuadrado de (10.46), Avj
2

= =

v0j yi∗ + W vj
N

(0) 2 p−1 2

yi∗ v0j
i=1

+
k=1

Wik vkj

(10.47)

en que vkj es la k-´sima coordenada de vj . Como por otra parte e Avj
2

(0)

= vj ′ (A′ A)vj = λj ,

(10.48)

162

´ CAP´ ITULO 10. REGRESION SESGADA.

igualando (10.47) y (10.48) deducimos que si λj ≈ 0
p−1 ∗ yi v0j

≈−

Wik vkj
k=1

∀i ∈ [1, . . . , N ]

(10.49)

Si, adem´s, v0j = 0, podemos escribir: a
−1 y ∗ ≈ −v0j W vj (0) def

=

y(j) ˆ∗

(10.50)

Como y ∗ = η −1 (y − y), y = y + ηy ∗ y denominando y(j) = y + ηˆ(j) ˆ y∗ tenemos: (y − y(j) ) ′ (y − y(j) ) = η 2 (y ∗ − y(j) ) ′ (y ∗ − y(j) ) ˆ ˆ ˆ∗ ˆ∗ = (v0j y ∗ − v0j y(j) ) ′ (v0j y ∗ − v0j y(j) ) ˆ∗ ˆ∗ = (Avj ) ′ (Avj ) = λj η 2 2 v0j η2 2 v0j (10.52) η2 2 v0j (10.51)

N´tese que la aproximaci´n de y ∗ en (10.50) y suma de cuadrados de los o o residuos en (10.52), hacen uso exclusivamente de una parte de la informaci´n o disponible; la de que λj es aproximadamente cero para un determinado j. Podemos pensar en hacer uso de toda la informaci´n disponible aproximano do y mediante una combinaci´n lineal de y(i) (i = 1, . . . , p), debidamente o ˆ ponderadas por coeficientes di a determinar:
p

y = ˆ
i=1 p

di y(i) ˆ di y + W (−v0i −1 vi η)
i=1 p p (0)

[usando (10.50) y (10.51)] =

=
i=1

di

y+W

di v0i −1 vi η
i=1

(0)

Por otro lado, de (10.42) tenemos ˆ ˆ β0 1 + W β ∗

´ 10.5. REGRESION EN RA´ ICES LATENTES que junto con la igualdad precedente proporciona:
p

163

ˆ β0 = y
i=1 p

di di v0i −1 vi
i=1 (0)

(10.53) (10.54)

ˆ β ∗ = −η

ˆ Como los regresores W est´n centrados, es claro que β0 = y, y por tanto a p de (10.53) se deduce i=1 di = 1. Haciendo uso de (10.52), (10.53), y (10.54) obtenemos la suma de cuadrados de los residuos: (y − y ) ′ (y − y ) = η 2 (y ∗ − y ∗ ) ′ (y ∗ − y ∗ ) ˆ ˆ ˆ ˆ
p ′ p

= η

2

y +W
i=1 p

(0) di v0i −1 vi

y +W
i=1 ′ (0)

di v0i −1 vi

(0)

= η2
i=1 p

di v0i di v0i di v0i λi d2 i v0i 2

(y ∗ v0i + W vi ) (y ∗ v0i + W vi )
′ p (0)

× = η
2

i=1 p

Avi
i=1

i=1 p

di v0i

Avi (10.55)
p i=1

= η2
i=1

.

Podemos ahora minimizar la expresi´n (10.55) sujeta a que o El lagrangiano es:
p

di = 1.

Φ(d ) = η cuyas derivadas

2 i=1

λi d2 i v0i 2

p

−µ

i=1

di − 1

(10.56)

∂Φ(d ) = 2η 2 ∂di

di λi v0i 2

−µ=0

(i = 1, . . . , p)

(10.57)

permiten (multiplicando cada igualdad en (10.57) por v0i 2 λ−1 y sumando) i obtener:
p

µ = 2η

2 i=1

2 v0i λi

−1

(10.58)

164

´ CAP´ ITULO 10. REGRESION SESGADA.

Llevando (10.58) a (10.57) obtenemos: λi 2η 2 di 2 = µ = 2η 2 v0i y por tanto: v2 di = 0i λi
p 2 v0i λi −1 p 2 v0i λi −1

(10.59)

i=1

(10.60)

i=1

Los estimadores deseados se obtienen llevando (10.60) a (10.53)–(10.54): ˆ β0 = y β ˆ∗ = −η
p i=1

(10.61) v0i v (0) i λi 2 v0i p i=1 λ i (10.62)

Podr´ ıamos detenernos aqu´ pero hay m´s. Cabe distinguir dos tipos de ı, a multicolinealidades entre las columnas de la matriz [y ∗ | W ]; aqu´llas en e que v0i ≫ 0 que llamaremos (multicolinealidades predictivas), y aqu´llas en e que v0i ≈ 0 (multicolinealidades no predictivas); las primeras permiten despejar y ∗ , y son aprovechables para la predicci´n, en tanto las segundas son o multicolinealidades fundamentalmente entre los regresores. (0) El estimador anterior pondera cada vi en proporci´n directa a v0i e o inversa a λi . Es lo sensato: lo primero, prima las multicolinealidades predictivas sobre las que lo son menos; lo segundo, a las multicolinealidades m´s a fuertes (en que la igualdad aproximada (10.49) es m´s ajustada). Pero podea mos eliminar en (10.62) t´rminos muy inestables, cuando v0i y λi son ambos e muy peque˜os, para evitar que el sumando correspondiente en (10.62) reciba n gran ponderaci´n, si parece evidente que se trata de una multicolinealidad o no predictiva. La relaci´n (10.62) se transformar´ entonces en: o a ˆ∗
i∈P

β = −η

v0i v (0) i λi 2 v0i i∈P λi

(10.63)

siendo P un subconjunto de (1, . . . , p). La determinaci´n de P es una tarea eminentemente subjetiva; se suele o (0) desechar una multicolinealidad cuando λi < 0,10 y v0i < 0,10, si adem´s vi a “se aproxima” a un vector propio de W ′ W .

10.6. LECTURA RECOMENDADA

165

10.6.

Lectura recomendada

Sobre regresi´n ridge, el trabajo original es Hoerl and Kennard (1970) (ver o tambi´n Hoerl et al. (1975)). Hay una enorme literatura sobre los estimadores e ridge y en componentes principales. Pueden verse por ejemplo Brown (1993), Cap. 4, Troc´niz (1987a) Cap. 10 ´ Pe˜a (2002) Sec. 8.3.4, que relaciona el o o n estimador ridge con un estimador bayesiano. Los m´todos de regresi´n sesgada se contemplan a veces como alternativas e o a los m´todos de selecci´n de variables en situaciones de acusada multicolie o nealidad: v´ase por ejemplo Miller (2002), Cap. 3. De hecho, estudiaremos en e el Cap´ ıtulo 12 estimadores como el LASSO y garrote no negativo que pueden tambi´n verse como m´todos de regresi´n sesgada. e e o El trabajo original regresi´n en ra´ o ıces latentes puede verse en Webster et al. (1974). Hay tambi´n descripciones completas del m´todo en manuales e e como Troc´niz (1987a) (p´g. 247 y ss.) o Gunst and Mason (1980), Sec. 10.2. o a

166

´ CAP´ ITULO 10. REGRESION SESGADA. Complementos y ejercicios 10.1 Al final de la Secci´n 10.3 se propon´ emplear un criterio o ıa
del tipo ˆ ˆ (β − β )′ M (β − β ) con M = (X ′ X). D´se una justificaci´n para esta elecci´n de M . e o o

10.2 Demu´strese que si ui es definida como en (10.22), se vee rifica que 1 ⊥ ui . 10.3 Sea una muestra formada por n observaciones, X1 , . . . , Xn ,
generadas por una distribuci´n con media. Demu´strese que, para alo e a g´n c, cX es mejor estimador (en terminos de error medio cuadr´tico, u ECM) que X. ¿Es esto un caso particular de alguno de los procedimientos de estimaci´n examinados en este cap´ o ıtulo?

10.4 Es f´cil realizar regresi´n ridge incluso con programas pena o
sados s´lo para hacer regresi´n m´ o o ınimo cuadr´tica ordinaria. Basta a prolongar el vector y con p ceros, y la matriz X con p filas adicionales: √ ˜ ˜ las de la matriz kIp×p . Llamamos X e y a la matriz de regresores y vector respuesta as´ ampliados. Al hacer regresi´n ordinaria de y sobre ı o ˜ ˜ X obtenemos: ˆ ˜′˜ ˜ ′˜ β = (X X)−1 X y = (X X + kI) = (X X + kI) ˆ = β (k)
′ ′ −1 −1

(X y + X y

(10.64) kI 0 ) (10.65) (10.66) (10.67)

˜ n Alternativamente, se puede formar X a˜adiendo a X las filas de una matriz unidad, y realizar regresi´n ponderada (dando a cada obsero vaci´n “normal” peso unitario y a las p seudo-observaciones a˜adidas o√ n o a o peso k). La alteraci´n de los pesos es habitualmente m´s c´moda que la creaci´n de una nueva matriz de regresores. Este ser´ de ordio a nario el m´todo a utilizar cuando hayamos de probar muchos valores e diferentes de k y dispongamos de un programa para hacer regresi´n o m´ ınimo cuadr´tica ponderada. Las funciones lsfit y lm (disponibles a en R) admiten ambas el uso de pesos y por tanto se prestan al uso descrito. La librer´ MASS contiene no obstante la funci´n lm.ridge, ıa o que hace estimaci´n ridge de modo m´s c´modo para el usuario. o a o

10.5 Supongamos una muestra formada por pares de valores
(yi , xi ), i = 1, . . . , N . La variable Y es peso, la variable X es edad,

10.6. LECTURA RECOMENDADA
y las observaciones corresponden a N diferentes sujetos. Estamos interesados en especificar la evoluci´n del peso con la edad. Podr´ o ıamos construir la matrix de dise˜o n   p−1 1 x1 x2 x3 . . . x1 1 1  p−1   1 x2 x2 x3 . . . x2  2 2  p−1  2 3 X =  1 x3 x3 x3 . . . x3  (10.68)   . .   . . .  . . .  . 1 xN x2 N x3 N
p−1 . . . xN

167

y contrastar hip´tesis tales como H0 : β2 = β3 = . . . = βp−1 = 0 o (tendencia no m´s que lineal), H0 : β3 = . . . = βp−1 = 0 (tendena cia no m´s que cuadr´tica), etc. Sucede sin embargo, como es f´cil a a a comprobar, que una matriz como la anterior adolece de una acusada multicolinealidad, sean cuales fueren los valores x1 , . . . , xN . Podr´ ıamos ortogonalizar los vectores columna de la matriz de diseno (por ejemplo mediante el procedimiendo de Gram-Schmidt: v´ase ˜ e Grafe (1985) o cualquier libro de Algebra Lineal), para obtener una nueva matriz de dise˜o. Los nuevos vectores columna generan el misn mo espacio y el contraste puede hacerse del mismo modo que con los originales, pero sin problemas de multicolinealidad. Otra posibilidad es sustituir las potencias creciente de xi en las columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977), Dahlquist and Bj¨rck (1974), o o cualquier texto de An´lisis Num´rico). a e Ambos procedimientos tienen por finalidad encontrar una base ortogonal o aproximadamente ortogonal generando el mismo espacio que los vectores columna originales de la matriz de dise˜o. n

10.6 (↑ 10.5) ¿Por qu´, para la finalidad perseguida en el Ejere cicio 10.5, no ser´ de utilidad hacer regresi´n en componentes princiıa o pales?

168

´ CAP´ ITULO 10. REGRESION SESGADA.

Cap´ ıtulo 11

Evaluaci´n del ajuste. o Diagn´sticos. o
Ya hemos visto en lo que precede estad´ ısticos para evaluar la bondad de ajuste de un modelo, como R2 ; pero se trata de estad´ ısticos que dan una 2 idea global del ajuste. Puede ocurrir que un R encubra el hecho de que localmente —para unas ciertas observaciones— el ajuste es muy deficiente. En lo que sigue abordaremos esta cuesti´n, considerando instrumentos o para examinar el ajuste localmente (para observaciones individuales). Examinaremos tambi´n la cuesti´n ´ e o ıntimamente relacionada de cu´ndo una oba servaci´n (o varias) son muy influyentes, en el sentido de condicionar de modo o importante la estimaci´n del modelo. o

11.1.

An´lisis de residuos. a

En general, como se ha indicado ya en el Cap´ ıtulo 12, no conocemos la forma en que se generan los valores de la variable respuesta Y . Todos los modelos que ajustemos son en alguna medida provisionales, y su adecuaci´n o a los datos debe ser objeto de an´lisis. El desarrollo que se hace a continuaa ci´n sigue principalmente a Cook and Weisberg (1982). Otras referencias de o utilidad son Hawkins (1980), Barnett and Lewis (1978), Belsley et al. (1980), Myers (1990) y Troc´niz (1987a). o 169

170

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

La forma m´s natural de examinar el ajuste consiste en considerar los a residuos ˆ ǫ = y − X β = (I − X(X ′ X)−1 X ′ )y = (I − X(X ′ X)−1 X ′ )ǫ ˆ (11.1) Podemos contemplar los ǫi como “estimaciones”de las perturbaciones ǫi (inobˆ servables) que han intervenido en la generaci´n de las Yi . Veremos sin embaro go que, en general, s´lo vagamente reproduce ǫ el comportamiento de ǫ. En o ˆ particular, Teorema 11.1 Bajo los supuestos habituales se verifica que: 1. Los residuos no son, en general, homosced´sticos, incluso cuando las a perturbaciones lo son. 2. Los residuos no son, en general, incorrelados, incluso cuando las perturbaciones lo son. ´ Demostracion: Σǫ = E[(ˆ − E(ˆ))(ˆ − E(ˆ))′ ] ǫ ǫ ǫ ǫ ˆ Como E(ˆ) = 0, (11.2) se reduce a: ǫ Eˆǫ ′ = E[(I − X(X ′ X)−1 X ′ )yy ′ (I − X(X ′ X)−1 X ′ ) ] ǫˆ = (I − X(X ′ X)−1 X ′ )σ 2 I = σ 2 (I − P ),

(11.2)

(11.3) (11.4) (11.5)

que en general no tiene elementos iguales a lo largo de la diagonal principal. El apartado 2) del enunciado es inmediato a partir de (11.5), dado que (I −P ) es una matriz no diagonal. Sea, pij = xi ′ (X ′ X)−1 xj (11.6) un elemento gen´rico de la matriz P (xi ′ denota la i-´sima fila de X). De la e e igualdad (11.1) se deduce: ǫi = (1 − pii )ǫi − ˆ pij ǫj
i=j

(11.7)

Por tanto, el residuo i-´simo es un promedio ponderado de la perturbaci´n e o correspondiente a dicha observaci´n y las de todas las dem´s observaciones, o a con ponderaciones (1 − pii ) y (−pij ). Dependiendo de los valores que tomen estos coeficientes, ǫi recoger´ con desigual fidelidad el valor de ǫi . ˆ a Los valores pij dependen s´lo de la matrix de dise˜o y son del mayor o n inter´s, como veremos m´s abajo. e a

´ 11.1. ANALISIS DE RESIDUOS.

171

11.1.1.

Residuos internamente studentizados.

Los residuos MCO definidos en (11.1) son, por causa de su heterocedasticidad, desaconsejables para la detecci´n de observaciones anormales o diago n´stico de modelos de regresi´n. Es sin embargo f´cil corregir dicha heteroceo o a dasticidad. De (11.5) se deduce que una estimaci´n de la varianza de ǫi viene o ˆ dada por σ 2 (1 − pii ). Por tanto, ˆ ri = ǫi ˆ + σ 2 (1 ˆ − pii ) (11.8)

para i = 1, . . . , N son residuos de varianza com´n. Se llama studentizaci´n a u o la eliminaci´n del efecto de un par´metro de escala (aqu´ σ 2 ) mediante divio a ı si´n por una estimaci´n adecuada. Se denomina internamente studentizados o o a los residuos definidos en (11.8). Es de notar que, a pesar de su denominaci´n, los ri no siguen una distrio buci´n t de Student, pues numerador y denominador no son independientes o (ˆi ha intervenido en el c´mputo de σ 2 ). Es f´cil demostrar, sin embargo, que ǫ o ˆ a bajo los supuestos habituales m´s el de normalidad en las perturbaciones, a 1 1 2 ri /(N − p) sigue una distribuci´n beta B( 2 , 2 (N − p − 1)). o Al tener los ri la misma varianza, se prestan mejor a ser examinados gr´ficamente para identificar posibles observaciones an´malas o outliers. a o

11.1.2.

Residuos externamente studentizados.
ǫi ˆ + σ 2 (i)(1 − pii ) ˆ

Definidos por: ti = (11.9)

son formalmente id´nticos a los ri , con la unica salvedad de haberse tomado e ´ 2 en el denominador un estimador σ (i) de σ 2 que no hace uso de ǫi . Mediante ˆ ˆ una elecci´n adecuada de σ 2 (i) puede lograrse que ti siga una distribuci´n o ˆ o t de Student con (N − p − 1) grados de libertad. Esto permite, entre otras cosas, hacer uso de la distribuci´n del m´ximo de k variables t de Student o a con correlaci´n por pares ρ (v´ase Secci´n 8.3, p´g. 116) para contrastar la o e o a presencia de outliers. Tomaremos, σ 2 (i) = ˆ ǫ′ ǫ − ǫi (1 − pii )−1 ǫi ˆˆ ˆ ˆ (N − p − 1) (11.10)

lo que permite probar el siguiente,

172

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

Teorema 11.2 Con σ 2 (i) definido como en (11.10), bajo los supuestos haˆ bituales m´s el de normalidad en las perturbaciones, los residuos ti definidos a en (11.9) (externamente studentizados) siguen una distribuci´n t de Student o con (N − p − 1) grados de libertad. ´ Demostracion: Podemos escribir ǫi = G′i (I − P )ǫ siendo G′i de dimensi´n 1 × N , con ˆ o un unico “uno” en posici´n i-´sima y ceros en los dem´s lugares. Llamando ´ o e a A = G′i (I − P ) tenemos que: ǫi = Aǫ ˆ Por otra parte, de (11.10) deducimos: (N − p − 1)ˆ 2 (i) = ǫ ′ [I − Gi [G′i (I − P )Gi ]−1 G′i ]ˆ σ ˆ ǫ ′ ′ = ǫ (I − P )[I − Gi [Gi (I − P )Gi ]−1 G′i ](I − P ) ǫ
B

(11.11)

= ǫ Bǫ

(11.12)

Es f´cil comprobar que AB = 0, luego ǫi y σ 2 (i) son independientes (Lema 6.3, a ˆ ˆ p´g. 69). Por otra parte, es tambi´n f´cil comprobar que B es idempotente, a e a con rango (= traza) (N − p − 1). Por consiguiente, ǫi ˆ σ 2 (i)(1 − pii ) ˆ = = ǫi / σ 2 (1 − pii ) ˆ σ 2 (i)/σ 2 ˆ ǫi / ˆ σ 2 (1 − pii ) (11.13) (11.14)

ǫ ′ Bǫ /(N − p − 1)σ 2

Pero en el numerador y denominador de (11.14) hay respectivamente una variable aleatoria N (0, 1) y una χ2 dividida entre sus grados de libertad, ambas independientes, lo que demuestra el Teorema. Para contrastar la hip´tesis de presencia de outliers, podemos comparar o el mayor de los residuos externamente studentizados con el cuantil apropiado de la distribuci´n del m´ximo valor absoluto de k variables aleatorias t de o a Student (Secci´n 8.3, p´g. 116). Supondremos que son incorrelados, salvo que o a podamos calcular f´cilmente su correlaci´n por pares, como sucede a menudo a o en An´lisis de Varianza. El texto Seber (1977) reproduce en su Ap´ndice E a e tablas adecuadas. Alternativamente, podemos comparar el mayor residuo internamente studentizado con los valores cr´ ıticos en las tablas de Lund (1975), o emplear la desigualdad de Bonferroni.

´ 11.1. ANALISIS DE RESIDUOS.

173

11.1.3.

Residuos BLUS.

La studentizaci´n, tanto interna como externa, elimina la heterocedastio cidad de los residuos, pero no la mutua correlaci´n. No es posible obtener un o vector de N residuos incorrelados y ortogonales a las columnas de X. La raz´n o se ve f´cilmente: ǫ ⊥ R(X) es un vector aleatorio de N coordenadas, pero a ˆ constre˜ido a yacer en un subespacio (N − p) dimensional. Su distribuci´n en n o N R es degenerada, y su matriz de covarianzas de rango (N − p) (supuesta X de rango completo). Ninguna transformaci´n ortogonal puede convertir tal o matriz en diagonal de rango N . Si es posible, sin embargo, obtener (N − p) residuos incorrelados, homosced´sticos, y de media 0; de hecho, hay multitud de maneras de hacerlo1 , a dependiendo del subconjunto de (N − p) residuos que escojamos.

Tales residuos, denominados BLUS (o ELIO), son de utilidad para contrastar homoscedasticidad (suministrando una alternativa al conocido m´toe do de Goldfeld-Quandt), normalidad, etc. Un tratamiento detallado puede encontrarse en Theil (1971), Cap. 5.

11.1.4.

Residuos borrados.

Sean X(i) e Y (i) la matriz de dise˜o y vector respuesta desprovistos de n ˆ(i) el vector de estimadores de los par´metros la observaci´n i-´sima. Sea β o e a ˆ(i) = (X ′ X(i) )−1 X ′ Y (i) . Se llama obtenido sin dicha observaci´n, es decir, β o (i) (i) residuos borrados (deleted residuals) a los di definidos as´2 : ı ˆ di = yi − xi ′ β(i) (11.15)

Un di muy peque˜o o nulo indicar´ que la observaci´n i-´sima no se n ıa o e separa en su comportamiento del recogido por la regresi´n sobre las restantes o N − 1 observaciones. Lo contrario es cierto si di es muy grande.

Hay una relaci´n muy simple que permite calcular los di sin necesidad de o realizar N regresiones diferentes sobre todos los conjuntos posibles de N − 1
V´ase Theil (1971), p´g. 202 y ss. e a Una denominaci´n alternativa frecuente en la literatura es la de residuos PRESS (preo dictive sum of squares residuals).
2 1

174

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

observaciones. En efecto, de (11.15) se deduce que:
′ ′ di = yi − xi ′ (X(i) X(i) )−1 X(i) Y (i) ′ X(i) Y (i) ′

(X X)−1 xi xi ′ (X X)−1 ′ X(i) Y (i) (11.17) ′ (X ′ X)−1 x 1 − xi i (1 − pii )(X ′ X)−1 + (X ′ X)−1 xi xi ′ (X ′ X)−1 ′ = yi − xi ′ X(i) Y (i) 1 − pii (1 − pii )xi ′ (X ′ X)−1 + pii xi ′ (X ′ X)−1 ′ X(i) Y (i) = yi − 1 − pii = yi − xi ′ (X ′ X)−1 + 1 − pii (1 − pii )yi − xi ′ (X ′ X)−1 (X ′ Y − xi yi ) = 1 − pii ′ ′ −1 ′ yi − xi (X X) X Y = 1 − pii ǫi ˆ = 1 − pii = yi −
′ xi ′ (X ′ X)−1 X(i) Y (i)

= yi − xi ′ [(X ′ X) − xi xi ]

′ −1 ′

(11.16)

(11.18)

(11.19)

en que el paso de (11.16) a (11.17) hace uso del Teorema A.2, p´g. 228. a Veremos en lo que sigue que di est´ relacionado con la influencia que la a observaci´n i-´sima tiene sobre la estimaci´n de los par´metros. o e o a

11.2.

An´lisis de influencia. a

Es en general indeseable que la estimaci´n de un par´metro dependa de o a modo casi exclusivo de una sola observaci´n o de unas pocas, de manera que o su eliminaci´n conduzca a resultados completamente diferentes. En general, o cuando esto ocurre, es necesario particionar la muestra o replantear el modelo. En todo caso, es necesario saber hasta que punto observaciones aisladas influencian las estimaciones de los par´metros para obrar en consecuencia. a Puede parecer que para determinar qu´ observaciones influyen m´s en el e a resultado de la estimaci´n basta mirar los residuos, brutos o studentizados. o Ello es verdad, pero s´lo en parte: puede haber observaciones extraordinariao mente influyentes que resulten muy bien ajustadas por la regresi´n, como el o ejemplo de la Fig. 11.1 pone de manifiesto. Claramente, el punto a tiene una notable influencia en la estimaci´n de o la pendiente de la recta, hasta el punto de que su omisi´n dar´ lugar a un o ıa

´ 11.2. ANALISIS DE INFLUENCIA.

175

Figura 11.1: Una observaci´n como a tiene residuo borrado muy grande, y o gran influencia en la pendiente de la recta de regresi´n. o

a

y 5
0

10

15

20

25

30

10

20 x

30

40

resultado completamente diferente (la recta dibujada con trazo discontinuo). Sin embargo, su residuo MCO es muy peque˜o; un ex´men de los residuos n a MCO —o incluso de los residuos studentizados— dif´ ıcilmente delatar´ ninıa guna anormalidad. El examen de los residuos borrados detectar´ una situaci´n como la menıa o cionada: a tendr´ un residuo borrado grande. Pero todav´ es posible un ıa ıa an´lisis m´s sofisticado, que tenga en cuenta, en particular, los par´metros a a a sobre los que una observaci´n es muy influyente. Abordamos este an´lisis a o a continuaci´n. o

11.2.1.

La curva de influencia muestral.

La forma obvia de examinar la influencia de la observaci´n i-´sima cono e siste en comparar los vectores de estimadores obtenidos con y sin dicha observaci´n: β y β(i) respectivamente. En consecuencia, definimos la curva de o ˆ ˆ influencia muestral (SIC) as´ ı:

ˆ ˆ SICi = (N − 1)(β − β(i) ).

(11.20)

176

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

El factor (N − 1) tiene por misi´n corregir el efecto del tama˜o muestral: o n en igualdad de todo lo dem´s, una observaci´n altera la estimaci´n tanto a o o menos cuanto m´s grande sea la muestra. a La expresi´n (11.20) es vector-valorada: recoge, debidamente amplificadas o por (N − 1), por la raz´n apuntada, las diferencias que introduce la inclusi´n o o de la observaci´n i-´sima sobre cada uno de los p par´metros estimados. o e a Podemos relacionar (11.20) con el residuo borrado i-´simo haciendo uso del e siguiente lema. Lema 11.1 Se verifica que (X ′ X)−1 xi ǫi ˆ ˆ ˆ (β − β(i) ) = = (X ′ X)−1 xi di . (1 − pii ) ´ Demostracion: ˆ ˆ (β − β(i) ) = (X ′ X)−1 X ′ Y − ((X ′ X) − xi xi ′ )−1 (X ′ Y − xi yi ) = (X ′ X)−1 X ′ Y − (X ′ X)−1 +
′ −1

(11.21)

En consecuencia,

(X ′ X)−1 xi xi ′ (X ′ X)−1 X ′ Y = (X X) xi yi − 1 − pii ′ ′ −1 ′ (X X) xi xi (X X)−1 xi yi + 1 − pii ′ −1 (X X) xi ˆ = (1 − pii )yi − xi ′ β + pii yi 1 − pii ǫi ˆ = (X ′ X)−1 xi 1 − pii

(X ′ X)−1 xi xi ′ (X ′ X)−1 (X ′ Y − xi yi ) 1 − x′i (X ′ X)−1 xi

ˆ ˆ SICi = (N − 1)(β − β(i) ) = (N − 1)(X ′ X)−1 xi

y el c´lculo de la curva de influencia muestral SICi correspondiente a la a observaci´n i no requiere realizar una regresi´n para cada i; todos los c´lculos o o a se se pueden hacer con ayuda de los residuos ordinarios y diagonal de la matriz de proyecci´n correspondientes a la matriz de proyecci´n X(X ′ X)−1 X ′ . o o Diferentes versiones de la curva de influencia disponibles en regresi´n o lineal puede encontrarse en Cook and Weisberg (1982) y Belsley et al. (1980). Alternativas como la curva de influencia emp´ ırica EIC y otras, difieren de la curva de influencia muestral presentada en el grado en que se corrige ǫi (en ˆ 2 la EIC se divide entre (1 − pii ) , en lugar de entre (1 − pii ) como en (11.22).

ǫi ˆ 1 − pii

´ 11.2. ANALISIS DE INFLUENCIA.

177

11.2.2.

Distancia de Cook.

Tal y como se indica m´s arriba, la curva de influencia en cualquiera de a sus versiones es, en nuestro caso, un vector p×1 (p = n´mero de par´metros). u a La coordenada k-´sima de SICi proporciona informaci´n sobre la influencia e o ˆk . Aunque esta informaci´n de la observaci´n i-´sima en la estimaci´n de β o e o o pormenorizada sea util, en ocasiones queremos una unica medida resumen de ´ ´ la influencia de una observaci´n. o ˆ(i) el vector de estimadores obtenido sin hacer uso de la observaSea β ˆ ci´n i-´sima, y β el computado con la muestra completa. Una posibilidad es o e ponderar las discrepancias en una unica expresi´n como: ´ o Di = ˆ ˆ ˆ ˆ (β − β(i) )′ S(β − β(i) ) c (11.22)

siendo S una matriz definida no negativa y c una constante positiva. Puesto ˆ que β ∼ (β , σ 2 (X ′ X)−1 ), una elecci´n posible que aproximadamente “normao liza” (11.22) es: S = (X ′ X) y c = pˆ 2 . Con esta elecci´n, la expresi´n (11.22) σ o o se denomina distancia de Cook y es una medida global de la influencia de la observaci´n (xi , yi ). Hay otras posibles elecciones de S y c con diferencias, o en general, s´lo de matiz3 . o Haciendo uso del Lema 11.1 tenemos que la distancia de Cook puede escribirse as´ ı: Di = ǫi xi ′ (X ′ X)−1 (X ′ X)(X ′ X)−1 xi ǫi ˆ ˆ 2 (1 − p )2 pˆ σ ii 1 2 pii = r p i 1 − pii (11.23) (11.24)

siendo ri el i-´simo residuo internamente studentizado. e

11.2.3.

DFFITS.
pii 1 − pii p N

Se definen as´ ı: DFFITi = ti (11.25)

Se suele considerar observaciones inusuales a aqu´llas con e |DFFITi | > 2
3

(11.26)

Una relaci´n de las mismas puede verse en Cook and Weisberg (1982), p. 124. o

178

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

11.2.4.

DFBETAS.

Se definen por: DFBETAij = σ ˆ ˆ ˆ βj − βj,(i) ; (11.27)

(X ′ X)−1 jj

Los estad´ ısticos DFBETA permiten evaluar la influencia de la observaci´n o i-´sima sobre el par´metro j-´simo. En cierto modo desglosan la informaci´n e a e o que la distancia de Cook resume en un unico estad´ ´ ıstico por observaci´n. La o motivaci´n de la expresi´n (11.27) es clara: la diferencia entre la estimaci´n o o o de βj -´simo con y sin la observaci´n i-´sima se divide por una estimaci´n de e o e o ˆ la desviaci´n t´ o ıpica de βj . √ El criterio que se sigue es el de comparar |DFBETAij | con 2/ N . M´s a detalles en Belsley et al. (1980).

11.3.

An´lisis gr´fico de residuos a a

Al margen del uso que pueda hacerse de los residuos en cualquiera de sus variedades para, por ejemplo, contrastar hip´tesis de presencia de outliers, o etc., con frecuencia ser´ conveniente construir algunos gr´ficos. Es mucha, en a a efecto, la informaci´n que cabe obtener de ellos. Presentamos a continuaci´n o o algunos de estos gr´ficos; otros aparecer´n en contexto en los cap´ a a ıtulos dedicados a selecci´n de modelos (Cap´ o ıtulo 12) y transformaciones de las variables (cap´ ıtulo 13). Referencias utiles para ampliar lo que se expone a continuaci´n ´ o incluyen Troc´niz (1987a), Myers (1990), Ryan (1997) o Atkinson (1985). o

11.3.1.

Gr´ficos de residuos frente a ´ a ındice de observaci´n (i, ǫi ) o ˆ

Frecuentemente, el ´ ındice de cada observaci´n es el tiempo, es decir, las o observaciones han sido tomadas secuencialmente una despues de otra. El representar ǫ i frente a i nos podr´ poner de manifiesto rupturas temporales — ıa por ejemplo, una brusca disminuci´n del tama˜o de los residuos a partir de un o n cierto i—. En ocasiones podemos ver tambi´n en un gr´fico de esta naturaleza e a pautas como agrupamiento de residuos, que puede convenir investigar. Pueden emplearse residuos ordinarios o studentizados en cualquiera de sus variedades.

´ ´ 11.3. ANALISIS GRAFICO DE RESIDUOS

179

11.3.2.

Gr´ficos de residuos frente a variables incluidas a (xij , ǫi ) ˆ

Los residuos ordinarios son por construcci´n ortogonales a cualquiera de o los regresores. No obstante, un gr´fico de esta naturaleza puede aportar infora maci´n acerca del modo en que un regresor interviene en la generaci´n de la o o respuesta: por ejemplo, podr´ ıamos ver una pauta de relaci´n no lineal entre o ǫi y xij , sugiriendo que xij debe suplementarse con un t´rmino cuadr´tico, ˆ e a entrar como funci´n exponencial, etc. o

11.3.3.

Gr´ficos de residuos frente a variables excluia das (x∗ , ǫi ) ij ˆ

La idea es similar a la del apartado precedente, pero x∗ son ahora los ij valores de una variable no incluida (y candidato a serlo) en la regresi´n. o Un gr´fico de esta naturaleza permitir´ ver si la parte no explicada de la a ıa respuesta (los residuos) tiene alguna relaci´n evidente con la nueva variable. o En su caso, dependiendo de la pauta que dibujaran los residuos, tendr´ ıamos pistas acerca de si dicha variable x ∗ ha de incluirse tal cual o tras alguna j transformaci´n funcional. o

11.3.4.

Gr´ficos de variable a˜ adida (ˆY |X−j , ǫXj |X−j ) a n ǫ ˆ

La idea es similar a la del apartado anterior. Se dibujan los residuos de la regresi´n de Y sobre todas las variables menos Xj sobre los residuos o de regresar dicha variable sobre todas las dem´s. Los residuos de ambas a regresiones recogen, respectivamente, las partes de Y y Xj ortogonales al subespacio generado por las restantes variables. Si hubiera alguna pauta en dicha gr´fica, podr´ a ıamos interpretarla como relaci´n entre Y y Xj eliminado en ambas el efecto de las restantes variables. o

11.3.5.

Gr´ficos de normalidad de residuos a

Aunque, como se ha visto (Secci´n 11.1.1 y siguiente), los residuos studeno tizados no siguen una distribuci´n normal, a efectos pr´cticos y para tama˜os o a n muestrales moderados (Troc´niz (1987a), p´g. 174, indica que suele bastar o a N > 20) la aproximaci´n a la normalidad es muy buena, si las perturbaciones o son a su vez normales. Hay multitud de pruebas utilizables para contrastar ajuste a una distribuci´n. La de Kolmogorov-Smirnov (v´ase Troc´niz (1987b), p´g. 255) es de o e o a uso general con muestras grandes y distribuciones continuas —lo que incluye

180

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

a la normal—. Hay contrastes como el de Shapiro-Wilk descrito en Shapiro and Wilk (1965) y Shapiro and Francia (1972), especializados en el contraste de la hip´tesis de normalidad. o Tan util como pueda ser una prueba estadistica convencional de normali´ dad, en ocasiones es util un instrumento que permita visualizar la naturaleza ´ y alcance de la desviaci´n respecto a la normalidad, si existe. Los gr´ficos en o a papel normal cumplen esta finalidad. El principio es muy simple: dada una muestra {xi }N , si procede de una i=1 distribuci´n normal los puntos (xi , Φ−1 (F∗ (xi ))), en que F∗ (xi ) es la funci´n o o de distribuci´n emp´ o ırica de la muestra, deben estar aproximdamente alineados. V´ase por ejemplo Troc´niz (1987b), p´g. 270. e o a El gr´fico puede hacerse manualmente sobre papel especial (“papel nora mal”) en que la escala vertical absorbe la transformaci´n Φ−1 (.); o puede o hacerse mediante ordenador en cuyo caso basta facilitar los datos y verificar la linealidad del gr´fico resultante. a En cualquiera de los casos se cuenta con un instrumento que permite no s´lo apreciar si hay desviaciones respecto de la normalidad, sino tambi´n de o e qu´ naturaleza son y a qu´ puntos afectan. e e R: Ejemplo 11.1 (gr´ficos para contraste de normalidad de rea siduos) La Figura 11.2 se genera mediante el fragmento de c´digo reproduo cido a continuaci´n. Los dos primeros paneles recogen sendos gr´ficos o a de normalidad para una muestra normal y una muestra procedente de una F1,2 ; puede verse la llamativa desviaci´n de la normalidad en este o ultimo caso. ´
> > > > > > > > > + + > >

par(mfrow = c(2, 2)) muestra <- rnorm(200) qqnorm(muestra, main = "Q_Q Plot de\n 200 obs. N(0,1)") muestra <- rf(200, 1, 2) qqnorm(muestra, main = "Q-Q Plot de\n 200 obs. F con 1,2 g.l.") rm(muestra) library(MASS) data(UScrime) modelo <- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Prob + Ineq, data = UScrime) qqnorm(stdres(modelo), main = "Q_Q Plot residuos\n int. studentiza qqnorm(studres(modelo), main = "Q_Q Plot residuos\n ext. studentiz

´ ´ 11.3. ANALISIS GRAFICO DE RESIDUOS

181

Figura 11.2: Gr´ficos para contraste de normalidad a
Q_Q Plot de 200 obs. N(0,1)
3 Sample Quantiles Sample Quantiles 2 250 0 50 −3 150

Q−Q Plot de 200 obs. F con 1,2 g.l.

−3 −3

−1

1

−1 0

1

2

3

−1 0

1

2

3

Theoretical Quantiles

Theoretical Quantiles

Q_Q Plot residuos int. studentizados
Sample Quantiles Sample Quantiles 2 2 −2 0 1 3 −2 0 1 −2 −1 0 1 2

Q_Q Plot residuos ext. studentizados

−2 −1

0

1

2

Theoretical Quantiles

Theoretical Quantiles

182

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
X11cairo 2 Los siguientes dos paneles muestran los gr´ficos de normalidad a correspondientes a los residuos interna y externamente studentizados de un mismo modelo. Puede constatarse que son casi id´nticos y que e sugieren un buen ajuste de la muestra a la hip´tesis de normalidad. o Fin del ejemplo

11.3.6.

Gr´ficos de residuos ordinarios frente a resia duos borrados (di , ǫi ) ˆ

Un residuo borrado no necesariamente es indicativo de que una observaci´n sea muy influyente. Lo realmente sintom´tico es una gran divergencia o a entre el residuo ordinario y el residuo borrado, pues ello indica que al omitir la observaci´n correspondiente los resultados var´ mucho, al menos en el o ıan ajuste de la observaci´n i-´sima. o e Por ello se propone como gr´fico util en el diagn´stico de un modelo el de a ´ o ǫi frente a di . En general, deber´ ˆ ıamos observar puntos aproximadamente sobre la bisectriz: di ≈ ǫi . Puntos muy separados de la bisectriz corresponder´ a ˆ ıan observaciones que alteran sustancialmente la regresi´n. o

´ ´ 11.3. ANALISIS GRAFICO DE RESIDUOS Complementos y ejercicios
1 m´s normalidad, sigue una distribuci´n beta, B( 2 , 1 (N − p − 1)). a o 2 2 11.1 Demu´strese que ri /(N −p), bajo los supuestos habituales e

183

184

´ ´ CAP´ ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.

Cap´ ıtulo 12

Selecci´n de modelos. o

12.1.

Criterios para la comparaci´n. o

En ocasiones, ajustamos un modelo de regresi´n teniendo una idea clara o de las variables que debemos incluir como regresores. Es m´s frecuente, sin a embargo, el caso en que s´lo tenemos una idea aproximada de la forma adeo cuada para nuestro modelo, y debemos decidir con criterio estad´ ıstico qu´ e regresores deben ser incluidos. Para enfrentar este tipo de situaciones necesitamos, por una parte, criterios de bondad de ajuste, capaces de permitirnos comparar distintos modelos ajustados a una misma muestra. Por otra, necesitamos estrategias de selecci´n de variables que construyan de manera autom´tica o semi-autom´tica o a a subconjuntos de todos los modelos posibles susceptibles de incluir el “mejor”. Examinaremos en esta Secci´n el primer punto. o Es claro que no podemos preferir un modelo a otro simplemente porque su SSE es menor, dado que toda1 variable que incluyamos en la regresi´n, tenga o mucha o poca relaci´n con la variable respuesta, reducir´ SSE. Tenemos, o a pues, que buscar criterios m´s elaborados. a
Las unicas excepciones son aquellas variables correspondientes a columnas de la matriz ´ de dise˜ o X ortogonales a y, o que son combinaci´n lineal exacta de columnas corresponn o dientes a variables ya presentes entre los regresores.
1

185

186

´ CAP´ ITULO 12. SELECCION DE MODELOS.

12.1.1.

Maximizaci´n de Rp . o
2

2

Se define el coeficiente de determinaci´n corregido as´ o ı:
2 Rp = 1 − [1 − Rp ] ×

N −1 N −p

(12.1)

haciendo referencia el sub´ ındice p al n´mero de regresores presentes en el u modelo. Si reescribimos la ecuaci´n (12.1) en la forma: o
2 1 − Rp = [1 − Rp ] × 2

N −1 N −p SSEp N − 1 × = SST N −p

(12.2) (12.3)

vemos que mientras que el primer t´rmino de la derecha de (12.3) es mon´tono e o no creciente con p, el segundo es mon´tono creciente. Por consiguiente, el o 2 producto de ambos puede crecer o decrecer al crecer p. 2 ´ Es frecuente por ello utilizar Rp como criterio de ajuste. Aunque util, veremos sin embargo que debe complementarse con otros criterios. Su exclusiva aplicaci´n da lugar con gran probabilidad a modelos sobreparametrizados, o como pone de manifiesto el siguiente teorema. o a Teorema 12.1 El estad´ ıstico Rp crece con la introducci´n de un par´metro en la ecuaci´n de regresi´n si el estad´ o o ıstico Qh asociado al contraste de significaci´n de dicho par´metro verifica Qh > 1. o a ´ Demostracion:3 Para contrastar la significaci´n del (p + 1)-´simo par´metro, empleamos o e a (Secci´n 6.2, p´g. 75): o a Qh = SSEp − SSEp+1 N − p − 1 × SSEp+1 1 (12.4) (12.5)
2

2 2 (Rp+1 − Rp ) N − p − 1 × = 2 1 − Rp+1 1
2

Expresiones como la anterior con un t´rmino funci´n de la suma de cuadrados de e o los residuos y otro interpretable como “penalizaci´n” por la introducci´n de par´metros o o a adicionales, son ubicuas en la literatura estad´ ıstica. La Cp de Mallows que se examina m´s a abajo tiene la misma forma, como muchos criterios de ajuste utilizados sobre todo en el an´lisis de series temporales: Criterio de Informaci´n de Akaike (AIC), FPE, BIC, etc. a o 3 Sigue a Haitovsky (1969).

´ 12.1. CRITERIOS PARA LA COMPARACION. de donde:
2 2 2 (1 − Rp+1 )Qh = (Rp+1 − Rp )(N − p − 1)

187

(12.6) (12.8)

2 2 Qh + (N − p − 1)Rp = Rp+1 [(N − p − 1) + Qh ] 2 Despejando Rp+1 tenemos: 2 Qh + (N − p − 1)Rp (N − p − 1) + Qh 1 2 Q + Rp N −p−1 h 1 1 + N −p−1 Qh 2

2 2 2 Qh − Qh Rp+1 = (N − p − 1)Rp+1 − (N − p − 1)Rp (12.7)

2 Rp+1 =

(12.9) (12.10)

=

De (12.10) y de la definici´n de Rp+1 se deduce que: o
2 Rp+1 = 1 − [1 − Rp+1 ] × 2

N −1 (N − p − 1)

(12.11)

Sustituyendo en esta expresi´n (12.10) llegamos a: o
2 Rp+1

= 1−

N −p−1+Qh N −p−1

2 [1 − Rp ]

×

2 = 1 − [1 − Rp ]

N −1 N − p − 1 + Qh N −p 2 N −1 = 1 − [1 − Rp ] N − p N − p − 1 + Qh
Rp 2 2
2

N −1 N −p−1

(12.12) (12.13) (12.14)

t

Rp implica introducir en la ecuaci´n de regresi´n todos aquellos regresores cuo o yo estad´ ıstico Qh sea superior a la unidad; pero esto ocurre con probabilidad ≈ 0,50 incluso cuando h : βi = 0 es cierta. Consecuentemente, el emplear este criterio en exclusiva conducir´ con gran probabilidad al ajuste de modelos ıa sobreparametrizados.
Obs´rvese que si el t´rmino t en (12.14) fuera la unidad —lo que acontece cuando e e 2 o Qh = 1—, el lado derecho ser´ precisamente Rp . Si Qh > 1, t es menor que 1 y, como s´lo ıa multiplica al sustraendo en (12.14), el resultado es mayor que Rp .
2 4

2

Es evidente de (12.14) que Rp+1 ≥ Rp si Qh > 1, y viceversa4. Maximizar

188

´ CAP´ ITULO 12. SELECCION DE MODELOS.

12.1.2.

Criterio Cp de Mallows.

Supongamos que la variable aleatoria Y se genera realmente como prescribe el modelo Y = X β + ǫ , no obstante lo cual ajustamos el modelo ˜˜ equivocado Y = X β + ǫ con p par´metros. Una vez estimado, dicho modelo a ˆ (p) . Un criterio para evaluar la adecuaci´n del suministra las predicciones Y o modelo estimado al real, ser´ el error cuadr´tico medio ıa a
′ ˆ ˆ ECM = E(Y (p) − X β ) (Y (p) − X β )

(12.15)

ˆ que sumando y restando E(Y (p) ) dentro de cada par´ntesis podemos descome poner as´ ı:
′ ˆ ˆ ˆ ˆ ECM = E (Y (p) − E(Y (p) )) (Y (p) − E(Y (p) ))

ˆ = Var(Y (p) ) + (Sesgo)2 .

ˆ ˆ +E (E(Y (p) ) − X β ) (E(Y (p) ) − X β )

(12.16) (12.17)

El primer t´rmino no ofrece dificultad. Como e ˆ ˜ ˜′˜ ˜′ ˜ ˜′˜ ˜′ Y (p) = X(X X)−1 X Y = X(X X)−1 X (X β + ǫ ), tenemos que y
′ ˆ ˆ ˆ ˆ ˜ ˜′˜ ˜′˜ ˜′˜ ˜′ ((Y (p) − E(Y (p) )) ((Y (p) − E(Y (p) )) = ǫ X(X X)−1 X X(X X)−1 X ǫ ˜ ˜′˜ ˜′ = ǫ X(X X)−1 X ǫ

(12.18)

ˆ ˜ ˜′˜ ˜′ E[Y (p) ] = X(X X)−1 X X β

∼ σ 2 χ2 . p Falta el t´rmino de sesgo. Observemos que e

(12.19)

′ ˜ ˜′˜ ˜′ ˜ ˜′˜ ˜′ ˆ ˆ E[(Y − Y (p) ) (Y − Y (p) )] = E (X β − X(X X)−1 X X β ) (X β − X(X X)−1 X X β ) SSE (Sesgo)2

+ Por consiguiente,

˜ ˜′˜ ˜′ E ǫ ′ (I − X(X X)−1 X )ǫ .

(Sesgo)2 = E[SSE] − E[σ 2 χ2 −p ]. N

(12.20)

´ 12.1. CRITERIOS PARA LA COMPARACION. Sustituyendo en (12.17) tenemos entonces que ECM = E SSE − σ 2 χ2 −p + E σ 2 χ2 p N = E[SSE] − σ 2 (N − p) + σ 2 p, y por consiguiente: ECM SSE =E − N + 2p. 2 σ σ2 Minimizar esta ultima expresi´n es lo mismo que minimizar ´ o E SSE + 2p, σ2

189

(12.21) (12.22)

(12.23)

(12.24)

ya que N es constante. Como quiera que el valor medio en la expresi´n o anterior no puede ser calculado y σ es desconocida, todo lo que podemos hacer es reemplazar (12.24) por la expresi´n an´loga, o a Cp = SSE + 2p. σ2 ˆ (12.25)

A esta ultima expresi´n se la conoce como Cp de Mallows. ´ o Para que se verifique la aproximaci´n en (12.25) es preciso que σ 2 ≈ o ˆ 2 σ , lo que se consigue si la muestra es lo suficientemente grande y σ 2 = ˆ (N −p−k) SSE /(N − p − k), estando entre los (p + k) regresores inclu´ ıdos los p necesarios. Incluso aunque entre dichos (p + k) regresores haya algunos innecesarios, σ 2 es insesgado; el precio que se paga por emplear m´s par´metros ˆ a a de los debidos en la estimaci´n de σ 2 es una reducci´n en el n´mero de grados o o u de libertad (v´ase Secci´n 5.2). e o De acuerdo con el criterio de Mallows, seleccionaremos el modelo que minimice Cp . La expresi´n (12.25) es otro ejemplo de criterio de ajuste con o penalizaci´n. Cada nuevo par´metro que introducimos, reduce quiz´ SSE, o a a pero esta reducci´n tiene un precio: el incremento del segundo sumando de o (12.25) en 2. El efecto neto indica si el nuevo regresor es o no deseable. Observaci´n 12.1 De acuerdo con el criterio Cp de Mallows, o
dada una ecuaci´n de regresi´n con unos ciertos regresores presentes, o o introduciremos un nuevo regresor si ´ste puede “pagar” su inclusi´n e o 2 . La maximizaci´n de R2 , reduciendo SSE en, al menos, dos veces σ ˆ o p en cambio, requerir´ en an´loga situaci´n introducir el mismo regresor ıa a o si disminuye SSE en al menos una vez σ 2 . El criterio Cp de Mallows ˆ es m´s restrictivo5 . a
La comparaci´n es aproximada tan s´lo. El valor de σ 2 que se emplea en el criterio Cp o o ˆ se obtiene, t´ ıpicamente, ajustando el modelo m´s parametrizado (esto minimiza el riesgo de a
5

190

´ CAP´ ITULO 12. SELECCION DE MODELOS. Observaci´n 12.2 Un estad´ o ıstico se enfrenta con frecuencia a
este dilema en su trabajo. ¿Hasta d´nde procede llevar la complejidad o del modelo a emplear? ¿Qu´ mejora en el ajuste de un modelo a la e muestra justifica la adici´n de un nuevo par´metro?. O, si se prefiere, o a ¿Cu´n afilada debe ser la navaja de Ockham? En el caso del modelo de a regresi´n lineal, el criterio Cp suministra seguramente una navaja con o el filo adecuado; argumentos alternativos llevan a criterios equivalentes o similares al Cp . Es un hecho notable y llamativo que por diversas v´ se llegue siempre a an´logos resultados, que tienen en com´n el ıas a u medir la complejidad del modelo empleado como una funci´n lineal o o aproximadamente lineal del n´mero de sus par´metros; m´s sobre u a a esto en la Secci´n 12.1.5. En la Secci´n 12.1.4 se introduce la idea o o de la validaci´n cruzada, que proporciona una forma alternativa de o evaluar la bondad de ajuste de un modelo soslayando el empleo de una penalizaci´n basada en el n´mero de par´metros. o u a

12.1.3.

Criterio AIC

Relacionado con el criterio Cp de Mallows, aunque v´lido de modo mucho a m´s general y motivado de modo muy diferente, est´ el criterio AIC (Akaike’s a a Information Criterion, o An Information Criterion). Consiste en seleccionar el modelo minimizando AIC(p) = −2 loge m´x verosimilitud(x , θ ) + 2p a
θ

El primer t´rmino en la expresi´n anterior es, como en la Cp de Mallows, e o una medida de bondad de ajuste (disminuye al crecer el m´ximo de la veroa similitud); el segundo penaliza el n´mero de par´metros en θ . Puede verse u a una justificaci´n en Akaike (1972) (y en Akaike (1974), Akaike (1991)). Una o explicaci´n simplificada que sigue esencialmente a de Leeuw (2000) puede o encontrarse en Tusell (2003), Secci´n ??. o Cuando consideremos modelos de regresi´n lineal con normalidad, el uso o de los criterios AIC y Cp dar´ resultados exactamente equivalentes si coıa noci´ramos σ 2 (ambos criterios difieren en tal caso en una constante; ver e Venables and Ripley (1999a), p´g. 185). Cuando σ 2 es desconocida y ha de a ser estimada a partir de los datos, ambos criterios pueden diferir, pero son
introducir sesgos en la estimaci´n de σ 2 , aunque seguramente nos hace despilfarrar algunos o 2 grados de libertad). Por el contrario, al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (12.4), es decir, si la disminuci´n SSEp − SSEp+1 en la suma o de cuadrados de los residuos es mayor que σ 2 = SSEp+1 /(N − p − 1), varianza estimada ˆ en el modelo con p + 1 regresores.

´ 12.1. CRITERIOS PARA LA COMPARACION.

191

a efectos pr´cticos intercambiables. El criterio AIC no obstante es de ´mbia a to mucho m´s general, y puede ser utilizado dondequiera que tengamos una a verosimilitud, sea o no normal la distribuci´n generadora de la muestra. o

12.1.4.

Residuos borrados y validaci´n cruzada o

Hemos visto que el problema de emplear como criterio para la selecci´n o de modelos alguno de los estad´ ısticos de ajuste obvios (suma de cuadrados residual, R2 , o similar) estriba en que hay que tomar en consideraci´n el o diferente n´mero de par´metros en cada modelo. u a El problema consiste en que, al incrementar el n´mero de par´metros, el u a modelo puede “seguir”m´s a la muestra, ajustando no s´lo el comportamiento a o predecible sino incluso el puramente aleatorio Se adapta muy bien a una muestra —la que hemos empleado para estimarlo—, pero quiz´ no a otras. a Una soluci´n consistir´ en estimar los modelos con una muestra (muestra o ıa de entrenamiento o aprendizaje) y evaluarlos examinando su comportamiento en la predicci´n de otra diferente (muestra de validaci´n). Actuando as´ o o ı, estar´ ıamos a salvo de impresiones excesivamente optimistas: la suma de cuadrados de los residuos o R2 que calcul´ramos para cada modelo reflejar´ a ıa su capacidad de generalizaci´n: su comportamiento con otras observaciones o distintas de las que han servido para estimarlo. Lamentablemente, esto requiere dividir nuestra disponibilidad de observaciones en dos grupos: uno para estimar y otro para validar. El obtener un diagn´stico realista por este procedimiento requiere sacrificar en aras de o la validaci´n una preciosa fracci´n de muestra que habr´ permitido, quiz´, o o ıa a estimar mejor. ¿Realmente es esto as´ No; una vez que hemos decidido por el procediı? miento anterior de fraccionar la muestra en dos para seleccionar el modelo mejor, podemos emplear todas las observaciones en reestimarlo. La idea de la validaci´n cruzada incorpora una mejora adicional al plano teamiento anterior. No tenemos necesariamente que usar s´lo una fracci´n de o o la muestra para validar. Podemos dividir la muestra en dos (o m´s) partes y a emplear todas ellas en la validaci´n. El ejemplo que sigue detalla los pasos a o seguir haciendo validaci´n cruzada por mitades. o Ejemplo 12.1 Consideremos una muestra de tama˜o N = 100. n
Tenemos una colecci´n de K modelos Mi , i = 1, . . . , K, posiblemente o con diferente n´mero de par´metros, de entre los que queremos seu a leccionar uno. Podemos dividir la muestra en dos trozos, A y B, de tama˜os respectivos NA = NB = 50, y proceder as´ n ı: 1. Con la muestra A estimaremos cada uno de los modelos Mi .

192

´ CAP´ ITULO 12. SELECCION DE MODELOS.
2. Examinaremos el ajuste de los modelos as´ estimados a la muesı tra B, computando sumas de cuadrados residuales para cada uno (A) de los modelos, SSEi . 3. Con la muestra B estimaremos cada uno de los modelos Mi . 4. Examinaremos el ajuste de los modelos as´ estimados a la muesı tra A, computando sumas de cuadrados residuales para cada uno (B) de los modelos, SSEi 5. Tanto SSEi como SSEi son estimaciones de las sumas de cuadrados de los residuos del modelo Mi , cuando se utiliza en predicci´n sobre una muestra diferente de la que se ha empleado o en su estimaci´n. Podemos promediar ambas para obtener un o (A) (B) 1 unico estad´ ´ ıstico, SSEi = 2 (SSEi + SSEi ). 6. Seleccionaremos el modelo Mi tal que SSEi es m´ ınimo. Observemos que nada nos constri˜e a dividir la muestra en dos partes; n podr´ ıamos dividirla en s partes, y proceder exactamente del mismo modo: utilizar´ ıamos sucesivamente s − 1 partes para estimar y la res(ℓ) tante para evaluar SSEi , ℓ = 1, . . . , s, (suma de cuadrados de los residuos al predecir en la muestra ℓ mediante el modelo Mi estimado (ℓ) con las restantes observaciones). Promediando los s valores SSEi obtendr´ ıamos el SSEi del modelo Mi . El caso extremo consistir´ en tomar s = N , y realizar el proceso ıa dejando cada vez fuera una unica observaci´n (validaci´n cruzada de ´ o o tipo leave one out). En muchas situaciones esta estrategia puede requerir un esfuerzo de c´lculo formidable: ¡cada modelo ha de ser reestimado (N −1) veces, a dejando cada vez fuera de la muestra de estimacion una observaci´n o diferente! En regresi´n lineal, sin embargo, la diferencia entre la preo dicci´n de la observaci´n i-´sima haciendo uso de todas las restantes o o e y el valor observado de la misma es, simplemente, el residuo borrado, de c´moda y r´pida obtenci´n (v´ase Secci´n 11.1.4). Por tanto, o a o e o utilizando la notaci´n de dicha Secci´n, o o
ℓ SSEi = d2 ℓ (A) (B)

(ℓ = 1, . . . , N )
N ℓ SSEi . ℓ=1

SSEi = N −1

El modelo seleccionado es aqu´l al que corresponde un SSEi m´s e a peque˜o6 . n
N´tese que SSEi es lo que se conoce tambi´n como suma de cuadrados de los residuos o e predictiva o PRESS; v´ase nota a pie de p´gina de la Secci´n 11.1.4. e a o
6

´ 12.1. CRITERIOS PARA LA COMPARACION.

193
Fin del ejemplo

12.1.5.

Complejidad estoc´stica y longitud de descripa ∗ ci´n m´ o ınima

En esencia, seleccionar un modelo entra˜a adoptar un compromiso entre la n bondad de ajuste y la complejidad, medida por el n´mero de sus par´metros. u a Sabemos que un modelo lineal suficientemente parametrizado podr´ ajustar ıa perfectamente la muestra, pero que ello no significa que sea id´neo: puede o tener muy poca capacidad de generalizaci´n. Por el contrario, un modelo que o no incluya los par´metros suficientes dara un ajuste susceptible de mejora. a Se trata de alcanzar un equilibrio entre los dos objetivos en contradicci´n: un o modelo dando buen ajuste y con los m´ ınimos par´metros precisos. a Una aproximaci´n intuitivamente atrayente al problema es la siguiente: o tratemos de dar una descripci´n tan corta como sea posible de la evidencia o (la muestra). Esto puede de nuevo verse como una apelaci´n al principio de o Ockham: construir “explicaciones” de la realidad que hacen uso del m´ ınimo n´mero de entidades. u La aproximaci´n propuesta exige medir la longitud de la descripci´n que o o hagamos, y podemos para ello hacer uso de la Teor´ de la Informaci´n. No poıa o demos elaborar esta cuesti´n con detalle aqu´ (v´ase una buena introducci´n o ı e o en Rissanen (1989), y detalles en Legg (1996)). En esencia, dado un modelo probabilistico podemos describir o codificar unos datos de modo compacto asignando a los m´s “raros” (menos probables) los c´digos m´s largos. a o a Observaci´n 12.3 Esta estrategia, de sentido com´n, es la que o u
hace que al codificar en el alfabeto telegr´fico de Morse la letra “e” a (muy frecuente en ingl´s) se adoptara el c´digo ., reservando los c´e o o digos m´s largos para caracteres menos frecuentes (ej: -..- para la a “x”).

Adem´s de codificar los datos tenemos que codificar los par´metros del moa a delo probabilistico. La longitud total de descripci´n de la muestra y cuando o hacemos uso del modelo probabil´ ıstico Mk haciendo uso del vector de par´a metros θ k es entonces M DL(Mk ; y ) = (C´digo necesario para y ) o + (12.26) (C´digo necesario para θ k ). (12.27) o

Un mal ajuste har´ que el primer sumando sea grande; los datos muestrales se a desv´ mucho de lo que el modelo predice. Un modelo con un perfecto ajuste ıan

194

´ CAP´ ITULO 12. SELECCION DE MODELOS.

tendr´ un primer sumando nulo (porque las y se deducir´ exactamente ıa ıan del modelo, y no requerir´ ser codificadas), pero requerir´ quiz´ muchos ıan ıa a par´metros incrementando el segundo sumando. a El criterio MDL propone seleccionar el modelo Mk que minimiza (12.27). En el caso de modelos de regresi´n, el criterio MDL da resultados ´ o ıntimamente emparentados asint´ticamente con los precedentes (suma de cuadrados o PRESS y Cp ); v´anse detalles en Rissanen (1989), Cap. 5. e

12.2.

Selecci´n de variables. o

Una aproximaci´n ingenua al problema consistir´ en estudiar la reducci´n o ıa o 2 en un cierto criterio (SSE, Rp , Cp , . . . ) originada por la introducci´n de cada o variable, y retener como regresores todas aquellas variables que dieran lugar a una reducci´n significativa. Desgraciadamente, esta estrategia no tiene en o cuenta el hecho de que, a menos que las columnas de la matriz de dise˜o n X sean ortogonales, la reducci´n en SSE originada por la inclusi´n de una o o variable depende de qu´ otras variables est´n ya presentes en la ecuaci´n e e o ajustada. Se impone, pues, emplear procedimientos m´s sofisticados. Relacionamos a algunos de los m´s utilizados. a

12.2.1.

Regresi´n sobre todos los subconjuntos de vao riables.

De acuerdo con el p´rrafo anterior, la adopci´n de una estrategia ingenua a o podr´ dificultar el hallazgo de un modelo adecuado. Por ejemplo, puede bien ıa suceder que una variable Xi , que debiera ser inclu´ en el modelo, no origine ıda una reducci´n significativa de SSE cuando la introducimos despu´s de Xj . o e Si esto ocurre, es claro que Xi no mostrar´ sus buenas condiciones como a regresor mas que si es introducida con Xj ausente. Una posible soluci´n ser´ dados p regresores, formar todos los posibles o ıa, subconjuntos de regresores y efectuar todas las posibles regresiones, reteniendo aqu´lla que, de acuerdo con el criterio de bondad de ajuste que hayamos e adoptado, parezca mejor. El inconveniente es el gran volumen de c´lculo que es preciso realizar. a Pi´nsese que con p regresores pueden estimarse 2p − 1 diferentes regresiones. e Si p = 5, 2p − 1 = 31; pero si p = 10, 2p − 1 = 1023, y para p > 20 habr´ que ıa

´ 12.2. SELECCION DE VARIABLES.

195

realizar por encima de un mill´n de regresiones. Hay procedimientos para o 7 reducir y agilizar el c´lculo , pero a´n as´ ´ste puede resultar excesivo. a u ıe

12.2.2.

Regresi´n escalonada (stepwise regression). o

Se trata de un procedimiento muy utilizado que, aunque no garantiza obtener la mejor ecuaci´n de regresi´n, suministra modelos que habitualmente o o son ´ptimos o muy pr´ximos al ´ptimo, con muy poco trabajo por parte o o o del analista. Describiremos el procedimiento de regresi´n escalonada “hacia o adelante” (forward selection procedure); la regresi´n escalonada “hacia atr´s” o a (backward elimination) o mixta son variantes f´ciles de entender. a En cada momento, tendremos una ecuaci´n de regresi´n provisional, que o o incluye algunas variables (regresores incluidos) y no otras (regresores ausentes). Al comienzo del procedimiento, la ecuaci´n de regresi´n no incluye nino o g´n regresor. El modo de operar es entonces el siguiente: u 1. Calcular los estad´ ısticos Qh para todos los regresores ausentes (h : βi = 0). a ıstico de los calculados en 1). Si Q∗ < F, siendo 2. Sea Q∗ el m´ximo estad´ h h F un umbral prefijado, finalizar; la ecuaci´n provisional es la definitiva. o Si, por el contrario, Q∗ ≥ F, se introduce la variable correspondiente h en la ecuaci´n de regresi´n. o o 3. Si no quedan regresores ausentes, finalizar el procedimiento. En caso contrario, reiniciar los c´lculos en 1). a En suma, se trata de introducir las variables de una en una, por orden de mayor contribuci´n a disminuir SSE, y mientras la disminuci´n sea apreciao o ble. El procedimiento de regresion “hacia atr´s” procede de manera an´loga, a a pero se comienza con una ecuaci´n que incluye todos los regresores, y se van o excluyendo de uno en uno, mientras el incremento en SSE que dicha exclusi´n o origine no sea excesivo. En el procedimiento m´ ıxto, por fin, se alterna la inclusi´n y exclusi´n de variables en la recta de regresi´n; ello permite que o o o una variable incluida sea posteriormente desechada cuando la presencia de otra u otras hacen su contribuci´n a la reducci´n de SSE insignificante. o o Los criterios de entrada y salida de variables se fijan especificando sendos valores Fentrada y Fsalida que deben ser superados (no alcanzados) por el Q∗ h correspondiente para que una variable pueda ser incluida (excluida) en la
7

V´ase Seber (1977), pag. 349 y ss. e

196

´ CAP´ ITULO 12. SELECCION DE MODELOS.

regresi´n. Ambos umbrales pueden ser el mismo. Mediante su selecci´n adeo o cuada, puede lograrse un algoritmo “hacia adelante” puro (fijando Fsalida = 0, con lo que se impide el abandono de cualquier variable introducida), “hacia atr´s” puro (fijando Fentrada muy grande, y comenzando con una ecuaci´n de a o regresi´n que incluye todas las variables), o un procedimiento mixto arbitrao riamente pr´ximo a cualquiera de los dos extremos8. o R: Ejemplo 12.1 (selecci´n autom´tica de modelos) El ejemo a plo siguiente muestra el uso de las funciones leaps (en el paquete del mismo nombre) para hacer regresi´n sobre todos los subconjuntos con o 2 , R2 ´ C , stepAIC (en el paquete MASS) para hacer regrecriterios R o p si´n escalonada con criterio AIC y algunas otras funciones ancilares. o Orimero generamos datos sint´ticos del modo habitual. Como puee de verse, hay muchos betas no significativos.
> > + > > > > + > > set.seed(123457) X <- matrix(rnorm(1000), ncol = 20) betas <- rep(0, 20) betas[c(3, 5, 7, 12)] <- 1:4 y <- X %*% betas + rnorm(50) datos <- as.data.frame(cbind(X, y)) dimnames(datos)[[2]][21] <- "y" completo <- lm(y ~ ., datos)

Como puede verse, hay muchos betas no significativos: > summary(completo) Call: lm(formula = y ~ ., data = datos) Residuals:
Podr´ pensarse en fijar niveles de significaci´n para la entrada y salida de variables. ıa o Esto no se hace porque ser´ considerablemente arduos de computar; obs´rvese que en ıan e un procedimiento stepwise se selecciona para entrar o salir de la ecuaci´n de regresi´n o o la variable con un Qh mayor (menor). Bajo la hip´tesis de nulidad del correspondiente o par´metro, un Qh cualquiera se distribuye como una F de Snedecor con grados de libertad a apropiados. El mayor (o menor) de los estad´ ısticos Qh en cada etapa, sigue una distribuci´n o diferente (v´ase Cap´ e ıtulo 8). El nivel de significaci´n asociado al contraste impl´ o ıcito en la inclusi´n o exclusi´n de un regresor no es la probabilidad a la derecha (o izquierda) de o o Fentrada (o Fsalida ) en una distribuci´n F con grados de libertad apropiados. o
8

´ 12.2. SELECCION DE VARIABLES.
Min 1Q Median -1.916 -0.550 -0.107 Max 2.204 3Q 0.829

197

Coefficients: Estimate Std. Error (Intercept) -0.0706 0.2227 V1 0.0408 0.2422 V2 0.1720 0.2603 V3 1.1884 0.2397 V4 -0.0238 0.2067 V5 2.0035 0.2022 V6 0.2633 0.2217 V7 2.9970 0.1875 V8 -0.1074 0.2804 V9 0.0514 0.2105 V10 -0.2367 0.2148 V11 -0.2053 0.2042 V12 4.0374 0.2212 V13 0.1137 0.2161 V14 -0.2115 0.2163 V15 0.0191 0.3076 V16 0.1206 0.2328 V17 0.0318 0.1972 V18 -0.0786 0.2108 V19 0.0879 0.2569 V20 0.0162 0.1949 t value Pr(>|t|) (Intercept) -0.32 0.75 V1 0.17 0.87 V2 0.66 0.51 V3 4.96 2.9e-05 *** V4 -0.11 0.91 V5 9.91 8.1e-11 *** V6 1.19 0.24 V7 15.98 6.5e-16 *** V8 -0.38 0.70 V9 0.24 0.81 V10 -1.10 0.28 V11 -1.01 0.32 V12 18.25 < 2e-16 *** V13 0.53 0.60

198

´ CAP´ ITULO 12. SELECCION DE MODELOS.
V14 -0.98 V15 0.06 V16 0.52 V17 0.16 V18 -0.37 V19 0.34 V20 0.08 --Signif. codes: 0 ³***³ 0.34 0.95 0.61 0.87 0.71 0.73 0.93 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1

Residual standard error: 1.2 on 29 degrees of freedom Multiple R-squared: 0.977, Adjusted R-squared: 0.961 F-statistic: 61 on 20 and 29 DF, p-value: <2e-16 Utilizamos ahora la funci´n leaps para hacer regresi´n sobre todos o o los subconjuntos. Con 15 regresores, es un problema de talla modesta. > library(leaps) > mods <- leaps(x = X, y = y, + method = "Cp")

El objeto mods contiene informaci´n sobre todos los modelos estimados. o 2 u Podemos ver como var´ Cp y R con el n´mero de regresores: ıa > + + > > > + + + > + > + + + > > postscript(file = "demo10.eps", horizontal = FALSE, width = 5, height = 9) opar <- par() par(mfrow = c(2, 1)) plot(mods$size, mods$Cp, main = "Cp versus talla modelos", xlab = expression(p), ylab = expression(C[p])) mods.r <- leaps(x = X, y = y, method = "adjr2") plot(mods.r$size, mods.r$adjr2, main = "R2 versus talla modelos", xlab = expression(p), ylab = expression(bar(R)^2)) par(opar) dev.off()

´ 12.2. SELECCION DE VARIABLES.
X11cairo 2 La Figura 12.1 muestra el comportamiento t´ ıpico de los criterios Cp y 2 R . Se aprecia que, aunque de forma no muy notoria en este caso, el 2 a criterio R tiende a seleccionar modelos m´s parametrizados. > > + > > > 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 5 6 6 4 6 5 6 5 7 6 6 5

199

mejores <- order(mods$Cp)[1:15] regres <- mods$which[mejores, ] dimnames(regres)[[2]] <- dimnames(datos)[[2]][1:20] Cp <- mods$Cp[mejores] cbind(regres, Cp) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 V11 V12 V13 V14 V15 V16 V17 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0

200

´ CAP´ ITULO 12. SELECCION DE MODELOS.
2

Figura 12.1: Valores de Cp y R para 141 modelos ajustados a los datos UScrime

Cp versus talla modelos

0

200

600

Cp

1000

5

10 p

15

20

R2 versus talla modelos
1.0 R2 0.0 0.2 0.4 0.6 0.8

5

10 p

15

20

´ 12.2. SELECCION DE VARIABLES.
6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 0 1 0 0 0 1 1 0 1 0 0 1 1 0 0 V18 V19 V20 Cp 0 0 0 -4.225 0 0 0 -3.491 0 0 0 -3.455 0 0 0 -3.453 0 0 0 -3.213 0 0 0 -3.150 0 1 0 -2.654 0 0 0 -2.550 0 0 0 -2.548 0 0 0 -2.518 0 0 0 -2.476 0 0 0 -2.405 0 0 0 -2.368 0 0 0 -2.365 0 0 0 -2.335 0 0 0 1 0 0

201

> mod1 <- lm(y ~ V3 + V4 + + V5 + V7 + V10 + V12 + + V16 + V17, data = datos) > mod2 <- update(mod1, . ~ + . + V1 + V2) > summary(mod2) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V10 + V12 + V16 + V17 + V1 + V2, data = datos) Residuals: Min 1Q Median -1.611 -0.762 0.122 Max 2.237

3Q 0.627

Coefficients: Estimate Std. Error (Intercept) -0.03573 0.18316 V3 1.08674 0.19721 V4 -0.00741 0.16766 V5 2.03931 0.16976 V7 3.05622 0.14772

202
V10 V12 V16 V17 V1 V2

´ CAP´ ITULO 12. SELECCION DE MODELOS.
-0.27977 0.19088 4.10685 0.18483 0.08436 0.15101 0.05185 0.14567 0.16370 0.18257 -0.00659 0.20666 t value Pr(>|t|) (Intercept) -0.20 0.85 V3 5.51 2.5e-06 *** V4 -0.04 0.96 V5 12.01 1.1e-14 *** V7 20.69 < 2e-16 *** V10 -1.47 0.15 V12 22.22 < 2e-16 *** V16 0.56 0.58 V17 0.36 0.72 V1 0.90 0.38 V2 -0.03 0.97 --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 1.11 on 39 degrees of freedom Multiple R-squared: 0.973, Adjusted R-squared: 0.966 F-statistic: 141 on 10 and 39 DF, p-value: <2e-16 > mod3 <- update(mod1, . ~ + . - V10 - V16 - V17) > summary(mod3) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V12, data = datos) Residuals: Min 1Q -2.0289 -0.6955 Max 2.5956

Median 0.0539

3Q 0.7177

Coefficients: Estimate Std. Error (Intercept) 0.0738 0.1596 V3 1.0693 0.1819 V4 -0.0410 0.1567 V5 1.9898 0.1603

´ 12.2. SELECCION DE VARIABLES.
V7 V12

203

3.0484 0.1400 4.1357 0.1642 t value Pr(>|t|) (Intercept) 0.46 0.65 V3 5.88 5.1e-07 *** V4 -0.26 0.79 V5 12.41 5.7e-16 *** V7 21.77 < 2e-16 *** V12 25.19 < 2e-16 *** --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 1.09 on 44 degrees of freedom Multiple R-squared: 0.971, Adjusted R-squared: 0.967 F-statistic: 293 on 5 and 44 DF, p-value: <2e-16 > m <- regsubsets(y ~ ., datos, + method = "forward") > summary(m) Subset selection object Call: regsubsets.formula(y ~ ., datos, method = "forward") 20 Variables (and intercept) Forced in Forced out V1 FALSE FALSE V2 FALSE FALSE V3 FALSE FALSE V4 FALSE FALSE V5 FALSE FALSE V6 FALSE FALSE V7 FALSE FALSE V8 FALSE FALSE V9 FALSE FALSE V10 FALSE FALSE V11 FALSE FALSE V12 FALSE FALSE V13 FALSE FALSE V14 FALSE FALSE V15 FALSE FALSE V16 FALSE FALSE V17 FALSE FALSE V18 FALSE FALSE V19 FALSE FALSE V20 FALSE FALSE

204

´ CAP´ ITULO 12. SELECCION DE MODELOS.
1 subsets of each size up to Selection Algorithm: forward V1 V2 V3 V4 V5 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " "*" 4 ( 1 ) " " " " "*" " " "*" 5 ( 1 ) " " " " "*" " " "*" 6 ( 1 ) " " " " "*" " " "*" 7 ( 1 ) " " " " "*" " " "*" 8 ( 1 ) " " " " "*" " " "*" V7 V8 V9 V10 V11 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) "*" " " " " " " " " 3 ( 1 ) "*" " " " " " " " " 4 ( 1 ) "*" " " " " " " " " 5 ( 1 ) "*" " " " " " " " " 6 ( 1 ) "*" " " " " " " " " 7 ( 1 ) "*" " " " " "*" " " 8 ( 1 ) "*" " " " " "*" " " V13 V14 V15 V16 V17 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " " " 4 ( 1 ) " " " " " " " " " " 5 ( 1 ) " " " " " " " " " " 6 ( 1 ) " " "*" " " " " " " 7 ( 1 ) " " "*" " " " " " " 8 ( 1 ) " " "*" " " " " " " V19 V20 1 ( 1 ) " " " " 2 ( 1 ) " " " " 3 ( 1 ) " " " " 4 ( 1 ) " " " " 5 ( 1 ) " " " " 6 ( 1 ) " " " " 7 ( 1 ) " " " " 8 ( 1 ) "*" " " 8 V6 " " " " " " " " "*" "*" "*" "*" V12 "*" "*" "*" "*" "*" "*" "*" "*" V18 " " " " " " " " " " " " " " " "

> library(MASS) > step <- stepAIC(completo, + scope = y ~ ., direction = "both", + trace = FALSE) > summary(step)

´ 12.3. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 205
Call: lm(formula = y ~ V3 + V5 + V6 + V7 + V12, data = datos) Residuals: Min 1Q Median -1.9495 -0.6503 -0.0349 Max 2.6196

3Q 0.5244

Coefficients: Estimate Std. Error (Intercept) 0.0514 0.1518 V3 1.0256 0.1761 V5 2.0499 0.1557 V6 0.3046 0.1603 V7 3.0499 0.1346 V12 4.1077 0.1585 t value Pr(>|t|) (Intercept) 0.34 0.736 V3 5.82 6.1e-07 *** V5 13.17 < 2e-16 *** V6 1.90 0.064 . V7 22.65 < 2e-16 *** V12 25.91 < 2e-16 *** --Signif. codes: 0 ³***³ 0.001 ³**³ 0.01 ³*³ 0.05 ³.³ 0.1 ³ ³ 1 Residual standard error: 1.05 on 44 degrees of freedom Multiple R-squared: 0.973, Adjusted R-squared: 0.97 F-statistic: 317 on 5 and 44 DF, p-value: <2e-16

Fin del ejemplo

12.3.

Modelos bien estructurados jer´rquicaa mente

La facilidad con que los algoritmos presentados en este Cap´ ıtulo producen modelos candidatos no debe hacer que el analista delegue demasiado en ellos. Un modelo ha de ser consistente con los conocimientos fiables que se tengan

206

´ CAP´ ITULO 12. SELECCION DE MODELOS.

acerca del fen´meno bajo estudio. Debe ser tambi´n interpretable. Prestemos o e algo de atenci´n a este ultimo requerimiento. o ´ Imaginemos un modelo como el siguiente: y = β0 + β1 X + β2 X 2 + ǫ. (12.28)

En un caso as´ frecuentemente el inter´s se centrar´ en dilucidar si la relaci´n ı, e a o de X con Y es lineal o cuadr´tica —es decir, en contrastar la hip´tesis h : a o β2 = 0—. Es frecuentemente el caso que X se mide en unidades en que tanto la escala como el origen son arbitrarios (como ocurr´ por ejemplo, en el Ejerciıa, cio 2.10, p´g. 39); y ser´ inconveniente que el contraste de h dependiera del a ıa origen y de la escala empleadas. Lo menos que debemos esperar de nuestra inferencia es que sea invariante frente a cambios en las unidades de medida. Si en (12.28) reemplazamos X por Z = aX + b, obtenemos y = β0 + β1 (aX + b) + β2 (aX + b)2 + ǫ = (β0 + β1 b + β2 b2 ) + (β1 a + 2abβ2 )X + a2 β2 X 2 + ǫ ∗ ∗ ∗ = β0 + β1 X + β2 X 2 + ǫ.

(12.29)

∗ En este nuevo modelo, β2 = a2 β2 absorbiendo el cambio de escala en la X. ∗ Es f´cil ver que es equivalente contrastar h : β2 = 0 en (12.28) o h : β2 = 0 a en (12.29); el contraste de la hip´tesis “efecto cuadr´tico de X sobre Y ”, o a al menos, no se altera por el cambio de unidades. Sin embargo, sean cuales ∗ fueren β1 y β2 , habr´ coeficientes a, b anulando β1 = (β1 a+ 2abβ2 ) en (12.29). a Ello hace ver que:

No tiene sentido contrastar efecto lineal en un modelo que incluye t´re mino cuadr´tico, porque el contraste tendr´ un resultado diferente dea ıa pendiendo de las unidades de medida. La inclusi´n de un t´rmino en X 2 debe ir acompa˜ada de un t´rmino o e n e lineal y constante, si queremos que el modelo sea invariante frente a cambios en el origen y la escala. La conclusi´n que extraemos es que los t´rminos de orden superior deo e ben estar acompa˜ados de todos los t´rminos de orden inferior —es decir, si n e incluimos un t´rmino c´bico, deben tambi´n existir t´rminos cuadr´ticos y e u e e a lineales, etc.—. Un modelo que cumpla con dicho requisito se dice que est´ a jer´rquicamente estructurado y en ´l podemos contrastar no nulidad del coea e ficiente del t´rmino jer´rquico de orden superior, pero no de los inferiores. e a La misma conclusi´n es de aplicaci´n a t´rminos recogiendo interacciones: o o e

´ 12.3. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 207 si introducimos una variable compuesta como Xi Xj en el modelo, Xi y Xj deben tambi´n ser incluidas. Se suele decir que un modelo jer´rquicamente e a bien estructurado verifica restricciones de marginalidad y que, por ejemplo, Xi y Xj son ambas marginales a Xi Xj . Si regresamos al Ejercicio 2.10 en que se arg¨´ la necesidad de utilizar un uıa t´rmino β0 veremos que se trata del mismo problema: necesitamos el t´rmino e e jer´rquico inferior (la constante) cuando incluimos X dado que las unidades y a el origen son arbitrarios. No es imposible que un modelo sin β0 sea adecuado, pero lo normal es lo contrario. Dependiendo de los programas que se utilicen, un algoritmo puede eliminar del modelo de regresi´n un t´rmino jer´rquico inferior manteniendo o e a otro de orden superior. Es responsabilidad del analista garantizar que ello no ocurra, manteniendo la interpretabilidad de los par´metros en toda circunsa tancia.

208

´ CAP´ ITULO 12. SELECCION DE MODELOS. Complementos y ejercicios 12.1 Supongamos que hacemos regresi´n escalonada “hacia adeo lante”. ¿Qu´ valor de Fentrada equivaldr´ a introducir regresores en el e ıa 2 modelo en tanto en cuanto incrementen Rp ? 12.2 Las estrategias de regresi´n escalonada descritas (hacia o
adelante, hacia atr´s, o mixta) exploran un subconjunto de los modea los posibles, a˜adiendo (omitiendo) en cada momento el regresor que n parece con mayor (menor) capacidad explicativa de la variable respuesta. Puede perfectamente alcanzarse un ´ptimo local, al llegarse a o un modelo en el que no es posible mejorar el criterio elegido (Cp , o cualquier otro) a˜adiendo u omitiendo regresores, pese a existir otro n modelo mejor en t´rminos de dicho criterio. ¿Mejoran nuestras expece tativas de encontrar el ´ptimo global mediante regresi´n escalonada o o cuando las columnas de la matriz X de regresores son ortogonales? Justif´ ıquese la respuesta.

12.3 En la Observaci´n 12.1 se comparan los criterios de seleco
ci´n de modelos consistentes en maximizar Rp y Cp , viendo que el o segundo es en general m´s restrictivo. a Consideremos ahora dos posibles modelos A y B de regresi´n con o sumas de cuadrados de los residuos respectivamente SSEA y SSEB . El primer modelo utiliza s´lo un subconjunto de los regresores presentes o en el segundo (por tanto, SSEA ≥ SSEB ). Para escoger entre los modelos A y B podr´ ıamos adoptar uno de los siguientes criterios: 1. Seleccionar el modelo B si la disminuci´n en la suma de cuao drados respecto al modelo A es estad´ ısticamente significativa, es decir, si: (SSEA − SSEB ) α > Fq,N −(p+q) Qh = qˆ 2 σ siendo p el n´mero de par´metros presentes en A y q el de los u a adicionales presentes en B. 2. Seleccionar el modelo B si su estad´ ıstico Cp es menor. Supongamos adem´s que el modelo B es el m´s parametrizado a a de los posibles (incluye todas las variables de que disponemos). ¿Qu´ e relaci´n existe entre ambos criterios? o
2

Cap´ ıtulo 13

Transformaciones
13.1. Introducci´n o

Nada nos obliga a utilizar los regresores o la variable respuesta tal cual; es posible que la relaci´n que buscamos entre una y otros requiera para o ser expresada realizar alguna transformaci´n. Por ejemplo, si regres´ramos el o a volumen de s´lidos aproximadamente esf´ricos sobre sus mayores dimensiones, o e obtendr´ ıamos probablemente un ajuste muy pobre; ser´ mucho mejor, en ıa cambio, regresando el volumen sobre el cubo de la mayor dimensi´n —dado o 4 3 ıa que la f´rmula del volumen de una esfera es 3 πr , y cabr´ esperar una o relaci´n similar en los s´lidos aproximadamente esf´ricos que manejamos—. o o e En el ejemplo anterior, bastaba tomar un regresor —la mayor dimensi´n— o y elevarla al cubo para obtener un ajuste mejor. Adem´s, la naturaleza del a problema y unos m´ ınimos conocimientos de Geometr´ sugieren el tipo de ıa transformaci´n que procede realizar. En otros casos, la transformaci´n puede o o distar de ser obvia. En ocasiones, es la variable respuesta la que conviene transformar. En las secciones que siguen se muestran algunos procedimientos para seleccionar un modelo, acaso transformando regresores, variable respuesta, o ambas cosas.

13.2.

Transformaciones de los regresores

En ocasiones, teor´ o conocimientos previos acerca del funcionamiento ıa del fen´meno bajo an´lisis puede sugerir transformaciones en los regresores. o a 209

210

CAP´ ITULO 13. TRANSFORMACIONES

Alternativamente podemos recurrir a m´todos exploratorios, gr´ficos o no. e a En lo que sigue se mencionan algunas posibilidades.

13.2.1.

Gr´ficos de residuos frente a regresores a

Se trata de representar gr´ficamente los residuos en ordenadas frente a a cada uno de los regresores en abscisas. La motivaci´n es muy simple: los o residuos recogen la fracci´n de la respuesta que el modelo no ha podido o recoger. Si observamos alguna pauta al representar dichos residuos frente a un regresor, podemos intuir la transformaci´n precisa en dicho regresor. Por o ejemplo, en la Figura 13.1 se muestran residuos que frente a los valores de Xi toman forma de par´bola; ello sugiere introducir el regresor Xi2 . En efecto, a esto permitir´ recoger una parte de Y de la que el modelo actual no da ıa cuenta, y que por este motivo aflora en los residuos.

Figura 13.1: Disposici´n de residuos sugiriendo una transformaci´n cuadr´tio o a ca del regresor Xi

Residuos

−2
0

0

2

4

6

20

40 x

60

80

100

13.2. TRANSFORMACIONES DE LOS REGRESORES

211

13.2.2.

Transformaciones de Box-Tidwell

Consideremos los regresores X1 , . . . , Xp y transformaciones de los mismos definidas del siguiente modo: Wj = Xj j si αj = 0, ln(Xj ) si αj = 0.
α

(13.1)

Para diferentes valores de αj , la transformaci´n (13.1) incluye muchos casos o particulares de inter´s: transformaci´n cuadrado, ra´ cuadrada, logaritmo, e o ız etc. Un αj = 1 significar´ que el regresor aparece sin ninguna transformaci´n. ıa o El problema est´ en seleccionar para cada regresor el αj adecuado. a El modo de hacerlo propuesto por Box and Tidwell (1962) es el siguiente. Consideremos el modelo, Y
α α = β0 + β1 X1 1 + . . . + βp Xp p + ǫ = β0 + β1 W1 + . . . + βp Wp + ǫ.

(13.2) (13.3)

Si realizamos una linealizaci´n aproximada mediante un desarrollo en serie o de Taylor en torno al punto (α1 , . . . , αk ) ′ = (1, 1, . . . , 1) ′ , obtenemos: Y en donde ≈ β0 + β1 X1 + . . . + βp Xp + γ1 Z1 + . . . + γp Zp + ǫ, γj = βj (αj − 1) Zj = Xj ln(Xj ). (13.4) (13.5) (13.6)

Tenemos pues un modelo en el que podemos estimar los par´metros, a (β0 , . . . , βp , γ1 , . . . , γp ). De ellos podemos recuperar valores estimados de (α1 , . . . , αp ) as´ ı: γj ˆ + 1. (13.7) αj = ˆ ˆ βj Podemos detenernos aqu´ pero cabe pensar en un proceso iterativo de refinaı, (1) do de la soluci´n obtenida. Llamemos αk , k = 1, . . . , p, a los estimadores de o ˆ los par´metros de transformaci´n αk obtenidos como primera aproximaci´n a o o al estimar (13.4). Podr´ ıamos ahora definir Wj y estimar Y
(1) (1) = β0 + β1 W1 + . . . + βp Wp + γ1 Z1 + . . . + γp Zp + ǫ,(13.10) (2) (2) (1) (1) (1)

= Xj j =
(1) Wj (1) ln(Wj )

α

(1)

(13.8) (13.9)

(1) Zj

Obtendr´ ıamos as´ estimaciones de W1 , . . . , Wp , y podr´ ı ıamos proseguir de modo an´logo hasta convergencia, si se produce. a

212

CAP´ ITULO 13. TRANSFORMACIONES

13.3.
13.3.1.

Transformaciones de la variable respuesta
Generalidades

Adem´s de transformar los regresores, o en lugar de hacerlo, podemos a transformar la variable respuesta Y . Es importante tener en cuenta que si realizamos transformaciones no lineales de la Y los modelos ya no ser´n direca tamente comparables en t´rminos de, por ejemplo, R2 o suma de cuadrados e residual. Comparaciones de esta naturaleza requerir´ reformular el modelo ıan en las variables originales. Ejemplo 13.1 Supongamos que nos planteamos escoger entre los dos modelos alternativos,
Y = β0 + β1 X 1 + ǫ (13.11) (13.12)

log(Y ) = γ0 + γ1 X1 + ν.

La transformaci´n log deforma la escala de la Y ; si el logaritmo es o decimal, por ejemplo, valores de Y entre 1 y 1000 quedan convertidos en valores entre 0 y 3 (si hubiera valores de Y cercanos a cero, por el contrario, al tomar logaritmos se separar´ hacia −∞). Esta deıan formaci´n puede ser bastante dr´stica, y afectar mucho a la suma de o a cuadrados de los residuos, independientemente del poder predictivo del unico regresor X1 . ´ Para efectuar la comparaci´n podemos convertir todo a unidades o comunes. As´ no ser´ comparables las sumas de cuadrados ı, ıan ˆ ˆ (Yi − β0 − β1 Xi1 )2 (log(Yi ) − γ0 − γ1 Xi1 )2 , ˆ ˆ pero s´ lo ser´ ı ıan ˆ ˆ (Yi − β0 − β1 Xi1 )2 (Yi − exp{ˆ0 + γ1 Xi1 })2 ; γ ˆ (13.15) (13.16) (13.13) (13.14)

no obstante, v´ase la discusi´n en la Observaci´n 13.1 que sigue. e o o Fin del ejemplo

13.3. TRANSFORMACIONES DE LA VARIABLE RESPUESTA Observaci´n 13.1 Las sumas de cuadrados de los residuos de o
dos modelos son comparables cuando ambos poseen el mismo n´mero u de par´metros estimados. Si no es el caso, y los modelos son lineales, a podemos corregir el efecto del diferente n´mero de par´metros penaliu a zando la suma de cuadrados (por ejemplo, adoptando criterios como la Cp de Mallows; v´ase la Secci´n 12.1.2). En el caso en que se hace e o alguna transformaci´n, ¿hay que “contarla” como par´metro? En ciero a to modo, la transformaci´n efectuada es una manipulaci´n tendente o o a mejorar el ajuste a los datos, y habr´ que tener esto en cuenta, ıa especialmente si la transformaci´n se escoge a la vista de los datos. o No est´ claro, sin embargo, c´mo“contar”una transformaci´n. Una a o o posibilidad que elude el problema es renunciar a penalizar la correspondiente suma de cuadrados y hacer validaci´n cruzada (ver la Seco ci´n 12.1.4). o

213

13.3.2.

La transformaci´n de Box-Cox. o

En ocasiones puede resultar inadecuado suponer que la variable respuesta Y est´ relacionada linealmente con las X, y, sin embargo, ser plausible un a modelo como el siguiente: g(Yi ) = xi ′ β + ǫi (13.17)

Una familia de funciones g(.) de particular inter´s y flexibilidad es la e proporcionada por la llamada transformaci´n de Box-Cox, sustancialmente o id´ntica a la adoptada para los regresores en la Secci´n 13.2.2. Definamos, e o W(λ) = g(Y ; λ) = (Y λ − 1)/λ cuando λ = 0, ln Y cuando λ = 0.

y supongamos que W(λ) se genera de acuerdo con (13.17), es decir, W(λ),i = xi ′ β + ǫi ǫ ∼ N (0, σ I)
2

(13.18) (13.19)

Podemos, dadas las observaciones X, y , escribir la verosimilitud conjunta de todos los par´metros: β, σ, y λ. Dicha verosimilitud puede escribirse en a funci´n de w as´1 : o ı fY (y ) = fW (w ) |J(λ)|
1

(13.20)

La variable transformada w depende en todo caso del λ empleado en la transformaci´n; o omitimos dicha dependencia para aligerar la notaci´n, salvo donde interese enfatizarla. o

214

CAP´ ITULO 13. TRANSFORMACIONES

siendo J(λ) el jacobiano de la transformaci´n: o J(λ) = Por tanto: log ver(β , λ, σ 2 ; Y ) = log 1 √ 2π
N

∂w = ∂y

N λ−1 yi i=1

(13.21)

1 1 (w(λ) − X β )′ (w(λ) − X β ) 2 σ2 |σ 2 I| 2
1

× log exp − = −

|J(λ)|

N N log(2π) − log σ 2 2 2 N 1 (w(λ) − X β )′ (w(λ) − X β ) λ−1 + log yi − 2 2 σ i=1
N

N N = − log(2π) − log σ 2 + (λ − 1) 2 2 − 1 w(λ) ′ (I − X(X ′ X)−1 X ′ )w(λ) 2 σ2

log yi
i=1

(13.22)

La expresi´n (13.22) se ha obtenido maximizando la precedente respecto de o β . El m´ximo, en efecto, se alcanza para aqu´l valor de β que minimiza a e ′ ˆ ınimo cuadr´tico. (w(λ) − X β ) (w(λ) − X β ), y ´ste es precisamente el β m´ e a La suma de cuadrados de los residuos es entonces (v´ase (2.36), p´g. 22) e a ′ w(λ) (I − X(X ′ X)−1 X ′ )w(λ) . Si ahora maximizamos (13.22) respecto a σ 2 , vemos que el m´ximo se a alcanza para, N y el logaritmo de la verosimilitud concentrada es: σ(λ) ˆ2 =
′ w(λ) (I − X(X ′ X)−1 X ′ )w(λ)

N N N ˆ2 + (λ − 1) log ver(λ; Y ) = − log(2π) − log σ(λ) − 2 2 2

N

log(13.23) yi .
i=1

Podemos escoger como transformaci´n aqu´lla cuyo λ maximice (13.23), o e o, de modo equivalente, tras prescindir de las constantes, log ver(λ; Y ) = − N log σ(λ) + (λ − 1) ˆ2 2
N

log yi .
i=1

(13.24)

13.3. TRANSFORMACIONES DE LA VARIABLE RESPUESTA

215

Un modo sencillo de hacerlo consiste en tomar un n´mero adecuado de valores u de λ equiespaciados en un intervalo susceptible de contener el λ ´ptimo, o ajustar una regresi´n para cada λ, y calcular el correspondiente valor de o (13.24). Frecuentemente se suele tomar el intervalo −2 ≤ λ ≤ 2 (que incluye 1 como casos particulares la transformaci´n ra´ cuadrada (λ = 2 ), cuadrado o ız (λ = 2), logaritmo (λ = 0), ra´ cuadrada negativa, etc.), y dentro de ´l unas ız e cuantas decenas de valores de λ. Es frecuente que log ver(λ; Y ) como funci´n de λ sea una funci´n relao o tivamente plana. Ello suscita el problema de decidir si el valor de λ que la maximiza es significativamente distinto de 1 (lo que supondr´ que no es preıa ciso hacer ninguna transformaci´n). Podemos recurrir a un contraste raz´n o o ˆ denota el de verosimilitudes (v´ase B.3). Bajo la hip´tesis H0 : λ = λ0 , si λ e o estimador m´ximo veros´ a ımil de λ y L(λ) el valor que toma la verosimilitud, para muestras grandes se tiene que 2 ln ˆ L(λ) L(λ0 ) ∼ χ2 ; 1 (13.25)

por tanto, a la vista de (13.23), rechazaremos H0 al nivel de significaci´n α o si −2 N ˆ log σ(λ) + (λ − λ0 ) ˆ 2ˆ 2
N

i=1

log yi −

N log σ(λ0 ) ˆ2 2

> χ2 . 1;α

(13.26)

Utilizando la misma idea podemos construir intervalos de confianza para λ.

216

CAP´ ITULO 13. TRANSFORMACIONES

Cap´ ıtulo 14

Regresi´n con respuesta o cualitativa

14.1.

El modelo logit.

Con frecuencia se presentan situaciones en que la variable respuesta a explicar toma s´lo uno de dos estados, a los que convencionalmente asignamos o valor 0 ´ 1. Por ejemplo, variables de renta, habitat, educaci´n y similares o o pueden influenciar la decisi´n de compra de un cierto art´ o ıculo. Podr´ ıamos as´ ı plantearnos el estimar, Y = Xβ + ǫ (14.1) en que Y es una variable tomando dos valores: 1 (= “Compra”) ´ 0 (= “No o compra”). Nada parecer´ en principio, impedir el empleo del modelo lineal estudiaıa, do en una situaci´n como ´sta. Pero hay varias circunstancias que debemos o e considerar. 1. No tiene ya sentido suponer una distribuci´n normal en las perturbao ciones. En efecto, para cualesquiera valores que tomen los regresores, de Yi = β0 + β1 Xi1 + . . . + βp−1 Xi,p−1 + ǫi se deduce que ǫ s´lo puede tomar uno de dos valores: la diferencia o que separa a la Yi (0 ´ 1) de la combinaci´n lineal de regresores que o o constituye su “parte explicada”. 217

218

´ CAP´ ITULO 14. REGRESION CON RESPUESTA CUALITATIVA

2. Trat´ndose de una respuesta que puede tomar valor 0 ´ 1, interpretaa o ˆi como su valor medio dados los valores de los regresores. Al r´ ıamos Y poder tomar Yi s´lo los valores 0 y 1, su valor medio es Pi , la probabilio ˆ dad del valor 1. Por tanto, valores de Yi entre 0 y 1 son interpretables. Pero nada impide que el modelo proporciones predicciones mayores que 1 (o menores que 0), circunstancia molesta. 3. Tampoco podemos ya suponer que hay homoscedasticidad. En efecto, si tomamos valor medio en la expresi´n anterior tenemos: o E[Yi ] = β0 + β1 Xi1 + . . . + βp−1 Xi,p−1 = Pi En consecuencia, Yi toma valor 1 con probabilidad Pi y valor 0 con probabilidad Qi = 1 − Pi y, ǫi = Entonces, E[ǫ2 ] = (1 − Pi )2 Pi + (−Pi )2 (1 − Pi ) = Q2 Pi + Qi Pi2 = Pi Qi . (14.2) i i La varianza de Y var´ por tanto de observaci´n a observaci´n de acuerıa o o do con los valores que toman los regresores. Adicionalmente, (14.2) muestra que la distribuci´n de ǫi ser´ binaria de par´metro Pi . o ıa a El tercer inconveniente podr´ resolverse haciendo uso de regresi´n ponıa o derada, para corregir el efecto de la heterocedasticidad. No obstante, suele emplearse una aproximaci´n alternativa que da cuenta tambi´n de los dos o e primeros. El modelo lineal ordinario hace depender linealmente de las variables X la media de la variable respuesta, E(Yi ). Podemos en lugar de ello hacer depender de los regresores una funci´n de la media E(Yi ); por ejemplo, o la conocida como logit, ℓ(E(Yi ))
def

1 − Pi −Pi

con probabilidad Pi con probabilidad Qi = 1 − Pi .

=

ln

Pi 1 − Pi

.

(14.3)

N´tese que como E(Yi ) = Pi , (14.3) es efectivamente una funci´n de la media. o o Obs´rvese tambi´n que ℓ(E(Yi )) toma valores de modo continuo entre −∞ y e e +∞. Podemos pensar en hacer que ℓ(E(Yi )), y no E(Yi ), dependa linealmente de los regresores: ℓ(E(Yi )) = ln Pi 1 − Pi = x i ′β , (14.4)

14.1. EL MODELO LOGIT.

219

y a continuaci´n especificar la distribuci´n de Yi en torno a su media E(Yi ). o o Ya hemos visto que una distribuci´n binaria es una elecci´n natural si Yi es o o una variable 0/1. Observaci´n 14.1 Transformar la media E(Yi ) es un enfoque o
alternativo al de transformar Yi , y en muchos aspectos un refinamiento. Una transformaci´n de la respuesta como, por ejemplo, las de la o familia de Box-Cox, tiene que cumplir varios objetivos, generalmente contradictorios. Por un lado, deseamos que la variable respuesta se acerque a la normalidad. Por otro, que la varianza sea homog´nea, y e la dependencia de los regresores lineal. El enfoque de hacer depender linealmente de los regresores una funci´n de la media de la variable respuesta es mucho m´s flexible. Poo a demos escoger la funci´n de la media que sea m´s aproximadamente o a funci´n lineal de los regresores, y especificar separadamente la distrio buci´n de la variable respuesta en torno a su media. El enfoque goza o as´ de una enorme flexibilidad. ı

Despejando Pi de la expresi´n anterior, o Pi = exp(x i ′ β ) 1 + exp(x i ′ β ) . (14.5)

14.1.1.

Interpretaci´n de los coeficientes o

Los par´metros de un modelo logit tienen interpretaci´n inmediata: βi es a o el efecto de un cambio unitario en Xi sobre el logit o logaritmo de la raz´n de o posibilidades (log odds). Pero pueden en ocasiones ser interpretados de manera m´s directamente relacionada con magnitudes de inter´s. Consideremos a e primero el caso m´s simple, en que tenemos un unico regresor dicot´mico, a ´ o X, codificado con valores 0/1. El resultado de clasificar una muestra de N sujetos con arreglo a los valores observados de Y (respuesta) y X (regresor) puede imaginarse en una tabla de doble entrada como la siguiente: X=1 X=0 n11 n12 n21 n22

Y=1 Y=0

Si el modelo logit es de aplicaci´n, las probabilidades de cada celda en la o tabla anterior vendr´ dadas por las expresiones que aparecen en la tabla ıan siguiente:

220

´ CAP´ ITULO 14. REGRESION CON RESPUESTA CUALITATIVA X=1 Y=1 π(1) =
eβ0 +β1 1+eβ0 +β1

X=0 π(0) =
eβ0 1+eβ0

Y = 0 1 − π(1) =

1 1+eβ0 +β1

1 − π(0) =

1 1+eβ0

Definamos la raz´n de posibilidades relativa (relative odds ratio) as´ o ı: ψ = Entonces, ln(ψ) = ln = ln = ln = β1 . ˆ ˆ Por tanto, β1 estimar´ ln(ψ), y exp (β1 ) estimar´ ψ. a a Observaci´n 14.2 La codificaci´n de X, al igual que la de Y , o o es arbitraria. La interpretaci´n correcta de β1 es “incremento de ln(ψ) o cuando X se incrementa en una unidad”. Por tanto, como se ha indicado, si la presencia de una caracter´ ıstica se codifica mediante X = 1 ˆ = β1 y ψ = exp(β1 ). Pero si la ˆ ˆ ˆ y su ausencia mediante X = 0, ln(ψ) presencia de la misma caracter´ ıstica se codifica mediante X = a y su ausencia mediante X = b, c´lculos similares a los realizados muestran a que ln(ψ) = β1 (a − b). A la hora de interpretar los coeficientes de un modelo logit es necesario por tanto tener en cuenta la codificaci´n o utilizada. Interpretamos ψ como indicando aproximadamente cu´nto m´s probable a a es que Y tome el valor 1 cuando X = 1 que cuando X = 0. Aproximadamente, porque π(1)/(1 − π(1)) π(1) ≈ π(0) π(0)/(1 − π(0)) π(1) / (1 − π(1)) π(0)/(1 − π(0)) eβ0 +β1 1 β0 +β1 1+e 1 + eβ0 +β1 eβ0 +β1 eβ0 π(1)/(1 − π(1)) . π(0)/(1 − π(0)) (14.6)

− ln

eβ0 1 + eβ0

1 1 + eβ0

(14.7)

14.1. EL MODELO LOGIT. si y s´lo si o 1 − π(0) ≈ 1. 1 − π(1)

221

Ello acontece, por ejemplo, cuando Y = 1 se presenta muy raramente en la poblaci´n —como cuando estudiamos la incidencia de una enfermedad muy o rara, tanto para sujetos tratados (X = 1) como no tratados (X = 0)—. En ˆ este ultimo caso, exp(β1 ) se interpretar´ como una estimaci´n de la relaci´n ´ ıa o o ˆ1 > 0 significar´, por tanto, que X = 1 incrementa el riesgo de riesgos. Un β a de que Y = 1, y viceversa.

14.1.2.

La importancia del dise˜ o muestral n

¿S´lo podemos estimar, y a´n aproximadamente, la raz´n de riesgos o u o π(1)/π(0)? ¿Qu´ impedir´ estimar el riesgo Pi correspondiente a unos dee ıa terminados valores de los regresores, x i , haciendo uso de el an´logo muestral a de (14.5)? Es importante observar (v´ase Kleinbaum (1994) para una discue si´n completa de esto) que en ocasiones ello no ser´ posible. o a Se hace preciso distinguir dos situaciones que pueden dar lugar a los mismos datos pero reflejan modos de obtenerlos radicalmente diferentes. En el primer caso tenemos un dise˜o de exposici´n, t´ n o ıpico en trabajos epidemiol´gicos, en que una muestra fijada de antemano sin conocer el valor de la o variable respuesta Y y representativa del total de la poblaci´n en riesgo se o sigue a lo largo de un periodo de tiempo al cabo del cual se conoce el valor de Y . En este caso, podr´ ıamos estimar el riesgo Pi como se ha dicho. Completamente diferente es el dise˜o muestral de casos-controles. En este n caso seleccionamos la muestra a la vista de los valores de Yi . T´ ıpicamente, si examinamos un evento que se presenta raramente, como una enfermedad poco frecuente, tomaremos todos los individuos enfermos de que dispongamos (casos), completando la muestra con un n´mero arbitrario de sanos (controu les). Los coeficientes β1 , . . . , βp son interpretables, pero β0 no lo es. Ninguna f´rmula que lo requiera —como (14.5)— puede utilizarse. o ˆ La raz´n es f´cil de entender: β0 depende de la abundancia relativa de o a casos y controles, y ´sta es como hemos dicho arbitraria. La situaci´n se e o asemeja a la que se presenta cuando construimos una tabla de contingencia 2 × 2 como: X=1 X=0 Y=1 n11 n12 Y=0 n21 n22 Total n,1 n,2 Total n1. n2. n..

222

´ CAP´ ITULO 14. REGRESION CON RESPUESTA CUALITATIVA

Si hemos escogido los sujetos completamente al azar, es razonable tomar el cociente n1. /n.. como estimador de la proporci´n de casos con Y = 1 en la o poblaci´n (y cocientes como n11 /n,1 o n12 /n,2 estimar´ las proporciones en o ıan las subpoblaciones caracterizadas por X = 1 y X = 0 respectivamente). Si, por el contrario, hemos fijado los valores n1. y n2. , es claro que dicho cociente no estima nada, sino que es resultado de una decisi´n arbitraria. o

14.1.3.

Estimaci´n o

Consideremos una muestra de tama˜o N , formada por observaciones n (yi , x i ). Para cada observaci´n, yi es 0 ´ 1. El modelo logit, sin embargo, o o le atribuye una probabilidad Pi (si se trata de un “1”) ´ 1 − Pi (si se trata de o un “0”). Por consiguiente, la verosimilitud de la muestra es
N

ˆ L(β, y , X) =
i=1 N

(Pi )yi (1 − Pi )1−yi 1 1 + exp(x i ′ β ) 1 1 + τi
1−yi 1−yi

(14.8) exp(x i ′ β ) 1 + exp(x i ′ β )
yi yi

=
i=1 N

(14.9) (14.10)

=
i=1

τi 1 + τi

,

con τi = exp(x i ′ β ). Tomando logaritmos en (14.10), obtenemos
N

ln
i=1

1 1 + τi

N

+
i=1

yi ln(τi ).

(14.11)

Si derivamos (14.11) respecto de β e igualamos el vector de derivadas a cero, obtenemos un sistema no lineal; no obstante, puede resolverse num´ricamente e ˆ para obtener el vector de estimadores β. Alternativamente, podr´ procederse ıa a la maximizaci´n directa de (14.9) mediante un algoritmo conveniente. o Observaci´n 14.3 La verosimilitud en (14.9) es la ordinaria o o incondicional. En determinadas circunstancias —notablemente en estudios con casos y controles emparejados respecto de variables de estratificaci´n cuyos coeficientes carecen de inter´s— podr´ o e ıamos desear realizar estimaci´n m´ximo veros´ o a ımil condicional. Sobre el fundamento de esto puede verse Cox and Hinkley (1978), p´g. 298 y siguiena tes, Kleinbaum (1994) o Hosmer and Lemeshow (1989), Cap. 7. En R puede estimarse un modelo logit mediante m´xima verosimilitud a condicional utilizando la funci´n clogit (en el paquete survival). o

14.1. EL MODELO LOGIT.

223

14.1.4.

Contrastes y selecci´n de modelos o

Necesitamos criterios para decidir sobre la inclusi´n o no de par´metros, o a y para comparar modelos. La teor´ para ello deriva del contraste raz´n geıa o neralizada de verosimilitudes (ver B.3). Consideremos un modelo saturado, proporcionando el mejor ajuste posible. Llamaremos a ´ste modelo modelo base o modelo de referencia: se e tratar´ en general de un modelo claramente sobreparametrizado, pero que a proporciona un t´rmino de comparaci´n util. Requerir´, en principio, un pae o ´ a r´metro por cada combinaci´n de valores de los regresores, y proporcionar´ a o a ˆ ˆ ˆ valores ajustados P = (P1 , . . . , Pk ). De acuerdo con la teor´ en la Secci´n B.3, bajo la hip´tesis nula de que ıa o o el modelo correcto es (14.4) −2 ln ˆ L(β) ˆ L(P ) ∼ χk−p , (14.12)

ˆ en que p es el n´mero de par´metros estimados en β. Al cociente (14.12) se u a le denomina desviaci´n respecto del modelo de referencia parametrizado por o ˆ. P El adoptar un modelo menos parametrizado que el de referencia, implica una disminuci´n de la verosimilitud y una desviaci´n (14.12) positiva cuya o o distribuci´n, bajo la hip´tesis nula, sigue la distribuci´n χ2 indicada. Si o o o k−p para el nivel de la desviaci´n fuera excesiva (es decir, si sobrepasa χ2 o k−p;α significaci´n α que hayamos escogido), rechazar´ o ıamos la hip´tesis nula. o An´logo criterio podemos seguir para hacer contrastes sobre un unico a ´ par´metro o sobre grupos de par´metros. Por ejemplo, para contrastar si a a el par´metro βj es significativamente diferente de cero en un cierto modelo a parametrizado por β , calcular´ ıamos −2 ln ˆ ˆ ˆ ˆ ˆ L(β1 , β2 , . . . , βj−1 , βj+1 , . . . , βk ) ˆ ˆ ˆ ˆ ˆ ˆ L(β1 , β2 , . . . , βj−1 , βj , βj+1 , . . . , βk ) , (14.13)

que debe ser comparado con una χ2 ; valores grandes de (14.13) son evidencia 1 contra la hip´tesis h : βj = 0. o Para contrastar la hip´tesis de nulidad de todos los par´metros, salvo o a quiz´ β0 afectando a la columna de “unos”, comparar´ a ıamos −2 ln ˆ L(β0 ) ˆ ˆ ˆ ˆ L(β0 , β1 , β2 , . . . , βk ) (14.14)

224

´ CAP´ ITULO 14. REGRESION CON RESPUESTA CUALITATIVA

a una χ2 ; la expresi´n (14.14) es similar a la suma de cuadrados SSR en o k−1 una regresi´n ordinaria. El an´logo a SST ser´ o a ıa −2 ln ˆ L(β0 ) ˆ L(P ) . (14.15)

Esta analog´ puede extenderse para obtener un estad´ ıa ıstico similar a la Cp de Mallows as´ ı: ∆k = −2 ln y una “R2 ” as´ ı: R
2

ˆ L(β0 ) ˆ ˆ ˆ ˆ L(β0 , β1 , β2 , . . . , βk )

− 2(k − 1),

(14.16)

=

−2 ln

ˆ L(β0 ) ˆ ˆ ˆ ˆ L(β0 ,β1 ,β2 ,...,βk ) ˆ0 −2 ln L(βˆ )) L(P

(14.17)

Obs´rvese que en (14.16) el primer sumando de la derecha sigue asint´ticae o 2 mente una distribuci´n χk−1 con grados de libertad bajo el supuesto de que el o modelo m´s parametrizado no a˜ade realmente nada. Los grados de libertad a n —y por tanto el valor esperado de dicho sumando— crecen con el n´mero u de par´metros ajustados. El segundo t´rmino que se sustrae a continuaci´n a e o es, precisamente, el valor medio de una χ2 . Mientras que el primero crece k−1 mon´tonamente al introducir nuevos par´metros, el segundo penaliza este o a crecimiento. Observaci´n 14.4 Escoger´ o ıamos de acuerdo con este criterio el modelo maximizando ∆k o, alternativamente, minimizando
ˆ ˆ ˆ ˆ AICk = −2 ln L(β0 , β1 , β2 , . . . , βk ) + 2k. (14.18)

La expresi´n anterior se conoce como criterio AIC (=“An Information o Criterion” o “Akaike Information Criterion”, por su proponente). Puede ser obtenido de diversos modos, incluido un argumento haciendo uso de Teor´ de la Informaci´n: v´ase Akaike (1972). ıa o e

14.1. EL MODELO LOGIT. Complementos y ejercicios

225

14.1 Mu´strese que la desviaci´n definida a continuaci´n de (14.12) e o o coincide con SSE cuando consideramos un modelo lineal ordinario con normalidad en las perturbaciones. 14.2 Compru´bese derivando (14.11) que los estimadores m´e a
ximo veros´ ımiles de los par´metros β son soluciones del sistema de a ecuaciones: N τi x i yi − = 0, 1 + τi
i=1

en que τi = x i β .

226

´ CAP´ ITULO 14. REGRESION CON RESPUESTA CUALITATIVA

Ap´ndice A e

Algunos resultados en Algebra Lineal.

A.1.

Resultados varios sobre Algebra Matricial.

Teorema A.1 El rango y la traza de una matriz idempotente coinciden. Definici´n A.1 En un espacio vectorial V llamamos producto interno a o una aplicaci´n de H × H −→ R (si es real-valorado) o en C (si es como pleto valorado), tal que a cada par de vectores u , v corresponde < u , v > verificando: < u , v >= < v , u > < u , u >≥ 0 ∀u ∈ H < u , u >= 0 =⇒ u = 0 < u , αv + β w >= α < u , v > +β < u , w > (A.1) (A.2) (A.3) (A.4)

Definici´n A.2 Llamamos producto interno eucl´ o ıdeo de dos n-eplas u , v n ′ en R al definido as´ < u , v >= u v . Es f´cil comprobar que verifica las ı: a condiciones de la Definici´n A.1. La norma eucl´ o ıdea ||u || del vector u se √ 2 define como ||u || = + < u , u > = u1 + . . . + u2 n 227

´ 228 APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. Definici´n A.3 Dados dos vectores u , v en un espacio vectorial, definimos o el coseno del ´ngulo que forman como a cos(α) = < u,v > . ||u ||||v || (A.5)

Teorema A.2 (Sherman-Morrison-Woodbury) Sea D una matriz sim´trica e p × p y a ,c vectores p × 1. Entonces, (D + a c ′ )−1 = D−1 − D−1 a (1 + c ′ D−1 a )−1 c ′ D−1 ´ Demostracion: Multiplicando ambos lados de (A.6) por (D + a c ′ ) se llega a la igualdad I = I. En particular, si a = c = z, la relaci´n anterior produce: o (D + zz ′ )−1 = D−1 − D−1 z(1 + z ′ D−1 z)−1 z ′ D−1 Teorema A.3 Si A y D son sim´tricas y todas las inversas existen: e A B B′ D siendo E = D − B ′ A−1 B F = A−1 B ´ Demostracion: Basta efectuar la multiplicaci´n matricial correspondiente. o Un caso particular de inter´s se presenta cuando la matriz particionada e cuya inversa deseamos es del tipo: (X ′ X) X ′ Z Z ′X Z ′Z La aplicaci´n de (A.8) proporciona entonces para el bloque superior izquierdo: o A−1 + F E −1 F ′ = (X ′ X)−1 + + (X ′ X)−1 X ′ Z[Z ′ Z − Z ′ X(X ′ X)−1 X ′ Z]−1 Z ′ X(X ′ X)−1 (A.11) y similarmente para los dem´s bloques. V´ase Seber (1977), p´g. 390 y Myers a e a (1990), p´g. 459. a (A.9) (A.10)
−1

(A.6)

(A.7)

=

A−1 + F E −1 F ′ −F E −1 E −1 F ′ E −1

(A.8)

´ ´ A.2. CALCULO DIFERENCIAL CON NOTACION MATRICIAL

229

A.2.

C´lculo diferencial con notaci´n matria o cial

Hay aqu´ s´lo una breve recopilaci´n de resultados utiles. M´s detalles y ı o o ´ a demostraciones en Abadir and Magnus (2005), Searle (1982) y Magnus and Neudecker (1988). Haremos uso de las siguientes definiciones y notaci´n. o Definici´n A.4 Sea x un vector m × 1 e y una funci´n escalar de x : y = o o f (x1 , . . . , xm ) = f (x ). Entonces:   ∂y  ∂x1   ∂y    ∂y def  ∂x2  =  .  ∂x  .   .  ∂y ∂xm

Si y = x ′ Ax siendo A una matriz cuadrada cualquiera, es inmediato comprobar que: ∂y ∂x = (A + A ′ )x .

En el caso, frecuente, de que A sea sim´trica, tenemos que: e ∂y ∂x = 2A ′ x (A.12)

Hay algunos casos particulares de inter´s. Si y = a ′ x = a1 x1 + . . . + am xm , e siendo a un vector de constantes,   a1 ∂y  .  =  .  = a; . ∂x am

Definici´n A.5 Sea y una funci´n vectorial (n × 1)–valorada de x , vector o o m × 1. Entonces:   ∂y1 ∂y2 ∂yn ... ∂x1   ∂x1 ∂x1  . . .  . .  ∂y def  . . . .  =    ∂x   ∂yn ∂y1 ∂y2 ... ∂xm ∂xm ∂xm

´ 230 APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. si y = Ax , siendo A una matriz (n × m) de constantes, ∂y ∂x = A ′.

Se reproducen a continuaci´n algunos otros resultados utiles: o ´ ∂ loge |A| −1 = [A ′ ] ∂A ∂tr(BA−1 C) = −(A−1 CBA−1 ) ∂A (A.13) (A.14)

A.3.

Lectura recomendada

Hay muchos manuales de ´lgebra lineal en que se pueden encontrar los a resultados anteriores. Entre los particularmente orientados a la Estad´ ıstica, pueden citarse Gentle (2007), Seber (2007), Abadir and Magnus (2005), o Searle (1982). En relaci´n con las cuestiones num´ricas espec´ o e ıficamente relacionadas con la estimaci´n m´ o ınimo-cuadr´tica es todav´ de util consulta a ıa ´ Lawson and Hanson (1974).

Ap´ndice B e

Algunos prerrequisitos estad´ ısticos.
Distribuciones χ2 y F descentradas
indep

B.1.

Sean Xi ∼ N (µi , σ 2 ), (i = 1 . . . , n). Sea δ 2 = (µ2 +. . .+µ2 )/σ 2 . Entonces, 1 n la variable aleatoria
2 2 X1 + . . . + X n σ2

Z=

(B.1)

se dice que sigue una distribuci´n χ2 (δ), o distribuci´n χ2 descentrada con o o n par´metro de no centralidad δ y n grados de libertad. Algunos textos definen a 1 2 a o δ o 2 δ 2 como par´metro de no centralidad; la notaci´n que empleamos es congruente con las Tablas en ?? . Claramente, si δ = 0 se tiene la χ2 habitual o centrada. Si Z ∼ χ2 (δ) y V ∼ χ2 son ambas independientes, la variable aleatoria m n W = nZ mV (B.2)

sigue una distribuci´n Fm,n (δ) o F de Snedecor descentrada, con par´metro o a 2 de no centralidad δ. Si V siguiera una distribuci´n χn (γ), tendr´ o ıamos que 231

232

´ APENDICE B. ALGUNOS PRERREQUISITOS ESTAD´ ISTICOS.

W ser´ una F de Snedecor doblemente descentrada, habitualmente denotaıa da como Fm,n (δ, γ). Siempre nos referiremos al primer tipo, en que solo el numerador es descentrado. La F de Snedecor descentrada es una distribuci´n definida en el semieje o real positivo, cuya forma es similar a la de su hom´loga centrada. Su moda o est´ tanto mas desplazada a la derecha cuanto mayor sea el par´metro de a a no centralidad. El examen del estad´ ıstico de contraste Qh introducido en la Secci´n 12 hace evidente que cuando la hip´tesis contrastada no es cierta, la o o distribuci´n de Qh es descentrada. Ello permite, como ya se indic´, calcular o o con facilidad la potencia de cualquier contraste, si se dispone de tablas de la Fm,n (δ). El ap´ndice A.4 proporciona tablas que permiten calcular la poe tencia de los contrastes en an´lisis de varianza directamente, prefijada una a alternativa.

B.2.

Estimaci´n m´ximo veros´ o a ımil

Se realiza maximizando la funci´n de verosimilitud L(β , y ) o, equivaleno ˆ temente, su logaritmo, ℓ(β , y ). Sea β el vector que maximiza ℓ(β , y ). En condiciones muy generales, se tiene que para muestras grandes ˆ β Σβ ˆ
asint ∼

N (β , Σ β ) ˆ ˆ I(β)
−1

(B.3) (B.4)

ˆ En la expresi´n anterior, I(β) es la llamada matriz de informaci´n cuyo o o elemento gen´rico de lugar ij se define as´ e ı: ˆ I(β) ∂ 2 ℓ(β , y ) . = − ∂βi ∂βj (B.5)

ij

Una consecuencia de (B.3)–(B.4) es que si Σβ es de dimensi´n p × p, o ˆ
′ ′ ˆ ˆ ˆ ˆ ˆ (β − β ) (Σβ )−1 (β − β ) ∼ (β − β ) I(β)(β − β ) ∼ χ2 ; ˆ p

esto permite contrastar hip´tesis como H0 : β = β 0 utilizando como estad´ o ıstico ˆ ˆ (β − β 0 ) I(β 0 )(β − β 0 ) o alternativamente
′ ˆ ˆ ˆ (β − β 0 ) I(β)(β − β 0 ). ′

(B.6)

(B.7)

´ B.3. CONTRASTE RAZON GENERALIZADA DE VEROSIMILITUDES233 Asint´ticamente ambos contrastes son equivalentes, y ambos se conocen como o contrastes de Wald ; pueden consultarse m´s detalles en Lehmann (1983), a Cap. 6 o Garthwaite et al. (1995), Cap. 3 y 4.

B.3.

Contraste raz´n generalizada de verosio militudes

Supongamos una hip´tesis nula H0 que prescribe para el vector de par´o a metros un subespacio h. Supongamos h es un subespacio de M , y dim(h) = q < p = dim(H). Supongamos, finalmente, que L(β , Y ) es la funci´n de o verosimilitud y ˆ βh = arg m´x L(β , Y ) a
β ∈h

(B.8) (B.9)

ˆ βM = arg m´x L(β , Y ). a
β ∈M

Entonces, en condiciones muy generales, que no requieren que Y siga una distribuci´n particular, se verifica que bajo H0 , o −2 loge ˆ L(βh , Y ) ˆ L(βM , Y ) ∼ χ2 . (p−q) (B.10)

Por lo tanto, un contraste de la hip´tesis H0 puede obtenerse comparando el o estad´ ıstico en el lado izquierdo de (B.10) con el cuantil χ2 (p−q);α ; valores del estad´ ıstico mayores que dicho cualtil conducir´n al rechazo de la hip´tesis a o nula.

234

´ APENDICE B. ALGUNOS PRERREQUISITOS ESTAD´ ISTICOS.

Ap´ndice C e

Regresi´n en S-Plus y R. o
C.1. El sistema estad´ ıstico y gr´fico S-Plus a

El lenguaje y sistema estad´ ıstico S fue desarrollado en ATT a principios de los ochenta. Es una s´ ıntesis afortunada de simplicidad, sintaxis consistente, flexibilidad, e integraci´n con el sistema operativo UNIX, sobre el que se o desarroll´ y para el que fue principalmente desarrollado. o Incorpora conceptos y ventajas de muchos lenguajes. El manejo de vectores y matrices, y la facilidad para definirlos, empalmarlos, y operar con ellos recuerda al lenguaje APL. El uso de listas es reminiscente de LISP. La sintaxis, el convenio de paso de argumentos por valor, y la forma de definir funciones son similares a los que existen en C. Sobre todo ello, S a˜ade un n conjunto bastante rico de funciones primitivas que hace f´cil programar casi a cualquier procedimiento. Las facilidades gr´ficas son tambi´n excelentes. a e La referencia fundamental para utilizar S es Becker et al. (1988). Hay una versi´n comercial de S (S-Plus, de Insightful, Inc.) que es un super-conjunto o del S descrito en Becker et al. (1988); para ella existen manuales espec´ ıficos. Las funciones m´s modernas —entre ellas, algunas de inter´s para an´lisis de a e a regresi´n— est´n descritas en Chambers and Hastie (1992). o a

C.2.

El sistema estad´ ıstico y gr´fico R a

R comenz´ siendo un paquete estad´ o ıstico “no muy diferente” de S, cuya funcionalidad pretend´ replicar manteniendo una filosof´ de c´digo fuenıa ıa o 235

236

´ ´ APENDICE C. REGRESION EN S-PLUS Y R.

te disponible. Puede verse una descripci´n en Ihaka and Gentleman (1996). o Adicionalmente puede consultarse Venables et al. (1997) (traducci´n casteo llana Venables et al. (2000)), o el manual Venables and Ripley (1999a) y sus complementos Venables and Ripley (1999b). En la actualidad contin´a manteniendo una buena compatibilidad aunque u con diferencias sustanciales en su arquitectura (que por lo general s´lo precio sa conocer el usuario avanzado). No replica toda la funcionalidad de S-Plus en algunos aspectos, pero la amplia en otros. Esta siendo muy activamente desarrollado por la comunidad universitaria e investigadora internacional. Su f´cil extensibilidad y disponibilidad gratuita hace que sea el paquete en a que primero se implementan m´todos que tardan en encontrar hueco en los e paquetes comerciales. En http://cran.r-project.org/ o sus espejos en los cinco continentes pueden encontrarse las versiones m´s recientes para multitud de sistemas a operativos, las fuentes y los a˜adidos que la comunidad de usuarios ha ido n contribuyendo. Las secciones siguientes describen algunas funciones espec´ ıficas para an´a lisis de regresi´n. Dado que pueden producirse modificaciones de una versi´n o o a otra, la informaci´n autorizada y definitiva debe buscarse en los manuales. o Las mismas funciones est´n disponibles en R, con funcionalidad equivalente a pero posibles ligeras diferencias en los argumentos y resultados. De nuevo la consulta de los manuales o ayuda “on line” es obligada para contrastar lo que sigue. Finalmente, en la Secci´n C.3 se presenta una tabla recogiendo la correso pondencia entre algunas funciones similares de S-Plus y R.

´ C.2. EL SISTEMA ESTAD´ ISTICO Y GRAFICO R

237

C.2.1.

La funci´n lsfit. o

Es el principal bloque constructivo de cualquier procedimiento de regresi´n. Ajusta una regresi´n (opcionalmente ponderada) y devuelve una lista o o con los coeficientes estimados, los residuos, y otra variada informaci´n de o inter´s. La sintaxis es la siguiente: e lsfit(x, y, wt=<<ver texto>>, intercept=T, tolerance=1.e-07, yname=NULL)

Argumentos. Los argumentos obligatorios son los siguientes: x Vector o matriz de regresores. No es preciso inclu´ una columna de “unos”: ır se incluye autom´ticamente a menos que especifiquemos intercept=F. Ha de a tener tantas filas como el argumento y. Puede tener valores perdidos. x puede ser un vector cuando estamos regresando solo sobre una variable. y Variable respuesta. Es un vector, o una matriz. Si se trata de una matriz, se regresa cada una de sus columnas sobre los regresores en x. De esta manera, una sola invocaci´n de lsfit puede realizar un gran n´mero de regresiones, o u cuando los regresores son comunes a todas ellas. Tambien se permiten valores perdidos. Los restantes argumentos son optativos. Si no se especifican, se supone que sus valores son los que aparecen en el ejemplo de sintaxis m´s arriba. Sus a significados son los siguientes: wt Vector de ponderaciones, si se quiere realizar regresi´n ponderada. o Ha de tener la misma longitud que y. Salvo que se especifique, la regresi´n pondera igualmente todas las observaciones. o

intercept Si es T, se incluye una columna de “unos”. Si no deseamos columna de “unos”, es preciso especificar intercept=F. tolerance Valor num´rico para especificar cuando consideramos una matriz e singular. yname Nombre de la variable y en la regresi´n. o

238

´ ´ APENDICE C. REGRESION EN S-PLUS Y R.

Resultados. La funci´n lsfit devuelve una lista con los siguientes como ponentes: ˆ Vector β de estimadores, en forma de matriz con una columna para cada regresi´n, si se han hecho varias a la vez. o

coef

residuals Vector (o matriz, si y era una matriz) conteniendo los residuos ordinarios ǫ. ˆ wt Si especificamos ponderaciones, nos son devueltas inalteradas. Esto es util si guardamos la lista de resultados, pues permite con poste´ rioridad saber a qu´ tipo de regresi´n corresponden. e o

intercept Valor l´gico, T ´ F. o o qr Objeto representando la factorizaci´n QR de la matriz x de regreo sores. V´ase la funci´n qr en Becker et al. (1988). Tiene utilidad e o para computar algunos resultados.

C.2.2.

La funci´n leaps. o

La funci´n leaps realiza all-subsets regresi´n. No debe invocarse con un o o n´mero excesivo de regresores, al crecer el esfuerzo de c´lculo exponencialu a mente con ´ste. e La sintaxis es:

leaps(x, y, wt, int=TRUE, method=

Cp³³, nbest=10, names, df=nrow(x))

Argumentos. Los argumentos x, y, wt tienen el mismo significado que en la funci´n lsfit. El argumento int se utiliza para indicar si se desea o inclu´ columna de “unos” (por omisi´n, s´ Los dem´s argumentos tienen los ır o ı). a

´ C.2. EL SISTEMA ESTAD´ ISTICO Y GRAFICO R siguientes significados:

239

method Argumento alfanum´rico (entre dobles comillas, por tanto) especifie cando el criterio que se desea emplear en la selecci´n de las mejores o regresiones. Puede ser “Cp” (Cp de Mallows, el valor por omisi´n), o 2 “r2” (el R2 ), y “adjr2” (valor R ). nbest names df N´mero de regresiones que deseamos para cada tama˜o de modelo. u n Vector de nombres de los regresores. Grados de libertad de y (puede no coincidir con el n´mero de filas u si ha sido previamente objeto de alguna manipulaci´n. Un caso freo cuente en Econom´ es la desestacionalizaci´n, que consume grados ıa o de libertad.

Resultados. Retorna una lista con cuatro elementos: Cp size label which Criterio de ajuste especificado como argumento. N´mero de regresores (incluyendo, en su caso, la columna de “unos”. u Vector de nombres de los regresores. Matriz l´gica. Tiene tantas filas como subconjuntos de regresores o devueltos, y la fila i-´sima tiene valores T ´ F seg´n el regresor e o u correspondiente haya sido o no seleccionado en el i-´simo subcone junto.

C.2.3.

La funci´n hat. o

Se invoca as´ ı: hat(x, int=TRUE) en que x es argumento obligatorio y es la matriz de regresores. El argumento int toma el valor T por omisi´n y se˜ala si se desea inclu´ en la matrix x o n ır columna de “unos”. La funci´n devuelve un vector con los elementos diagonales de la matriz o de proyecci´n X(X ′ X)−1 X ′ (los pii del Cap´ o ıtulo 11).

240

´ ´ APENDICE C. REGRESION EN S-PLUS Y R.

C.2.4.

La funci´n lm. o

La funci´n lm ajusta un modelo lineal. La sintaxis es: o lm(formula,data,weights,subset,na.action,method="qr", model=F,x=F,y=F,...) Argumentos. El argumento weights se utiliza para hacer regresi´n pono derada, de modo similar a como se hace con lsfit. Los dem´s argumentos a tienen los siguientes significados: method M´todo de ajuste a emplear. Por omisi´n, se utiliza la factorizaci´n e o o QR. Una “data frame” conteniendo los datos tanto de regresores como de variable respuesta. Una expresi´n o del tipo Resp ∼ Regr01 + Regre02 + log(Regre03) en que a la izquierda est´ el regresando y a a la derecha los regresores o funciones de ellos. Criterio para seleccionar las filas de la tabla de datos que deseamos emplear.

data

formula

subset

na.action Acci´n a tomar cuando alg´n dato en una fila de la tabla de datos o u es NA. Por omisi´n es omitir dicha fila. o model,x,y Seleccionando estos argumentos como T se obtienen como resultado. Resultados. Retorna un objeto de tipo lm.object, una estructura de datos compuesta que contiene los resultados del ajuste. Hay funciones especializadas en extraer los resultados y presentarlos de modo ordenado. Por ejemplo, summary(), residuals(), coefficients() o effects(). Por otra parte, el car´cter objeto-orientado de S-Plus (una descripci´n de esto rea o ferida a XLisp-Stat en la Secci´n ??) hace que funciones como print() o aplicadas a un objeto de tipo lm.object “sepan” como imprimirlo. Debe invocarse tras lm y ls y sobre los objetos que ´stas devuelven. e

C.2.5.

La funci´n lm.influence. o

La sintaxis es: lm.influence(ajuste)

´ C.2. EL SISTEMA ESTAD´ ISTICO Y GRAFICO R

241

Argumentos. ajuste es un objeto de tipo lm.object devuelto por lm. Resultados. La funci´n lm.influence devuelve (salvo una constante) los o coeficientes de la curva de influencia muestral (SIC).

C.2.6.

La funci´n ls.diag. o

La sintaxis es: ls.diag(ls) Argumentos. La funci´n ls.diag se invoca con un objeto de tipo ls (deo vuelto por lsfit) por argumento. Resultados. Produce como resultado una lista con los componentes siguientes: std.dev hat =σ=
SSE . N −p

Los pii , elementos diagonales de la matriz de proyecci´n P = o ′ ′ −1 X(X X) X . Residuos internamente studentizados (los ri en la notaci´n del Cao p´ ıtulo 11). Residuos externamente studentizados (los ti en la notaci´n del Cao p´ ıtulo 11). Un vector conteniendo las distancias de Cook (Di en la notaci´n o del Cap´ ıtulo 11). Un vector conteniendo los DFITS mencionados en el Cap´ ıtulo 11). Matriz de correlaci´n de los par´metros estimados (es decir, la mao a triz de correlaci´n obtenida de la de covarianzas σ 2 (X ′ X)−1 ). o ˆ Desviaciones t´ ıpicas estimadas de los par´metros estimados, σβi . a ˆˆ

std.res

stud.res

cooks

dfits correlation

std.err

cov.unscaled Matriz de momentos (X ′ X)−1 .

242

´ ´ APENDICE C. REGRESION EN S-PLUS Y R.

C.3.

Correspondencia de funciones para regresi´n y ANOVA en S-Plus y R o

Cuadro C.1: Equivalencia de funciones para regresi´n y ANOVA en S-Plus o y R.

En S-Plus add1 drop1 leaps ls.diag lsfit lm lm.influence multicomp step stepwise -

En R Paquete: Funcionalidad: add1 base A˜adir un regresor n drop1 base Eliminar un regresor leaps leaps Regresi´n sobre todos los subconjuntos o ls.diag base Diagn´sticos o lsfit base Ajuste recta regresi´n o lm base Ajuste recta de regresi´n o lm.influence base An´lisis de influencia a Inferencia simult´nea a regsubsets leaps Regresi´n sobre todos los subconjuntos o step base Regresi´n escalonada o Regresi´n escalonada o stepAIC MASS Regresi´n escalonada o p.adjust base Ajuste p por simultaneidad pairwise.t.test ctest Contrastes m´s usuales a lm.ridge MASS Regresi´n ridge o

Adem´s de las indicadas en la Tabla C.1, en R se dispone del paquete a multcomp con varias funciones espec´ ıficas para inferencia simult´nea. a

Ap´ndice D e

Procedimientos de c´lculo. a

D.1.

Introducci´n o
(X ′ X)β = X ′ Y

La resoluci´n de las ecuaciones normales, o

requiere, en su aproximaci´n m´s directa, la obtenci´n de la inversa (ordio a o naria o generalizada) de (X ′ X). Hay procedimientos mucho menos costosos desde el punto de vista del c´lculo que, adem´s, permiten en algunos casos a a intuiciones interesantes y demostraciones de gran simplicidad. En lo que sigue se presenta uno de los m´todos de c´lculo m´s utilizados, e a a y la construcci´n en que se basa (la factorizaci´n QR). Se detalla tambi´n o o e la correspondencia entre la notaci´n empleada y los resultados de algunas o funciones de S que hacen uso de dicha factorizaci´n. o

D.2.

Transformaciones ortogonales.
m´ ||Dx − c ||2 ın
x

Sea el problema, (D.1)

Podemos ver el problema como el de encontrar la combinaci´n lineal de las coo lumnas de D que mejor aproxima c , en t´rminos de norma de la discrepancia. e 243

244

´ ´ APENDICE D. PROCEDIMIENTOS DE CALCULO.

Dicho problema queda inalterado cuando realizamos una misma transformaci´n ortogonal de las columnas de D y del vector c . En efecto, o m´ ||Q(Dx − c )||2 = m´ < Q(Dx − c ), Q(Dx − c ) > ın ın
x x

= m´ (Dx − c ) ′ Q ′ Q(Dx − c ) ın
x

= m´ ||Dx − c ||2 ın
x

al ser Q ortogonal. Definici´n D.1 Sea D una matriz de orden n × m. Supongamos que puede o expresarse del siguiente modo: D = HRK ′ en que: (i) H es n × n y ortogonal. (ii) R es n × m de la forma, R11 0 0 0 con R11 cuadrada de rango completo k ≤ m´ ın(m, n). (iii) K es m × m ortogonal. Se dice que HRK ′ es una descomposici´n ortogonal de D. o En general, hay m´s de una descomposici´n ortogonal, dependiendo de a o la estructura que quiera imponerse a R. Si requerimos que R sea diagonal, tenemos la descomposici´n en valores singulares. Podemos tambi´n requerir o e que R sea triangular superior, o triangular inferior, obteniendo diferentes descomposiciones de D. La elecci´n de una descomposici´n ortogonal adecuada simplifica enormeo o mente la soluci´n de (D.1). Los resultados fundamentales vienen recogidos o en el siguiente teorema. Teorema D.1 Sea D una matriz de orden n × m y rango k, admitiendo la descomposici´n ortogonal, o D = HRK ′ . (D.2)

D.2. TRANSFORMACIONES ORTOGONALES. Sea el problema m´ ||Dx − y ||2 ın
x

245

(D.3)

y definamos, H ′y = g = g1 g2 γ1 γ2 k n−k

K ′x = γ = Sea γ1 la soluci´n (´nica) del sistema, ˜ o u

k . m−k

R11 γ1 = g 1 . ˜ Entonces, todas las posibles soluciones del problema (D.3) son de la forma x = K γ1 ˜ , γ2

con γ2 arbitrario. Cualquiera de esas soluciones da lugar al vector de residuos r = y − Dx = H 0 g2

y en consecuencia, ||r || = ||g 2 ||. Existe un resultado interesante que muestra c´mo es posible encontrar una o transformaci´n ortogonal que rota (y quiz´ refleja) un vector v hasta abatirlo o a sobre el subespacio generado por otro, e1 . Se denomina transformaci´n de o Householder, y se obtiene de manera muy c´moda y simple como muestra el o teorema siguiente. Teorema D.2 Sea v cualquier vector m×1 distinto de 0 . Existe una matriz ortogonal P m × m tal que: Pv siendo   1 0   = . . . 0 +1 −1 = −σ||v ||e1 (D.4)

e1

(D.5)

σ =

si v1 ≥ 0 si v1 < 0.

(D.6)

246

´ ´ APENDICE D. PROCEDIMIENTOS DE CALCULO. Figura D.1: Visualizaci´n de la transformaci´n de Householder. o o v u = v + ||v ||e1

−σ||v ||e1 e1 ||v ||e1

− 2u (u||2v ) ||u

Esta matriz tiene por expresi´n, o uu ′ P = I −2 ||u ||2 con u = v + σ||v ||e1 . ´ Demostracion: Entonces (ver Figura D.1), u = v + σ||v ||e1 z = v − σ||v ||e1
1 1 son ortogonales y v = 2 u + 2 z . Tenemos en consecuencia,

(D.7)

(D.8) (D.9)

Pv

= = = = =

1 1 uu ′ u+ z I −2 2 ||u || 2 2 1 1 u −u + z 2 2 1 1 − u +v − u 2 2 v −u −σ||v ||e1

(D.10) (D.11) (D.12) (D.13) (D.14)

´ D.3. FACTORIZACION QR.

247

D.3.

Factorizaci´n QR. o

Teorema D.3 Sea una matriz X de orden (N × p) y rango d ≤ m´ ın(N, p). Existe siempre una matriz ortogonal Q de orden (N × N ) y una matriz R trapezoidal superior verificando: X = QR Esquem´ticamente, a X Q R (D.15)

N

=

d ´ Demostracion:

d

N −d

d

La prueba es constructiva, y reposa en la aplicaci´n reiterada de la transo formaci´n de Householder a las columna de la matriz X. Sea x1 la primera o de dichas columnas. Existe una transformaci´n de Householder, de matriz oro togonal P1 que abate dicha primera columna sobre el e1 de la base can´nica o n de R . Es decir,

P1 X =

Llamemos X1 a la matriz as´ obtenida, y consideremos su segunda columna ı eliminado su primer elemento. Los restantes, pueden verse como un vector en RN −1 , que puede tambien abatirse sobre el primer vector e1 de la base

248

´ ´ APENDICE D. PROCEDIMIENTOS DE CALCULO.

can´nica de dicho subespacio multiplicando por una matriz de Householder o ∗ P2 . Entonces, 1 0 ∗ 0 P2

P1

(D.16)

D.4. BIBLIOGRAF´ IA

249

reduce la matriz X de la forma que esquem´ticamente se muestra a cona tinuaci´n: o

1 0 ∗ 0 P2

P1 X =

Por consiguiente, si llamamos P2 = 1 0 ∗ 0 P2

el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Como tanto P1 como P2 son ortogonales, su producto tambi´n lo es. F´cilmene a te se comprueba que el proceso puede continuarse hasta obtener un producto de matrices ortogonales Q ′ = Pd Pd−1 . . . P1 que deja X con sus d primeras columnas “escalonadas”. Adem´s, como el rango de X era d, necesariamente a las ultimas N − d filas de R son de ceros. ´ En definitiva, Q ′ X = R y por tanto X = QR, lo que prueba el teorema.

D.4.

Bibliograf´ ıa

Hay abundante literatura sobre la factorizaci´n QR y procedimientos sio milares de aplicaci´n al problema (D.1). Casi cualquier texto de C´lculo o a Num´rico contiene una discusi´n de la factorizaci´n QR. Una referencia fune o o damental que contin´a vigente es Lawson and Hanson (1974). Una exposici´n u o breve, clara, y con abundantes referencias a la literatura m´s reciente puea de encontrarse en Goodhall (1993). Ansley (1985) muestra como, al margen y adem´s de su utilidad como procedimiento num´rico, la factorizaci´n QR a e o arroja luz sobre, y simplifica la demostraci´n de, bastantes resultados en o regresi´n lineal. o

250

´ ´ APENDICE D. PROCEDIMIENTOS DE CALCULO.

Ap´ndice E e

Enunciados y demostraciones formales
Se incluyen aqu´ teoremas, desarrollos y demostraciones omitidos en el ı curso de la exposici´n, por su nivel de formalismo o por no ser esenciales. o

E.1.

Existencia y unicidad de proyecciones.

Definici´n E.1 Sea {vn } una sucesi´n de vectores en H, espacio vectorial o o sobre el cuerpo de los n´meros reales R con las operaciones “suma” de vectores u y “producto” por n´meros reales, definidas ambas del modo usual. Supongau mos definido sobre H un producto interno < ·, · > y correspondiente norma v 2 = < v, v >. Decimos que {vn } es una sucesi´n de Cauchy si para o cualquier δ > 0 hay un N (δ) tal que ∀m, n ≥ N (δ), vn − vm < δ; es decir, si prefijado un δ arbitrariamente peque˜o, existe siempre un N (δ) n tal que cualesquiera vectores vm , vn que aparezcan en la sucesi´n en lugar o posterior al N (δ) distan entre s´ menos de δ. ı Definici´n E.2 Sea H un espacio vectorial como en la Definici´n E.1. Deo o cimos que tiene estructura de espacio de Hilbert si es completo, es decir, si contiene los l´ ımites de todas las sucesiones de Cauchy de vectores en H, infinito-dimensional y separable. Cualquier subespacio vectorial de un espacio de Hilbert, es a su vez espacio de Hilbert. 251

´ 252 APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES Teorema E.1 Sea H un espacio de Hilbert, y M un subespacio del mismo. Para cualquier vector y ∈ H existe siempre un unico vector v = PM y , ´ proyecci´n de y sobre M . Se verifica que: o y −v
2

=

m´ y − z ın
z∈M

2

.

(E.1)

Demostraci´n. Veamos1 primero la existencia. Sea d = o m´ z∈M y − z 2 . Entonces, necesariamente existir´ en M alg´n vecın a u tor v 1 tal que: y − v1 2 ≤ d + 1; de no haberlo, m´ y − z 2 ın tendr´ que ser mayor que d + 1, contra la hip´tesis. An´logamente, ıa o a para cualquier n´mero natural n existir´ vn verificando: y − vn 2 ≤ u a d +1/n. Mostraremos que la sucesi´n {vn } es de Cauchy. Mostraremos o tambi´n que su l´ e ımite –´nico– verifica las condiciones definitorias de u proyecci´n de y sobre M . Probaremos, en fin, que ning´n otro vector o u en M distinto del l´ ımite anterior verifica las mismas condiciones, as´ ı como la propiedad de m´ ınima distancia en el enunciado. Sea:
2 2

D=

(y − vn ) − (y − vm )

+ (y − vn ) + (y − vm )

(E.2)

Podemos escribir: D = + = (y − vn )
2

2 (y − vn )

(y − vn )

+ (y − vm )
2 2

2

+ 2 (y − vm )

+ (y − vm )

− 2 < (y − vm ), (y − vn ) >
2 2

.

+ 2 < (y − vm ), (y − vn ) >

(E.3)

Por otra parte, tenemos: D = = (vm − vn )
2 2
1 + 2y − 2 ( 2 ) (vn + vm )

2 2

(vm − vn )

1 + 4 y − ( 2 ) (vn + vm )

.

(E.4)

Igualando (E.3) y (E.4) obtenemos: vm − vn
1

2

=

−4 y − ( 1 ) (vn + vm ) 2

2 y − vn

2

+ 2 y − vm
2

2

.

(E.5)

Demostraci´n tomada de Anderson (1971). Es m´s general de lo que estrictamente o a necesitamos, pero merece la pena enunciar este Teorema as´ para poderlo emplear inalteı rado en otros contextos (por ejemplo, en predicci´n lineal de procesos estoc´sticos). Una o a demostraci´n m´s simple y menos general puede encontrarse en Arnold (1981), p´g. 34. o a a

E.1. EXISTENCIA Y UNICIDAD DE PROYECCIONES.
Como la norma al cuadrado del ultimo t´rmino de (E.5) es al menos ´ e d, tenemos: vm − vn
2

253

≤ 2 (y − vn ) (y − vn )
2 2

2

+ 2 (y − vm )

2

− 4d

(E.6)

Sea δ > 0. Para m, n mayores que N (δ/4), tenemos: ≤ d + δ/4 (E.7) (E.8)

(y − vm ) (vm − vn )
2

≤ d + δ/4.

Sustituyendo ´sto en (E.5) obtenemos: e ≤ 2(d + δ/4) + 2(d + δ/4) − 4d = δ, (E.9)

luego la sucesi´n {vn } es de Cauchy. Tendr´ por tanto un l´ o a ımite unico ´ v en M (M es completo), y f´cilmente se deduce que y − v 2 = d. a Por otra parte, para cualquier z ∈ M y para cualquier α real se tiene: y − v − αz
2

=

= d+α ≥ d.

y −v
2

2

+ α2 z
2

2

z

− 2α < y − v, z >

− 2α < y − v, z (E.10) >

(E.11) (E.12)

Por tanto: α2 z
2

− 2α < y − v, z > α
2

z

2

0,

(E.13)

2α < y − v, z > . (E.14)

Como (E.14) se ha de cumplir para cualquier posible valor de α, ha de suceder que < y − v, z >= 0, y como z es arbitrario en M , se deduce que (y − v) ⊥ M . Como adem´s hemos visto que v ∈ M , tenemos a que v es proyecci´n de y en M (Definici´n 1.1). El desarrollo anterior o o muestra tambi´n que v es la mejor aproximaci´n de y por un vector e o de M (en t´rminos de la norma definida). e Veamos, en fin, que ning´n otro vector u ∈ M, u = v puede ser u proyecci´n de y en M , ni verificar y − u 2 = d. Supongamos que o hubiera un tal u. Entonces, (y − u) = (y − v) + (v − u). Adem´s, a (y − v) ⊥ M , y (v − u) ∈ M . Por tanto, y −u
2

= = = ≥

y −v

y −v

< (y − v) + (v − u), (y − v) + (v − u) >
2 2

< y − u, y − u >

,

+ v−u

2

+ 2 < y − v, v − u >
2

ya que 2 < y − v, v − u > = 0, implicar´ u = v. ıa

v−u

≥ 0, y

v−u

2

= 0

´ 254 APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES Observaci´n E.1 ¿Qu´ trascendencia tiene en el enunciado del o e
Teorema E.1 que H (y, en consecuencia, su subespacio M ) tengan estructura de espacio de Hilbert? Examinando la demostraci´n del o Teorema E.1, vemos que se da por supuesta la existencia en M del l´ ımite de la sucesi´n {vn } construida. Si M no fuera espacio de Hilbert, o tal l´ ımite podr´ no existir en M . ıa

Observaci´n E.2 o ¿Debemos preocuparnos de verificar que estamos ante un espacio de Hilbert? ¿C´mo hacerlo? Cuando o los regresores generan un espacio de dimension finita, nada de ello es preciso. Cuando se hace an´lisis de series temporales, la mejor predica ci´n lineal en el momento t del valor de la misma en t + 1 (predicci´n o o una etapa hacia adelante) se hace proyectando yt+1 sobre el subespacio que generan yt , yt−1 , yt−2 , . . . (todo el “pasado” de la serie). Este “pasado”, al menos en principio, puede ser infinito dimensional y aqu´ s´ ı ı tiene objeto suponer que genera un espacio de Hilbert para garantizar la existencia de la proyecci´n. o N´tese, incidentalmente, que en este problema emplear´ o ıamos una norma que no ser´ la eucl´ ıa ıdea ordinaria, sino la inducida por el producto interno < yt , ys >= E[yt ys ] (supuesta estacionariedad y media cero). Pueden verse m´s detalles en la obra ya citada Anderson (1971), a Secci´n 7.6. Ejemplos del uso del espacio de Hilbert en series tempoo rales pueden verse en Davis (1977), Cap. 2, o Shumway and Stoffer (2006), Ap´ndice B.1. e

E.2.

Proyecci´n sobre subespacios h = M ∩ o K(B).

El Lema 4.4 dec´ ıa: Sea B una matriz cualquiera, y K(B) el n´cleo de la apliu caci´n lineal que representa. Sea M un subespacio de H y h = o M ∩ K(B). Entonces, M ∩ h⊥ = R(PM B ′ ). ´ Demostracion: En primer lugar, M ∩ h⊥ puede expresarse de otro modo que har´ m´s a a simple la demostraci´n. En efecto, o M ∩ h⊥ = M ∩ R(B ′ ); v´ase el Ejercicio 4.2, p´g. 58. e a (E.15)

´ E.2. PROYECCION SOBRE SUBESPACIOS H = M ∩ K(B).

255

Probaremos ahora que ambos subespacios considerados en el enunciado son el mismo, utilizando la expresi´n (E.15), y mostrando la mutua inclusi´n. o o i) M ∩ h⊥ ⊆ R(PM B ′ ). En efecto, x ∈ M ∩ h⊥ =⇒ =⇒ =⇒ =⇒ =⇒ x ∈ M ∩ R(B ′ ) ∃a : x = B ′ a PM x = PM B ′ a x = PM B ′ a x ∈ R(PM B ′ )

ii) M ∩ h⊥ ⊇ R(PM B ′ ). Es inmediato, ya que, x ∈ R(PM B ′ ) =⇒ x ∈ R(PM ) =⇒ x ∈ M Sea ahora z ∈ h. Entonces, como h = M ∩ K(B), z ∈ M y z ∈ K(B). Por tanto: < x, z > = x ′ z = a ′ BPM z = a ′ Bz = 0 Por tanto, x ∈ M y adem´s x ⊥ h, luego x ∈ M ∩ h⊥ , lo que prueba ii) y a finaliza la demostraci´n del lema. o

´ 256 APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES

Bibliograf´ ıa
Abadir, K. and Magnus, J. (2005). Matrix Algebra. Cambridge Univ. Press. Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model Identification. In Proc. 5th. Hawai Int. Conf. on System Sciences, pp. 249–250. Akaike, H. (1974). Information Theory and an Extension of the Maximum Likelihood Principle. In B. N. Petrov and F. Csaki, editors, Second International Symposium on Information Theory, pp. 267–281, Budapest: Akademia Kiado. Akaike, H. (1991). Information Theory and an Extension of the Maximum Likelihood Principle. In Johnson and Kotz, editors, Breakthroughs in Statistics, volume 1, p. 610 y ss., Springer Verlag. Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York: Wiley. Ansley, C. F. (1985). Quick Proofs of Some Regression Theorems Via the QR Algorithm. As, 39, 55–59. Arnold, S. F. (1981). The Theory of Linear Models and Multivariate Analysis. New York: Wiley. Atkinson, A. C. (1985). Plots, Transformations and Regression. Oxford Univ. Press. Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York: Wiley. Becker, R. A., Chambers, J. M., and Wilks, A. R. (1988). The New S Language. A Programming Environment for Data Analysis and Graphics. Pacific Grove, California: Wadsworth & Brooks/Cole. 257

258

BIBLIOGRAF´ IA

Belsley, D. A., Kuh, E., and Welsch., R. E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: Wiley. Ben-Israel, A. and Greville, T. N. E. (1974). Generalized Inverses: Theory and Aplications. New York: Wiley. Bishop, C. M. (1996). Neural Networks for Pattern Recognition. Oxford: Clarendon Press. Box, G. E. P. and Tidwell, P. W. (1962). Transformations of the Independent Variables. Technometrics, 4, 531–550. Brown, P. J. (1993). Measurement, Regression and Calibration. Clarendon Press/Oxford, Signatura: 519.235.5 BRO. Chambers, J. M. (1998). Programming with Data. Mathsoft. Chambers, J. M. and Hastie, T. J. (1992). Statistical Models in S. Pacific Grove, Ca.: Wadsworth & Brooks/Cole. Cook, R. D. and Weisberg, S. (1982). Residuals and Influence in Regression. New York: Chapman and Hall. Cox, D. R. and Hinkley, D. V. (1974). Theoretical Statistics. London: Chapman and Hall, 1979th edition. Cox, D. R. and Hinkley, D. V. (1978). Problems and Solutions in Theoretical Statistics. London: Chapman & Hall. Dahlquist, G. and Bj¨rck, ˚ (1974). Numerical Methods. Englewood Cliffs, o A. N.J.: Prentice Hall. Dalgaard, P. (2002). Introductory Statistics with R. Statistics and Computing, Springer-Verlag, Signatura: 519.682 DAL. Davis, M. H. A. (1977). Linear Estimation and Stochastic Control. Chapman and Hall. de Leeuw, J. (2000). Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike. Disponible en http://www.stat.ucla.edu/~deleeuw/work/research.phtml. Draper, N. R. and Smith, H. (1998). Applied Regression Analysis. Wiley, third edition, Signatura: 519.233.5 DRA.

BIBLIOGRAF´ IA

259

Eubank, R. L. (1988). Spline Smoothing and Nonparametric Regression. New York: Marcel Dekker. Faraway, J. J. (2005). Linear Models with R. Chapman & Hall/CRC, Signatura: 519.233 FAR. Fox, J. (2002). An R and S-Plus Companion to Applied Regression. Sage Pub. Garthwaite, P. H., Jolliffe, I. T., and Jones, B. (1995). Statistical Inference. London: Prentice Hall. Gentle, J. (2007). Matrix Algebra: Theory, Computations, and Applications in Statistics. Springer. Goodhall, C. R. (1993). Computation Using the QR Decomposition. In C. R. Rao, editor, Handbook of Statistics, chapter 13, pp. 467–508, Amsterdam: North-Holland. Grafe, J. H. (1985). Matem´ticas Universitarias. Madrid: MacGraw-Hill. a Gunst, R. F. and Mason, R. L. (1980). Regression Analysis and Ist Applications. A Data Oriented Approach. New York: Marcel Dekker, Inc. Haitovsky, Y. (1969). A Note on Maximization of R . As, 23, 20–21. Harrell, F. E. (2001). Regression Modelling Strategies. Springer-Verlag, Signatura: 519.233.5 HAR. Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer-Verlag, Signatura: 519.237.8 HAS. Hawkins, D. M. (1980). Identification of Outliers. London: Chapman & Hall. Haykin, S. (1998). Neural Networks. A Comprehensive Foundation. Prentice Hall, second edition. Hocking, R. R. (1976). The Analysis and Selection of Variables in Linear Regression. Biometrics, 32, 1–49. Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Non-Orthogonal Problems. Technometrics, 12, 55–67. Hoerl, A. E., Kennard, R. W., and Baldwin, K. F. (1975). Ridge Regression: Some Simulations. Cstat, 4, 105–123.
2

260

BIBLIOGRAF´ IA

Hosmer, D. W. and Lemeshow, S. (1989). Applied Logistic Regression. Wiley. Ihaka, R. and Gentleman, R. (1996). R: a Language for Data Analysis and Graphics. J. of Comp. and Graphical Stats., 5, 299–314. Jolliffe, I. T. (1986). Principal Components Analysis. New York: SpringerVerlag. Kennedy, W. J. (1980). Statistical Computing. New York: Marcel Dekker. Kleinbaum, D. G. (1994). Logistic Regression. A Self-Learning Test. Springer Verlag. Knuth, D. (1986). The TEX Book. Reading, Mass.: Addison Wesley. Knuth, D. K. (1968). Fundamental Algorithms. In The Art of Computer Programming, volume 1, Reading, Mass.: Addison-Wesley. Kuhnert, P. and Venables, W. (2005). An Introduction to R: Software for Statistical Modelling and Computing. CSIRO Mathematical and Information Sciences, Cleveland, Australia. Lange, K. (1998). Numerical Analysis for Statisticians. Springer, Signatura: 519.6 LAN. Lawless, J. F. and Wang, P. (1976). A Simulation Study of Ridge and Other Regression Estimators. Communications in Statistics, 5, 307–323. Lawson, C. L. and Hanson, R. J. (1974). Solving Least Squares Problems. Englewood Cliffs, N.J.: Prentice-Hall. Legg, S. (1996). Minimum Information Estimation of Linear Regression Models. In D. L. Dowe, K. B. Korb, and J. J. Oliver, editors, ISIS: Information, Statistics and Induction in Science, pp. 103–111, Singapore: World Scientific. Lehmann, E. L. (1983). Theory of Point Estimation. New York: Wiley. Lund, R. E. (1975). Tables for the Approximate Test for Outliers in Linear Regression. Technometrics, 17, 473–476. Magnus, J. and Neudecker, H. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley. Maindonald, J. H. (2000). Data Analysis and Graphics Using R - An Introduction.

BIBLIOGRAF´ IA

261

Miller, A. (2002). Subset Selection In Regression, Second Editon. Chapman & Hall/CRC. Myers, R. H. (1990). Classical and Modern Regression with Applications. Boston: PWS-KENT Pub. Co. Pe˜a, D. (2002). Regresi´n y Dise˜o de Experimentos. Alianza Editorial. n o n Rao, C. R. and Mitra, S. K. (1971). Generalized Inverse of Matrices and Its Applications. John Wiley & Sons, New York [etc.]. Ripley, B. D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, 519.237.8 RIP. Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. Singapore: World Scientific. Ryan, T. P. (1997). Modern Regression Methods. Wiley, Signatura: 519.233.4 RYA. Searle, S. R. (1971). Linear Models. New York: Wiley. Searle, S. R. (1982). Matrix Algebra Useful for Statistics. Wiley. Seber, G. (2007). A Matrix Handbook for Statisticians. Wiley. Seber, G. A. F. (1977). Linear Regression Analysis. New York: Wiley. Shapiro, S. S. and Francia, R. S. (1972). An Approximate Analysis of Variance Test for Normality. Jasa, 67, 215–216. Shapiro, S. S. and Wilk, M. B. (1965). An Analysis of Variance Test for Normality (complete Samples). Biometrika, 52, 591–611. Shumway, R. H. and Stoffer, D. S. (2006). Time Series Analysis and Its Applications. With R Examples. Springer Verlag. Silvey, S. D. (1969). Multicollinearity and Imprecise Estimation. Jrssb, 31, 539–552. Silvey, S. D. (1980). Optimal Design. London: Chapman & Hall. Stapleton, J. H. (1995). Linear Statistical Models. New York: Wiley. Theil, H. (1971). Principles of Econometrics. New York: Wiley.

262

BIBLIOGRAF´ IA

Thisted, R. A. (1988). Elements of Statistical Computing. New York: Chapman & Hall. Troc´niz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU. o Troc´niz, A. F. (1987b). Probabilidades. Estad´ o ıstica. Muestreo. Madrid: Tebar-Flores. Tusell, F. (2003). Estad´ ıstica Matem´tica. 154 p., notas de clase. a Ugarte, M., Militino, A., and Arnholt, A. (2008). Probability and Statistics with R. CRC Press. Venables, B., Smith, D., Gentleman, R., and Ihaka, R. (1997). Notes on R: A Programming Environment for Data Analysis and Graphics. Dept. of Statistics, University of Adelaide and University of Auckland, Available at http://cran.at.r-project.org/doc/R-intro.pdf. Venables, B., Smith, D., Gentleman, R., Ihaka, R., and M¨chler, M. (2000). a Notas sobre R: Un Entorno de Programaci´n para An´lisis de Datos y o a Gr´ficos. Traducci´n espa˜ola de A. Gonz´lez y S. Gonz´lez. a o n a a Venables, W. and Ripley, B. (1999a). Modern Applied Statistics with S-Plus. New York: Springer-Verlag, third edition. Venables, W. and Ripley, B. D. (1999b). R Complements to Modern Applied Statistics with S-Plus. En http://www.stats.ox.ac.uk/pub/MASS3. Wang, C. (1993). Sense and Nonsense of Statistical Inference. New York: Marcel Dekker. Webster, J. T., Gunst, R. F., and Mason, R. L. (1974). Latent Root Regression Analysis. Technometrics, 16, 513–522.

´ Indice alfab´tico e

Cp an´logo en regresi´n logit, 226 a o criterio, 190 p-value, 112 t-ratio, 82 (MCO), 4 variance inflation factor, 131 dataframe, 92 leave-one-out, 194 log odds, 221 odds, 221 relative odds ratio, 222 splines, 14 stepwise regression, 197 glm R, 94 lm R, 94 model.matrix R, 94 all subsets regresi´n, 196 o outliers, 173 studentizaci´n, 173 o AIC, 226 Akaike criterio AIC, 226 aprendizaje muestra, 193 bondad de ajuste, 187 Bonferroni desigualdad de primer orden, 117 Box-Cox transformaci´n, 215 o Box-Tidwell

transformaci´n, 213 o caso de referencia, 49, 97 Cauchy sucesi´n de, 253 o Cobb-Douglas funci´n de producci´n, 51 o o coeficiente de determinaci´n corregido, 188 o complejidad estoc´stica a como criterio en la selecci´n de modelos, o 195 completo espacio, 253 componentes principales definici´n, 156 o regresi´n, 142 o contraste raz´n de verosimilitudes, 77, 217, 235 o contrastes de Wald, 234 Cook distancia de, 179 correlaci´n m´ ltiple o u coeficiente de, 29, 82 criterio AIC, para selecci´n de modelos, 226 o m´ ınimo cuadr´tico ordinario (MCO), 4 a curva de influencia emp´ ırica, 178 D-optimalidad, 140 dataframe, 102 datos experimentales, 58 observados, 58 descomposici´n o en valores singulares, 246

263

264
ortogonal de una matriz, 246 desigualdad de Bonferroni, 117 desviaci´n, 225, 227 o en modelos logit, 225 dise˜ o n o ´ptimo, 128 experimental, 5 matriz de, 5 distancia de Cook, 179 distribuci´n o χ2 descentrada, 233 F descentrada, 233 ECM, error cuadr´tico medio, 141 a ecuaciones normales, 16 EIC, 178 end´gena, variable, 3 o entrenamiento muestra, 193 error de predicci´n o varianza, 84 estad´ ıstico t, 82 estimable forma lineal, 127, 141 funci´n, 45 o estimaci´n o sesgada, 141 estimaci´n imprecisa, 141 o eucl´ ıdea norma, 229 f´rmulas o en R, 94 factor en R, 89 niveles, 90 factor de incremento de varianza, 131 factorizaci´n o QR, 24, 245 funci´n estimable, 45 o funciones en R, 10 Gauss-Markov teorema, 19 teorema, extensi´n, 36 o grados de libertad, 6, 23

´ ´ INDICE ALFABETICO
Gram-Schmidt ortogonalizaci´n, 32 o Hilbert espacio de, 253 Householder ver transformaci´n, 247 o identificaci´n o multicolinealidad aproximada, 127 restricciones, 47 ineficiente estimador, 143 influencia muestral, SIC, 177, 243 insesgadez de un estimador, 19 ˆ del estimador β, 19 insesgado, 18 intervalos de confianza simult´neos α, 117 a inversa generalizada, 34 de Moore-Penrose, 36 no unica, 36 ´ L1 norma, 5 libertad, grados, 6 lista R, 92 logit, 220 modelo, 219 base, o de referencia, 225 lsfit, 23 Mallows Cp , 190 an´logo en regresi´n logit, 226 a o matriz de covarianzas, 18 de dise˜ o, 5 n de informaci´n, 234 o matriz de dise˜ o, 5 n MDL, m´ ınima longitud de descripci´n, 195 o modelo base en regresi´n log´ o ıstica, 225 saturado en regresi´n log´ o ıstica, 225 Moore-Penrose

´ ´ INDICE ALFABETICO
inversa, 36 muestra de entrenamiento o aprendizaje, 193 de validaci´n, 193 o multicolinealidad exacta, 43 no predictiva, 166 predictiva, 166 multicolinealidad aproximada, 130 nivel de una variable categorica, 87 nivel de significaci´n emp´ o ırico, 112 niveles de un factor, 90 no lineal,regresi´n, 14 o no param´trica, regresi´n e o kernels, 14 splines, 14 vecinos m´s pr´ximos, 14 a o norma eucl´ ıdea, 4, 12, 229 L1, 14 otras, 256 norma L1, 5 observaciones an´malas, 173 o ortogonalizaci´n o m´todo de Gram-Schmidt, 32 e predicci´n o error de, 84 producto interno en R, 10 eucl´ ıdeo, 7 proyecci´n, 7 o pseudo-inversa, 34 QR factorizaci´n, 24, 245 o R dataframedataframe, 92 glm, 94 lm, 94 model.matrix, 94 attach, 93 f´rmulas, 94 o factor, 89 ordenado, 89

265
lista, 92 rango deficiente, 43 rango total, 16 raz´n de posibilidades relativa, 222 o raz´n de verosimilitudes o contraste, 77, 217, 235 redes neuronales y estimaci´n MCO de un modelo lineal, o 14 regresando, variable, 3 regresi´n o stepwise, o escalonada, 197 all subsets, 196 en componentes principales, 142 en ra´ ıces latentes, 142 ridge, 145 mediante un programa de MCO, 168 regresores, 3 residuos deleted, 175 BLUS (´ ELIO), 175 o borrados, 175 externamente studentizados, 174, 243 internamente studentizados, 173, 243 predictivos o PRESS, 175 respuesta, variable, 3 restricciones identificadoras, 51 ridge regresi´n, 145 o mediante un programa de MCO, 168 trazas, 149 sesgada estimaci´n, 141 o SIC curva de influencia muestral, 177 situaci´n observacional, 5 o SSR an´logo en regresi´n logit, 226 a o SST an´logo en regresi´n logit, 226 a o sucesi´n o de Cauchy, 253 suma de cuadrados de los residuos, 21 supuestos habituales, 6 teorema Gauss-Markov, 19

266
Sherman-Morrison-Woodbury, 230 transformaci´n o de Box-Cox, 215 de Box-Tidwell, 213 de Householder, 247 trazas ridge, 149 validaci´n o muestra de, 193 validaci´n cruzada, 192 o para seleccionar transformaciones, 215 valores singulares descomposici´n en, 246 o variables categoricas, 87 cualitativas, 87 nominales, 87 ordinales, 87 num´ricas, 88 e varianza del error de predicci´n, 84 o vecinos m´s pr´ximos, 14 a o

´ ´ INDICE ALFABETICO

Sign up to vote on this title
UsefulNot useful