Introducci´n o

Lo que sigue contiene una introducci´n muy concisa al an´lisis de regreo a si´n, concebida como apoyo de las clases. Hay varios niveles de lectura: en o un primer nivel, las Observaciones que jalonan el texto pueden en su mayor´ ıa omitirse, sin p´rdida de continuidad. Ello proporciona una lectura bastante e lineal. Si se desea una lectura m´s detallada, con digresiones que, no siendo a imprescindibles, pueden mejorar la comprensi´n del conjunto, conviene leer o tanto las observaciones como las secciones de Complementos y ejercicios al fin de cada cap´ ıtulo: son parte integrante del texto a este segundo nivel y completan muchos detalles. A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s´ ımbolo de“giro peligroso”representado en el margen, popularizado por la obra cl´sica Knuth (1986). Se trata de a fragmentos que corresponder´ a un tercer nivel, con detalles de inter´s, ıan e extensiones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dificultad. La flecha vertical ↑ remite a alg´n ejercicio, u observaci´n o ejemplo que son requisito previo. o Hay un mundo de diferencia entre saber c´mo se hacen las cosas y saber o hacerlas. Querr´ ıamos que los alumnos supieran hacerlas. La experiencia sugiere que lo que resulta de m´s ayuda al lector es ver ejemplos de aplicaci´n a o detallados, que pueda reproducir o modificar para resolver sus propios problemas. Intercalados entre la teor´ hay fragmentos en R, que el lector puede ıa ejecutar o tomar como modelo. Todos se han ejecutado con R versi´n 2.8.1. o No se ha buscado el c´digo m´s terso ni la forma m´s r´pida o elegante o a a a de hacer las cosas, sino la que ilustra mejor la teor´ ıa.

1

2

Cap´ ıtulo 1

El modelo de regresi´n lineal. o

1.1.

Planteamiento del problema.

Son frecuentes en la pr´ctica situaciones en las que se cuenta con obsera vaciones de diversas variables, y es razonable pensar en una relaci´n entre o ellas. El poder determinar si existe esta relaci´n —y, en su caso, una forma o funcional para la misma— es de sumo inter´s. Por una parte, ello permitie r´ conocidos los valores de algunas variables, efectuar predicciones sobre los ıa, valores previsibles de otra. Podr´ ıamos tambi´n responder con criterio estae d´ ıstico a cuestiones acerca de la relaci´n de una variable sobre otra. o Ejemplo 1.1 La Figura 2.1 (p´g. 4), muestra una gr´fica recoa a
giendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de Cook and Weisberg (1982)). En abscisas se representa la duraci´n de las o erupciones. En ordenadas, el intervalo de tiempo transcurrido hasta la siguiente erupci´n. o A la vista del gr´fico, parece evidente que existe una relaci´n ena o tre ambas variables —erupciones de duraci´n D corta son seguidas o de otras tras un intervalo de tiempo I m´s reducido que en el caso a de erupciones largas—. Podr´ interesarnos contrastar con criterio esıa tad´ ıstico si tal relaci´n existe (en el caso presente, la relaci´n es tan o o n´ ıtida que el plantearse el contraste de hip´tesis correspondiente no o tendr´ demasiado sentido). M´s interesante, en el caso presente, ser´ ıa a ıa llegar a una expresi´n del tipo I = f (D) relacionando el intervalo con o

3

4

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL. Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.

Intervalo en minutos (I)

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

50

60

70

80

90

Duración en minutos (D)

la duraci´n (ello nos permitir´ anticipar en qu´ momento se presentao ıa e r´ la siguiente erupci´n, conocida la duraci´n D que se ha observado a o o en la anterior). Es claro que la relaci´n I = f (D) no puede ser exacta —es dif´ o ıcil pensar en una funci´n que pase precisamente por cada uno de los 272 o puntos en la Figura 2.1—. Habremos de considerar m´s bien funciones a del tipo I = f (D) + ǫ, en que el valor de I es una cierta funci´n (deso conocida) de D m´s una cantidad aleatoria inobservable ǫ. Decimos a que f (D) es una funci´n de regresi´n de I sobre D, y nuestro objetivo o o es especificar su forma. Habitualmente realizamos para ello supuestos simplificadores, como el de que f (D) es una funci´n lineal. o

Fin del ejemplo

par´metros fijos desconocidos.1) o ser´ entonces f (D) = β0 + β1 D. . . . (1. . X1 . que el hecho de aislar una variable Y al lado izn quierdo y escribirla como funci´n de otras m´s una perturbaci´n aleatoria ǫ o a o no prejuzga ninguna relaci´n de causalidad en ning´n sentido. Por simplicidad. .1. . salvo en una perturbaci´n o o aleatoria ǫ. X0 . . finalmente. . limitaremos por el momento nuestra atenci´n a funciones f (X0 . β0 . En el Ejemplo 2. o o o Se˜alemos. . .2. o variable end´gena) de la que suponemos que se genera as´ o ı: Y siendo: 1. . βp−1 . Xp−1 . relacionando de manera aproximada los valores de Y con los que toman otras variables. . . s´lo postulao u o mos la existencia de una relaci´n cuya forma y alcance queremos investigar.2 a continuaci´n. . . buscaremos relaciones o del tipo Y = f (X0 . el ajuste de un modelo del tipo I = f (D) + ǫ no implica que consideremos que la duraci´n D causa el subsiguiente intervalo I hasta o la pr´xima erupci´n. Xp−1 ) lineales. Xp−1. a 2. . en general. NOTACION 5 Es de inter´s se˜alar que el ajuste de un modelo de regresi´n no se limita e n o a analizar la relaci´n entre dos variables. . .2. X0 . cuyos a valores son fijados por el experimentador. .1) .1. La ecuaci´n (2. 1. 3. Notaci´n o Consideramos una variable aleatoria Y (regresando. . La funci´n que aparece en (2.´ 1. que se examina en la Secci´n 2. . ıa El problema que abordamos es el de estimar los par´metros desconocidos a β0 . Frecuentemente X0 toma el valor constante “uno”. . el modelo resultante es o el modelo de regresi´n lineal. y el unico regresor ser´ ıa ´ ıa la variable D. regresores. variables explicativas no estoc´sticas. ǫ una variable aleatoria inobservable. βp−1 . respuesta. o En el Ejemplo 2. e tendr´ ıamos como regresores D y X0 =“uno”. Y ser´ la variable I. sino s´lo que parece existir una relaci´n entre ambas o o o o variables. Xp−1 ) + ǫ. Si decidimos ajustar un modelo con t´rmino constante β0 . . . Para ello contamos con una muestra de N observaciones de = β0 X0 + β1 X1 + · · · + βp−1 Xp−1 + ǫ.1) indica que la variable aleatoria Y se genera como o combinaci´n lineal de las variables explicativas.

cuando β y ǫ son o a variables aleatorias o valores muestrales. Adoptaremos para la estimaci´n el criterio m´ o ınimo cuadr´tico ordinario a ˆ es ´ptimo si y − X β 2 es m´ ˆ (MCO). EL MODELO DE REGRESION LINEAL.2. Utilizamos min´sculas para designar valores muestrales y may´sculas pau u ra las correspondientes variables aleatorias (as´ por ejemplo. p´g. y a ˆ es decir. . o ˆ Denotaremos mediante β al vector de estimadores de los par´metros. 229).0 + β1 xN.2) = 2 yi i . . diremos que β o ınimo. siendo: y el vector N × 1 de observaciones de la variable aleatoria Y. a ǫ el vector N × 1 de valores de la perturbaci´n aleatoria ǫ. la variable aleatoria Y . .1 + · · · + βp−1 x2. por otra parte. . X la matriz N × p de valores de las variables explicativas. ˆ ˆ recogen la diferencia entre los valores muestrales observados y ajustados de la variable aleatoria Y . definido por ǫ = y −X β.p−1 + ǫN .p−1 + ǫ2 . denotando · la norma eucl´ ıdea ordinaria: y (ver Definici´n A. βp−1)′ . El contexto aclarar´. yN = β0 xN. y denota el ı vector de valores observados de la variable aleatoria Y en una determinaˆ ˆ da experimentaci´n). La muestra nos permitir´ a escribir N igualdades similares a (2. . e o β el vector de par´metros (β0 . ǫ es inobservable.0 + β1 x1. En forma matricial. . Como se ha dicho. los residuos por ǫ al vector N ×1 de residuos. y de los correspondientes valores de las variables explicativas X.1): y1 = β0 x1. Su elemento xij denota el valor que la j–´sima variable explicativa toma en la i– e ´sima observaci´n.1 + · · · + βp−1 xN.6 ´ CAP´ ITULO 1.p−1 + ǫ1 y2 = β0 x2. escribiremos dichas N igualdades as´ ı: y = Xβ + ǫ .0 + β1 x2. Por consiguiente. o a 2 def (1.1 + · · · + βp−1 x1.

o cualquier otra cosa. − βp−1 xi.1.p−1 i 2 Observaci´n 1.1. E[ǫ ǫ ′ ] = σ 2 I. 1. 3.1 El suponer que los valores de los regresores o pueden ser fijados por el analista (apartado 2. Decimos entonces que estamos ante una situaci´n observacional (en oposici´n o o a un dise˜ o experimental). ¿Por qu´ introducir la norma euclidea y e no limitarnos a proponer como criterio la minimizaci´n de o ˆ ˆ yi − β0 xi0 − β1 xi1 − . etc.3 o ? Si realizamos las demostraciones en t´rminos de normas. al comienzo de esta Secci´n) nos coloca en una situaci´n de dise˜o experimental. sino tan solo recolectar una muestra. servir´n sea e a cual fuere la norma que adoptemos. minimizando una e o norma. 18) ventajas adicionales de plantear y resolver o a el problema en t´rminos de aproximaci´n vectorial. Supuestos. Ello no afecta a la teor´ que sigue. Veremos en breve o o (Observaci´n 3.3. SUPUESTOS. Adem´s de suponer que Y = X β + ǫ a requeriremos lo siguiente: 1. 7 Observaci´n 1. . E[ǫ ] = 0. Si se o e emplea la norma eucl´ ıdea es por conveniencia matem´tica y por ser a un criterio “razonable” desde diversos puntos de vista. De ah´ o o n ı que a la matriz X se la denomine matriz de dise˜o. tambi´n llamada norma L1 ).3 a continuaci´n.2 El criterio de seleccionar como estimadores de o ˆ ˆ 2 es totalmente arbitrario. y que la matriz X es no aleatoria. 2. n Muchas veces (notablemente en Ciencias Sociales) no es posible fijar los valores de X. rango(X) = p < N. . En β el vector β minimizando y − X β lugar de minimizar la norma eucl´ ıdea ordinaria. Observaci´n 1. podr´ ıamos minimizar ˆ ||y − X β||L1 (suma de los valores absolutos de los errores de aproximaci´n. Muchos resultados ser´n as´ “todo a ı terreno”. la n ıa inferencia sobre los par´metros β . es entonces condicional a los a valores observados de X. p´g.3. . trasladables de inmediato a problemas con supuestos diferentes a los realizados en la Secci´n 2.

Las estimaciones del vector β se obtendr´ entonces resolviendo ıan dicho sistema.4 Nada impide que los regresores sean transforo maciones adecuadas de las variables originales. e Algunos de los supuestos anteriores ser´n relajados. El supuesto 1) no implica p´rdida de generalidad ni supone ninguna rese tricci´n. podr´ ıamos especificar un modelo de regresi´n as´ o ı: Y = β0 + β1 x1 + · · · + βk x2 + · · · + βp−1 xp−1 + ǫ. nada impedir´ que tom´ramos loıa a garitmos para obtener Y = log(W ) = β0 + β1 x1 + β2 x2 + ǫ. EL MODELO DE REGRESION LINEAL. t´ e ıpicamente. entonces (2. requiere que las perturbacioa nes sean incorrelacionadas (covarianzas cero) y homosced´sticas (de id´ntica a e varianza). al menos en el caso en que X tiene entre sus columnas una cuyos o valores sean constantes (y ´sto suele suceder. y tiene siempre soluci´n para alg´n vector β que hace los resio u duos nulos. si pensamos que la variable aleatoria Y depende del cuadrado de Xk y de otras variables.3) puede reescribirse equivalentemente como: Y = (β0 1 + µ) + β1 x1 + · · · + βp−1 xp−1 + (ǫ − µ). es claro que si: a Y = β0 1 + β1 x 1 + · · · + βp−1 x p−1 + ǫ (1. En efecto. El supuesto 2). Por ejemplo.4) y (2. Veremos en lo que sigue que este caso particular carece de inter´s (se dice que no tiene “grados de libertad”). Observaci´n 1. si pens´ramos que la variable aleatoria W se genera a a del siguiente modo: W = kz1 β1 z2 β2 ν. la primera columna est´ formada por “unos”). . k An´logamente. pues entonces y = X β es un sistema de ecuaciones lineales ˆ determinado. con o distribuci´n logar´ o ıtmico normal). y las consecuencias a que de ello se derivan estudiadas. Nos referiremos a 1)–3) en lo sucesivo como los supuestos habituales. siendo ν una perturbaci´n aleatoria no negativa (por ejemplo. bastante m´s restrictivo. El supuesto 3) simplemente fuerza la independencia lineal entre las (p) columnas de X.8 ´ CAP´ ITULO 1.3) y el vector de perturbaciones verifica E[ǫ ] = µ. (1.4) incorpora un vector de perturbaciones (ǫ − µ) verificando el primero de nuestros supuestos. El requerimiento N > p excluye de nuestra consideraci´n o ˆ el caso N = p.

229) e o a real-valorados. .5) donde x0 . Aunque en lo que sigue se hace un tratamiento generalizable. Lo que realmente se requiere es que la expresi´n de la variable end´gena o regresando Y o o sea lineal en los par´metros. Proyecciones. la ecuaci´n (2. p´g. u=y si y ∈ M.5. e y ∈ H un vector cualquiera. u ∈ M. β0 = log(k) y ǫ = log(ν). y evita notaci´n a o que podr´ hacerse agobiante.4. como se ha indicado). La estimaci´n m´ o ınimo cuadr´tica como a problema de aproximaci´n vectorial. lo que simplifica algunas f´rmulas. MCO COMO APROXIMACION VECTORIAL en que xi = log(zi ). . Sea M ⊆ H un subespacio del o mismo. xp−1 . impl´ ıcitamente consideramos productos internos (v´ase Definici´n A.1 Sea H un espacio vectorial.´ 1. Lo inadecuado del formalismo puede ser f´cilmente suplido por el lector. 2. a 9 1. . operadores lineales y matrices asociadas a ellos.5) a ˆ o muestra que el problema puede reformularse as´ ¿Cuales son los coeficienı: ˆ0 . consistente en minimizar ǫ 2 . ˆ ˆ ˆ La ecuaci´n matricial y = X β + ǫ puede reescribirse as´ o ı: y (1. identificando vectores con matrices o columna. Hay diferentes posibilidades en cuanto a criterio de estimaci´n de los β.1. etc. . ıa Definici´n 1. / (y − u) ⊥ M . . . o ˆ ˆ = β0 x0 + · · · + βp−1 xp−1 + ǫ. Hacemos tambi´n un uso o e bastante tosco del lenguaje y notaci´n. . . βp−1 que hacen que la combinaci´n lineal β0 x0 + · · · + βp−1 xp−1 ˆ ˆ ˆ tes β o aproxime ´ptimamente (en sentido m´ o ınimo cuadr´tico) el vector y ? Veremos a inmediatamente que esta combinaci´n lineal es lo que llamaremos proyecci´n o o de y sobre el subespacio generado por las columnas x0 . . . 1. si y ∈ M. 3. xp−1 denotan los vectores columna de la matriz X (x0 ser´ en a general una columna de “unos”. .4. Decimos que u es proyecci´n de y o sobre M (y lo denotamos por u = PM y ) si: 1. Si adoptamos el criterio o MCO propuesto m´s arriba.

10 ´ CAP´ ITULO 1. y − b es la hipotenusa de un tri´ngulo a Estrictamente incorrecto. 2. tal como establece el teorema siguiente1 . 254 es una versi´n m´s elaborada del a o a Teorema 2. y M un subespacio del mismo.6) La Fig. p´g. ´ proyecci´n de y sobre M. Es claro que ǫ = y − PM y es ortogonal a M.1.2 ilustra en tres dimensiones la noci´n de proyecci´n. (1. Teorema 1.1. Consideremos PM y : podr´ ıamos describirlo como el obtenido al dejar caer una plomada desde el extremo de y hasta hacer contacto con M. Como consecuencia. En dicha figura se ha considerado H = R3 y un subespacio M de dimensi´n dos representado como el plano o horizontal. Para cualquier vector y ∈ H existe siempre un unico vector u = PM y .2: El vector PM y es la proyecci´n de y sobre M (plano horizontal). Se verifica que: o y −u 2 = m´ ın z∈M y −z 2 . Figura 1. para ˆ cualquier vector b = PM y en M. y hace o o intuitivamente evidente el Teorema 2. EL MODELO DE REGRESION LINEAL. 1 .1. o y ǫ ˆ PM y b Siempre existe (y es unica) la proyecci´n de un vector en H sobre el ´ o subespacio M. El Teorema E.1 Sea H un espacio vectorial.

Arnold (1981). Ryan (1997) o Troc´niz (1987a) son algunos de o ellos. rect´ngulo. o Stapleton (1995). (2008). 254.6. . Sobre la utilizaci´n de R. (Una demostraci´n formal que va m´s all´ de esta incompleta argumeno a a taci´n puede encontrarse en la Secci´n E. 1 y Cap. Secci´n 1 a 3. Hay documentos con extensi´n de libro disponibles en Internet. Searle (1971).) o o a 1. ilustra tambi´n el modo de emplear R para hacer regresi´n. Puede leerse como complemento a este cap´ ıtulo Faraway (2005). n Myers (1990). cuyos catetos son ǫ y el segmento b − PM y . p´g. Lectura recomendada.1. Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec´ ıfico para R. Cap. Sobre la teor´ ıa.6.1. R es una impleo mentaci´n de fuente libre del lenguaje estad´ o ıstico y gr´fico S (ver por ejemplo a Becker et al. LECTURA RECOMENDADA. 2. Los textos introductorios sobre S son por ello utilizables con R. o los cap´ o ıtulos introductorios de la mir´ ıada de buenos textos que existe sobre regresi´n lineal: Seber (1977). (1988). Draper and Smith (1998). El primero de los libros citados. pero es e o demasiado escueto para servir de introducci´n al lenguaje. Pe˜a (2002). o Ugarte et al. a ˆ y −b 2 11 = ǫ ˆ 2 + b − PM y 2 > ǫ ˆ 2 lo que demuestra la propiedad de PM y de ser la mejor aproximaci´n de y en o M. como Maindonald o (2000) o Kuhnert and Venables (2005). Por tanto. Venables and Ripley (1999b)). Chambers and Hastie (1992) o Chambers (1998)). Dalgaard (2002). Faraway o (2005).

3 Para efectuar multitud de c´lculos en R empleamos funcioa nes. Por ejemplo. para sumar varios n´ meros y asignar el resultado a u x podr´ ıamos escribir: x <. x <.4) 1. p´g. EL MODELO DE REGRESION LINEAL. En la Secci´n 2.5 El valor de la variable puede ser utilizado en c´lculos subsiguientes. 1.12)) que hace uso de la funci´n sum. 11.12 ´ CAP´ ITULO 1.3.sum(c(5. Complementos y ejercicios Algunos de los ejercicios que siguen requieren hacer uso de un ordenador y un programa especializado.6.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo. tal como R.2 En R para crear un vector y asignarlo a la variable x haremos: x <.7. a tecleando x + 5 obtendr´ ıamos “10”.4 El producto interno eucl´ ıdeo de dos vectores x e y puede calcularse as´ ı: sum(x * y) o alternativamente: . se o a proporcionan referencias.5 + 7 + 12 o tambi´n e x <. 1. o 1.c(1.

1. emplear expresiones que den como valor un vector l´gico: a > 6 produce el vector F T T. que o empleado como sub´ ındices retorna los elementos de a mayores que 6. tecleando a + b obtendr´ ıamos el vector (6 7 8) ′ .2)] a[-1] a[-(1:2)] a[c(F.3) b <.7. o Podemos incluso.1. podemos emplear sub´ e ındices l´gicos: F (falso) y T (cierto).6. El argumento m´s corto. a Por ejemplo. Por ejemplo. si: a <.5 En R rige la “regla del reciclado”.c(1. como en la ultima l´ ´ ınea.8) entonces.7 La funci´n help permite interrogar a R sobre el modo de o empleo de cualquier funci´n. tecleando las expresiones que aparece a la izquierda obtendr´ ıamos los resultados que se indican a la derecha: a a[1] a[1:2] a[c(1. si: a <. se ha a usado repetidamente para construir un operando que pueda sumarse a a.F. Un sub´ ındice negativo se interpreta como omitir el correspondiente valor. Por ejemplo.5 entonces. [ ]. 1. LECTURA RECOMENDADA. que permite operar con operandos disimilares. Adem´s de sub´ a ındices num´ricos.2.c(6. x %*% y 13 1.T)] a[a>6] produce: produce: produce: produce: produce: produce: produce: produce: 6 6 6 6 7 8 8 7 7 8 7 7 8 8 Los sub´ ındices se ponen entre corchetes. para obtener la descripci´n o o de sum podr´ ıamos teclear: . b.6 En R es muy f´cil acceder a elementos aislados de un vector.

rbind. help(sum) Empl´ese la funci´n help para averiguar el cometido de las siguientes e o funciones de R: t. scan.table. lo que permite a navegar c´modamente por la documentaci´n.eucl <. ncol. cbind. el lenguaje es extensible por el usuario. EL MODELO DE REGRESION LINEAL. nrow. o podemos calcular la norma eucl´ ıdea de un vector x tecleando simplemente: norma.y) { sum(x*y) } que asigna a eucl la funci´n especificada en el lado derecho. La norma eucl´ ıdea podr´ calcularse mediante una funci´n definida as´ ıa o ı: norma. solve.14 ´ CAP´ ITULO 1.function(x) { sqrt(eucl(x.function(x. teclear´ ıamos: eucl(u.eucl(x) En realidad. read. la definici´n de una funci´n como eucl es innecesaria: en o o R podemos emplear x %* % x (o alternativamente crossprod(x)) que cumplen an´logo cometido. En R no necesitamos limitarnos a ellas. Tras esta definici´n. Para o invocarla con los vectores u y v.start() abre una ventana de ayuda en un navegador —si es que hay alguno instalado en la m´quina que empleamos—. Obs´rvese que tecleando e example(scan) podemos ejecutar los ejemplos que aparecen en la documentaci´n on o line sin necesidad de reteclearlos. Podr´ ıamos definir una funci´n eucl para realizar el producto interno o as´ ı: eucl <. sum). a . list. Obs´rvese tambi´n que el mandato e e help.8 Cuando escribimos expresiones como sum(x * y) estamos empleando funciones predefinidas (en este caso.x)) } que hace uso de eucl definida anteriormente. o y esto hasta el nivel de complejidad que se desee. Una funci´n puede emplearse como bloque constructivo de otras.v). o o 1.

1.12 (↑ 2.11) Selecci´nese. Compru´bese que el vector z e resultante es efectivamente la proyecci´n buscada. pero no base. y ii) Que (y − z ) ⊥ x .13 (↑ 2. 0 .10) Los siguientes dos vectores generan un subespacio 2-dimensional de R3 .         1 1 1 1 0 . de a R e o p´g. dados dos vectores arbitrarios o x e y . y >= ||x ||||y || cos(α) siendo α el ´ngulo que ambos vectores forman. 1.y > x < x.x > 1. siendo M el subespacio generado por x . mediante el procedimiento de Gram-Schmidt— una base ortonormal de dicho subespacio.11. 1.10 Escr´ ıbase una funci´n que. para lo cual es preo ciso ver: i) Que z es colineal con x .6. y >= ||PM y ||. Encuentrese —por ejemplo. del esquema a continuaci´n inmediatamente se deduce que o < x . se verifica: u PM y = < x. y en R3 verifica: < x .3. y 15 α x PM y Ded´ zcase que. tres que formen base de R3 . Si a o ||x || = 1. obtenga el vector proyecci´n del segundo sobre el espacio (unio dimensional) generado por el primero. 1 0 1 0 1 1.     1 2 0 . 1 . 229). LECTURA RECOMENDADA. en el caso general en que ||x || = 1.11 Demu´strese que los siguientes cuatro vectores de R3 son e un sistema generador de dicho espacio. 3 0 1 .9 Recordemos que el producto eucl´ ıdeo (o escalar ) de dos vectores x . de entre los cuatro vectores indicados o en el Problema 2. Sea PM y la proyecci´n de y sobre el subespacio M .1. Esta igualdad se extiena N definiendo cos(α) convenientemente (v´ase Definici´n A.

vecinos m´s pr´xie a o mos y splines. (2001) y Eubank (1988). Uno de sus ǫ atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande. Textos que tratan redes neuronales desde una perspectiva estad´ ıstica son Ripley (1996) y Bishop (1996). por ejemplo. a 1.14 Demu´strese que la correspondencia PM : x −→ y = PM x e es una aplicaci´n lineal. Un excelente manual sobre redes neuronao les es Haykin (1998). En lugar de minimizar la suma de cuadrados de los residuos. Pueden consultarse. Hastie et al.16 ´ CAP´ ITULO 1. pero es computacionalmente mucho m´s costosa.15 La estimaci´n de un modelo de regresi´n lineal o o realiza una aproximaci´n del vector respuesta Y similar a la que lleo var´ a cabo una red neuronal compuesta por una unica neurona. o a hay alternativas al criterio MCO. “Siıa ´ milar” porque en el caso de una red neuronal la “estimaci´n” (entrenao miento o aprendizaje) se realiza de ordinario mediante un proceso iterativo.17 . 7.16 Hay alternativas a la regresi´n lineal: regresi´n no o o lineal y regresi´n no param´trica (en que se considera una relaci´n o e o entre regresores y regresando que no est´ constre˜ ida a ser lineal ni de a n ninguna otra forma funcional prefijada). 1.2. o 1. p´g. 1. podr´ ıamos minimizar la suma de sus valoN res absolutos: i=1 |ˆ| (norma L1 del vector de residuos). EL MODELO DE REGRESION LINEAL. En regresi´n no param´trica o e se emplean principalmente tres m´todos: kernels. Como se ha indicado en la Observaci´n 2. cuyo resultado no necesariamente ha de coincidir exactamente con la estimaci´n MCO.

.3) (2. ˆ X p−1 ⊥ (y − X β) que podemos reunir en la igualdad matricial ˆ X ′ (y − X β) = 0 y de aqu´ se deduce que: ı ˆ X ′X β = X ′y .1) (2. . a 2. Por ˆ o ˆ ⊥ M. w > = v w. consideremos H = RN y M = subespacio generado por las columnas de X.4 y 2. Obtenci´n de los estimadores de los pao r´metros. .5) (2. ˆ X 0 ⊥ (y − X β) ˆ X 1 ⊥ (y − X β) .Cap´ ıtulo 2 Estimaci´n m´ o ınimo cuadr´tica. a Si y es un vector N × 1. ha de verificarse que (y − X β) generado por las columnas de X.5 inmediatamente se deduce que el vector en M m´s pr´ximo a y (en el sentido de minimizar la norma al a o cuadrado del vector de residuos ǫ ) es la proyecci´n de y sobre M.1. . Como M es el subespacio consiguiente. 17 (2.4) . de las Secciones 2.2) (2. Si dotamos a H del producto interno eucl´ ıdeo ′ < v. .

rango(X) = p.18 ´ ´ CAP´ ITULO 2. como suponemos. entonces (X ′ X) es de rango completo. y la proyecci´n de y soo bre M es tambi´n unica (Teorema 2. o De (3.11) (2.6) se deduce tambi´n que. .8) (2.1. p´g.5) a (3. para aligerar la notaci´n.1 Sean P e (I − P ) las matrices de proyecci´n definidas en el o p´rrafo anterior. la proyecci´n e o de y sobre M viene dada por PM y = X(X ′ X)−1 X ′ y .6) Obs´rvese que el supuesto de rango total de la matriz X —y consiguiene temente de (X ′ X)— es requerido exclusivamente para pasar de (3.p−1 i 2 e igualando las derivadas a cero (ver Observaci´n 2. El defecto de rango en X e ´ a ˆ tiene tan solo por consecuencia que el vector β deja de estar un´ ıvocamente determinado. obteno a ˆ dr´ ıamos un β del que todo lo que podr´ ıamos afirmar es que corresponde a un punto estacionario de la expresi´n anterior (suma de cuadrados o de los residuos). (2. ESTIMACION M´ INIMO CUADRATICA. Las ecuaciones normales se verifican en todo caso. Se verifica lo siguiente: a . 7). sobreentendiendo el o subespacio M. 10). Para establecer que se trata de un m´ ınimo. denominaremos en lo sucesivo P e (I − P ). − βp−1 xi. ˆ ˆ Podemos ver X β y ǫ como las proyecciones de y sobre dos espacios mutuamente ortogonales: M y M ⊥ . . habr´ ıamos de tomar a´ n segundas derivadas y verificar el cumplimiento de u las condiciones de segundo orden. y posee inversa. La igualdad matricial anterior recoge las ecuaciones normales.9) (2. Las matrices PM e (I − PM ) que.3. Volveremos sobre esta cuesti´n al hablar de multicolinealidad.1 El ser X β proyecci´n de y sobre M garantiza o o sin m´s que a ǫ ˆ ˆ es m´ ınimo. Si. o Teorema 2. tienen algunas propiedades que detallamos a continuaci´n.6). y el vector de residuos por ǫ ˆ = = = = ˆ y − Xβ y − X(X ′ X)−1 X ′ y (I − X(X ′ X)−1 X ′ )y (I − PM )y . p´g. Por tanto. el vector de estimadores de los par´metros ser´: a a ˆ β = (X ′ X)−1 X ′ y . en el caso de rango total.10) (2. Si hubi´ramos obtenido β derivando e ˆ ˆ yi − β0 xi0 − β1 xi1 − .7) ˆ Observaci´n 2. (2.

17) tal como suger´ la Observaci´n 3. Con notaci´n matricial. Las matrices P e (I − P ) son sim´tricas e idempotentes. Tendremos ocaa siones abundantes de explotar esta intuici´n.15) (2.2.2. o Podemos seguir una v´ alternativa para llegar al mismo resultado: planıa tear el problema en forma de minimizaci´n respecto a β de la expresi´n: o o N (yi − β0 xi0 − β1 xi1 − . i=1 (2. por lo que su producto por cualquiera de los vectores columna de X (pertenecientes a M) da el vector 0. por ultimo. Se verifica que (I − P )X = 0.´ 2. p´g.p−1 )2 . su rango coincide con su traza (v´ase Teorema A.1. Es adem´s inmediato si reparamos en que la matriz (I−P ) a proyecta sobre el subespacio M ⊥ .14) (2. e 2.1. En cuanto a 2).18) . el problema ıa o o puede reescribirse as´ ı: m´ (y − X β ) (y − X β ). se prueba sin m´s que efectuar el producto ´ a matricial indicado. ın β ′ (2. 2. 229). Una obtenci´n alternativa o ˆ La obtenci´n del vector de estimadores β en la secci´n precedente tiene o o muchos m´ritos. 3. − βp−1 xi.13) (2. siendo (I − P ) idempotente. . Por tanto: e a rango(I − P ) = = = = = traza(I − P ) traza(I) − traza(P ) N − traza[X(X ′ X)−1 X ′ ] N − traza[(X ′ X)−1 X ′ X] N − p. UNA OBTENCION ALTERNATIVA 1. rango(I − P ) = N − p. . y no es el menor el de proporcionar intuici´n geom´trica e o e acerca de la soluci´n m´ o ınimo cuadr´tica ordinaria (MCO). (2.12) (2.16) El apartado 3). ´ Demostracion: 19 El apartado 1) es inmediato.

cada vez intervendr´n en la formaci´n de a o y diferentes perturbaciones.19) o equivalentemente X ′ y = (X ′ X)β .2—. ESTIMACION M´ INIMO CUADRATICA.3.20 ´ ´ CAP´ ITULO 2. 2. La “suma de cuadrados” anterior es una forma cuadr´tica de matriz unidad. ˆ El vector β = (X ′ X)−1 X ′ y por tanto es un vector aleatorio: “hereda” su condici´n de tal de y . obtenemos las condiciones de o a primer orden 2X ′ (y − X β ) = 0 . etc.12).5). Propiedades del estimador m´ ınimo cuaˆ dr´tico β. En efecto. (2. ˆ . o Importa comprobar que esta aproximaci´n al problema. a diferencia de la o que hac´ uso de la noci´n de proyecci´n. Es f´cil comprobar tomando las segundas derivadas que la soluci´n (o a o soluciones. si hay m´s de una) del sistema de ecuaciones precedente corresa ponde a un m´ ınimo y no a un m´ximo o punto de silla: la matriz de segundas a derivadas (X ′ X) es por construcci´n (semi)definida positiva. γ En el caso de estimar un vector de par´metros. Recordemos que un estimador γ del par´metro γ se dice insesgado si ˆ a E[ˆ ] = γ. en e o experimentos repetidos obtendremos cada vez un diferente vector y de valores de la variable respuesta. a ˆ Notemos que β es un vector aleatorio. Recordemos tambi´n que la matriz de covarianzas de un vector aleatorio e ˆ se define por: como β ˆ ˆ ˆ ˆ ′ Σβ = E[β − E(β)][β − E(β)] . la condici´n an´loga es a o a ˆ E[β] = β . a Haciendo uso de la f´rmula (A. pues los valores de los regresores se fijan por el experimentador: recu´rdese los supuestos introducidos en la Secci´n 2. p´g. (2. deja en la penumbra muchas cosas ıa o o ˆ que son de inter´s: la ortogonalidad del vector de residuos ˆ = y − X β. que a su vez la obtiene de ǫ . Tiene por ello sentido o preguntarse por su vector de valores medios y por su matriz de covarianzas. la e ǫ idempotencia de algunas matrices. Aunque X se mantenga fija — cosa que podemos lograr.20) que son las ecuaciones normales (3. 231.

cualquier otro estimador β∗ de β que sea lineal e insesgado tiene matriz de covarianzas con elementos diagonales no menores que los de Σβ . β es un estimador lineal insesgado de β . los componentes del vector β La insesgadez de un estimador es intuitivamente atrayente: supone que no incurrimos en derivas sistem´ticas al estimar el par´metro objeto de ina a ter´s. dentro de una clase particular de estimadores es el que exhibe menores varianzas en la diagonal principal de Σβ ˆ —y. 21 ˆ expresi´n que en el caso de ser β insesgado como estimador de β se simplifica o de modo obvio a ′ ˆ ˆ Σβ = E[β − β ][β − β ] .3. PROPIEDADES DEL ESTIMADOR M´ INIMO CUADRATICO β. esperar´ ıamos que este promedio se acercar´ progresivamente m´s a su objetivo (el a a verdadero valor del par´metro). p´g. en este sentido. 7) o a se cumple tambi´n que: e ˆ 1. (Gauss-Markov).´ ˆ 2. Teorema 2. a ˆ Acontece que el vector de estimadores β disfruta de esta atractiva propiedad de insesgadez. Si β es el estimador m´ ınimo cuadr´tico ordinario de a ˆ β .6): ˆ E[β] = E[(X ′ X)−1 X ′ y ] = E[(X ′ X)−1 X ′ (X β + ǫ )] = β + E[(X ′ X)−1 X ′ ǫ ] = β.2 Si se verifican los supuestos habituales (Secci´n 2. Si repiti´ramos el mismo experimento muchas veces y promedi´ramos e e a los valores del estimador insesgado obtenidos en cada experimento. ˆ ´ Demostracion: Tomando valor medio en (3. ˆ ˆ 3. Adicionalmente. ˆ La matriz de covarianzas Σβ tiene en su diagonal principal las varianzas de ˆ ˆ y fuera de la diagonal principal las covarianzas. ˆ 2. El o siguiente Teorema formaliza y demuestra estas propiedades. . es el que estima con mayor precisi´n el vector β —. La matriz de covarianzas de β es Σβ = σ 2 (X ′ X)−1 .3.

22

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

ˆ luego β es insesgado. Por consiguiente, la matriz de covarianzas Σβ tendr´ a ˆ por expresi´n: o ˆ ˆ Σβ = E(β − β )(β − β )′ ˆ = = = = = E[(X ′ X)−1 X ′ (X β + ǫ ) − β ][(X ′ X)−1 X ′ (X β + ǫ ) − β ]′ E[(X ′ X)−1 X ′ ǫ ][(X ′ X)−1 X ′ ǫ ]′ E[(X ′ X)−1 X ′ ǫ ǫ ′ X(X ′X)−1 ] (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 σ 2 (X ′ X)−1 .

ˆ ˆ Para demostrar 3), consideremos cualquier estimador β∗ alternativo a β. Dado que restringimos nuestra atenci´n a estimadores lineales, podemos escribir o ˆ β∗ = C Y , siendo C una matriz de orden adecuado. Siempre podremos expresar C as´ ı: C = (X ′ X)−1 X ′ + D. (2.21)

Puesto que nos limitamos a considerar estimadores insesgados, ha de verifiˆ carse: E β∗ = EC Y = β , y por tanto: E[(X ′ X)−1 X ′ + D]Y = β . De aqu´ se ı deduce: E[(X ′ X)−1 X ′ (X β + ǫ ) + D(X β + ǫ )] = β , β + DX β = β, (2.22) (2.23)

dado que Eǫ = 0. Como (3.23) se ha de verificar sea cual fuere β , la insesˆ gadez de β∗ implica DX = 0. ˆ La matriz de covarianzas de β∗ es: Σβ∗ ˆ Pero: ˆ (β∗ − β ) = [(X ′ X)−1 X ′ + D]Y − β = [(X ′ X)−1 X ′ + D](X β + ǫ ) − β = [(X ′ X)−1 X ′ + D]ǫ . (2.25) (2.26) (2.27) = ˆ ˆ E[(β∗ − β )(β∗ − β )′ ]. (2.24)

donde (3.27) se ha obtenido haciendo uso de DX = 0. Llevando (3.27) a (3.24), obtenemos: Σβ∗ = E{[(X ′ X)−1 X ′ + D]ǫ ǫ ′ [(X ′ X)−1 X ′ + D]′ } ˆ (2.28)

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. que, de nuevo haciendo uso de que DX = 0, se transforma en: Σβ∗ = (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 + σ 2 DID ′ ˆ = σ (X X) + σ DD = Σβ + σ 2 DD ′ . ˆ
2 ′ −1 2 ′

23

(2.29) (2.30) (2.31)

La matriz DD ′ tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostraci´n de o 3). De forma completamente similar se puede demostrar una versi´n ligerao mente m´s general: la estimaci´n lineal insesgada con varianza m´ a o ınima de ˆ ˆ ınimo cualquier forma lineal c ′ β es c ′ β, siendo β el vector de estimadores m´ cuadr´ticos. a

Observaci´n 2.2 La insesgadez de un estimador es una proo piedad en principio atrayente, pero de ning´ n modo indispensable. u De hecho, un estimador insesgado de un par´metro puede incluso no a existir. (Para una discusi´n de la condici´n de insesgadez y de sus o o implicaciones puede verse Lehmann (1983), Cap. 2.) En el Cap´ ıtulo 11 comprobaremos que, en ocasiones, podemos optar con ventaja por utilizar estimadores sesgados.

2.4.

Estimaci´n de la varianza de la perturo baci´n. o

El Teorema 3.2 proporciona la matriz de covarianzas del vector de estiˆ ˆ madores β, Σβ = σ 2 (X ′ X)−1 . Pero mientras que (X ′ X) es conocida, σ 2 es un par´metro que necesita ser estimado. Veamos como hacerlo. a Definici´n 2.1 Denominamos SSE o suma de cuadrados de los residuos al o cuadrado de la norma del vector de residuos, SSE
def

=

ˆ y − Xβ

2

=

ǫ ˆ

2

Teorema 2.3 Una estimaci´n insesgada de la varianza de la perturbaci´n o o viene proporcionada por SSE σ2 = ˆ N −p

24

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

´ Demostracion: Como ˆ X β = P Y = X(X ′ X)−1 X ′ Y , tenemos que ˆ (Y − X β) = (I − P )Y = (I − P )(X β + ǫ ) = (I − P )ǫ , y por tanto SSE = Y ′ (I − P )′(I − P ) Y = ǫ ′ (I − P )′ (I − P ) ǫ . En virtud de la simetr´ e idempotencia de (I − P ), ıa SSE = ǫ ′ (I − P )ǫ = traza ǫ ′ (I − P )ǫ = traza (I − P )ǫ ǫ ′ . Tomando valor medio en (3.38) tenemos: E(SSE) = traza(I − P )(σ 2 I) = σ 2 (N − p). (2.39) (2.36) (2.37) (2.38) (2.33) (2.34) (2.35) (2.32)

(El ultimo paso ha hecho uso de la propiedad traza(I − P ) = N − p, Teorema ´ 3.1, p´g. 18.) De (3.39) se deduce entonces que a E
def

SSE = σ2 N −p

y σ 2 = SSE/(N − p) es por tanto un estimador insesgado de σ 2 . ˆ

Observaci´n 2.3 En lo que sigue, SSE denotar´ tanto la variao a
ble aleatoria definida m´s arriba como su valor en una experimentaci´n a o concreta, contra la convenci´n habitual con otras variables en que se o emplean min´ sculas para denotar sus valores en una experimentaci´n. u o El contexto aclarar´ si nos estamos refiriendo a una variable aleatoria a o a un valor experimental de la misma.

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. Observaci´n 2.4 El Teorema 3.3 muestra que para obtener una o
estimaci´n insesgada de la varianza de la perturbaci´n debemos dividir o o la suma de cuadrados de los residuos, no entre el n´ mero de residuos u N , sino entre los grados de libertad N − p. Que el n´ mero de par´meu a tros estimado debe tomarse en consideraci´n en el denominador del o estimador es intuitivamente plausible. Despu´s de todo, si aument´e a ramos el n´ mero de regresores (y par´metros estimados) p hasta que u a p = N , SSE ser´ id´nticamente cero. (Estar´ ıa e ıamos ante un problema sin grados de libertad.) Sin llegar a este extremo, es claro que aumentando el n´ mero de regresores incrementamos nuestra capacidad u de aproximar y (y de reducir SSE), y esto ha de ser contrapesado reduciendo tambi´n el denominador. e

25

Observaci´n 2.5 El Teorema 3.3 subsume y ampl´ un resulo ıa tado que habitualmente aparece sin demostraci´n en los cursos eleo mentales de Estad´ ıstica: un estimador insesgado de la varianza de una poblaci´n, dada una muestra i.i.d. de la misma, viene dada por o
σ2 = ˆ
N i=1 (Yi

− Y )2 . N −1

(2.40)

Este resultado puede obtenerse como caso particular del Teorema 3.3 si reparamos en lo siguiente: podemos imaginar las Yi como generadas por Yi = β0 + ǫi , en que β0 es la media y ǫi una perturbaci´n de media cero y misma o varianza que Yi . Si regres´ramos las observaciones Y1 , . . . , YN sobre a una columna de “unos”, 1 , el unico par´metro estimado ser´ ´ a ıa:
N ′ ′ ˆ β0 = (X ′ X)−1 X ′ Y = (1 1 )−1 1 Y = N −1 i=1

Yi = Y

El mejor ajuste que puede hacerse de las Yi en t´rminos de este unico e ´ ˆ regresor es β0 1 y la suma de cuadrados de los residuos es por tanto N N 2 ˆ 2 o i=1 (Yi − β0 1 ) = i=1 (Yi − Y ) . La expresi´n (3.40) coincide por tanto, en este caso particular, con la dada por el Teorema 3.3.

R: Ejemplo 2.1 (c´lculo de los estimadores MCO) a
El siguiente listado crea artificialmente una matriz X y el vector respuesta y . A continuaci´n, realiza la regresi´n de dos formas. En la o o primera, se realizan los c´lculos de modo expl´ a ıcito. En la segunda, se recurre a la funci´n lsfit predefinida en R, que simplifica consideo rablemente el trabajo. Existen funciones alternativas m´s avanzadas a que se introducen m´s adelante. a

17. 1. n > X <. 6. 0. Primero. generamos los valores de la variable respuesta del modo que prescribe el modelo lineal: > y <. 1.] [5. 2). 1. lsfit realiza los c´lculos de un modo a mucho m´s eficiente en tiempo y estable num´ricamente que el sugea e rido por la teor´ no se invierte la matriz (X ′ X) sino que se emplea ıa: la factorizaci´n QR (ver Secci´n D. ESTIMACION M´ INIMO CUADRATICA. a Podemos por ejemplo escribir > b <.2] [. 1. 0. 7. p´g.] [4. Generamos en primer lugar los datos y realizamos la estimaci´n aplicando la teor´ de modo m´s directo.5). Se muestran varias formas alternativas de hacerlo.2.26 ´ ´ CAP´ ITULO 2. 245. la matriz o ıa a de dise˜ o.] [6.X %*% beta + rnorm(6) (La funci´n rnorm(n) genera n variables aleatorias N (0.1] [.3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 [1. t(X) %*% + y) > b . 3. 4. o Lawson and Hano o a son (1974)). 4. 1. 4) Finalmente.c(2. 1). fijamos un vector β o > beta <.) A contio nuaci´n.] [3. 3) > X [. obtenemos los estimadores resolviendo las ecuaciones normao les (3.solve(t(X) %*% X.] [2. 12. p´g. + 1. 2.matrix(c(1.] A continuaci´n. 1. + 13. Al margen de la comodidad. Se trata de detalles que no necesitan preocuparnos por el momento. + 6.

] 2.solve(crossprod(X).] 2.b) proporciona una soluci´n.] 2. La ˆ funci´n solve con un unico argumento matricial proporciona la matriz o ´ ˆ inversa.3517 [2. y)) > b [.´ ´ 2. Una forma m´s r´pida de calcular a a ′ ′ (X X) y X y la proporciona la funci´n crossprod.2329 Hemos obtenido separadamente (X ′ X)−1 (que puede servirnos para estimar la matriz de covarianzas de los estimadores.] 4.XXinv %*% crossprod(X.8129 [3. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.2329 27 (la funci´n solve(A. + crossprod(X.1] [1.] 4.8129 [3.] 2.1] [1.solve(crossprod(X)) > b <. [. De cualquiera de las maneras que calculemos β.2329 Podemos tambi´n escribir: e > XXinv <. la obtenci´n o de los residuos es inmediata: > e <.y .4. si existe.3517 [2. Podr´ o ıamos sustituir lo anterior por > b <. del sisteo o ma de ecuaciones lineales Ax = b ).3517 [2.] 2.1] [1.] 2.] 4. + y) > b [.8129 [3. σ 2 (X ′ X)−1 ).X %*% b > e .

X)) [.3589e-13 0 > crossprod(e.1] 0.1] [.2 Todos los c´lculos anteriores pueden hacerse a con mucha mayor comodidad mediante funciones de regresi´n espeo cializadas.] [4.] 0 0 0 La suma de cuadrados de los residuos y una estimaci´n de la varianza o de la perturbaci´n pueden ahora obtenerse con facilidad: o > s2 <.] -9.42097 -0. > ajuste <.53689 -0. y.] [6.20272 [1. intercept = FALSE) .15416 -0.2] [. ESTIMACION M´ INIMO CUADRATICA.2] [.3] [1.61805 0.lsfit(X.28 ´ ´ CAP´ ITULO 2.] Podemos comprobar la ortogonalidad de los residuos a las columnas de la matriz X: > t(e) %*% X [.3589e-13 0 > round(crossprod(e.29124 0.1482e-14 1.sum(e * e)/(nrow(X) + ncol(X)) > s2 [1] 0.] [2.] -9.1482e-14 1.] [5. [.] [3.1] [. X) [.3] [1.1] [.33238 Fin del ejemplo R: Ejemplo 2. Por ejemplo.3] [1.2] [.

] -6.] 3.20272 $intercept [1] FALSE $qr $qt [1] -75.047314 $qraux [1] 1.66854 $qr X1 X2 [1.3517 2.375532 [5. hace todo lo anterior y algunas cosas m´s de modo mucho m´s efia a ciente.40825 0.] 0.8129 4.´ ´ 2.] 0.9256 29 48.03616 [6.] -0.] 0.40825 -0.40825 11.40825 0.] 0.95129 [3. e a o a Ve´moslo: a > ajuste $coefficients X1 X2 X3 2.15416 [4] -0.] -2.33003 [4] -0.28869 [2.28718 [5.004607 [6. los residuos y algunos resultados auxiliares asociados al a m´todo de c´lculo empleado (la factorizaci´n QR aludida m´s arriba).63322 [4.0362 1.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.] -5.2329 $residuals [1] 0.40825 -0.] 0.4082 1.655823 [4.53689 -0.42874 -0. La funci´n lsfit (least squares fit) devuelve una lista u objeo to compuesto conteniendo en sus componentes los estimadores de los par´metros.44949 -14.60529 .29124 0.583992 [3.94068 0.940221 [2.61805 0.78812 -23.] 0.42097 -0.71690 X3 [1.] -0.

20272 El argumento intercept=FALSE indica a la funci´n lsfit que no debe o agregarse a la matriz de dise˜ o X una columna de “unos” (porque n ya figura entre los regresores). El coeficiente R2 Hay una relaci´n interesante entre SSE y otras dos sumas de cuadrados o que definimos a continuaci´n."class") [1] "qr" > resid <.30 $rank [1] 3 $pivot [1] 1 2 3 $tol [1] 1e-07 ´ ´ CAP´ ITULO 2.ajuste$residuals > resid [1] 0. Sea y el vector N × 1 siguiente: o   y y    y = . attr(. a o Fin del ejemplo 2.5. Definamos: SST = SSR = y −y ˆ Xβ − y 2 2 Se verifica entonces el Teorema a continuaci´n. con lo que tomar´ el valor por omisi´n TRUE. Ordinariamente ello no suceder´. o .61805 0. y a podremos prescindir de especificar el argumento intercept. .15416 [4] -0.29124 0. y e en que y denota la media aritm´tica de las observaciones en y . .53689 -0. ESTIMACION M´ INIMO CUADRATICA.42097 -0.

y como quiera que ǫ = (y − X β) ⊥ M. se verifica: SST = SSR + SSE ´ Demostracion: SST = y −y 2 2 (2.42) ˆ ˆ = y − Xβ + Xβ − y (2.45) ˆ ˆ Pero si y ∈ M.41). siempre que X contenga una columna u constante.4 Si y pertenece al subespacio M generado por las columnas de la matriz X —lo que acontece.2.41) (2. se denomina a R coeficiente de correlaci´n o 2 m´ltiple. X β − y >(2. SST SST SST .41) se obtiene: SST SSR SSE = + . el ˆ ultimo producto interno es nulo. siempre que dicha matriz tiene una columna de “unos”—. Por consiguiente (3. (y − X β) + (X β − y) > (2. Claramente. por ejemplo.44) 2 2 ˆ ˆ ˆ ˆ = y − X β + X β − y + 2 < y − X β. R2 = cos2 α o 31 y ǫ ˆ ˆ Xβ y Teorema 2. 0 ≤ R ≤ 1. ´ Definimos R2 = SSR/SST .5. (X β − y) ∈ M.1: X β es la proyecci´n de y sobre M. ya que de (3.45) se reduce a (3. EL COEFICIENTE R2 ˆ Figura 2.43) ˆ ˆ ˆ ˆ = < (y − X β) + (X β − y).

diferencia de suma de cuadrados entre el modelo ampliado y el m´ ınimo. . 25).1. su unico regresor (la columna de “unos”) ha de estar entre los ´ regresores del otro. y como ambos sumandos son no negativos (son cocientes SST de sumas de cuadrados). es decir. uno de los modelos (el m´ a ınimo) ha de estar anidado en el otro. que hemos represena e ˆ tado como el plano horizontal.41) es f´cil de visualizar con ayuda de la ilustraci´n esa o quem´tica en la Fig. Si regresamos y sobre varios regresores incluyendo la columna de “unos” obtenemos una suma de cuadrados de los residuos igual a SSE que nunca puede ser superior a SST .5. y que y est´ pr´ximo a su proyecci´n en n a o o M. En efecto: al a˜ adir regresores el n ajuste no puede empeorar (¿por qu´?). el numerador de R2 es SST −SSE. Es f´cil de entender: puede que los regrea sores ensayados no den cuenta de la variabilidad de y . Observaci´n 2. ya no podr´ asegurarse que ǫ y (X β − y) son ıa ˆ ortogonales. Obs´rvese que para que esta interpretaci´n sea e o v´lida. Si acontece que y tiene poca variabilidad en torno a su media.8 Si ajustamos un modelo sin columna de“unos” o podemos encontrarnos con que R2 definido como en el Teorema 3. Observaci´n 2. R2 grande implica que el a ´ngulo referido es peque˜ o. obtenemos un unico coeficiente de regresi´n estimado. En efecto. R2 necesariamente ha de tomar valores entre 0 y 1.32 ´ ´ CAP´ ITULO 2. Por el contrario. es una generalizaci´n N-dimensional del teorema a o de Pit´goras.7 Si regresamos y solamente sobre una columna o ˆ de “unos”. y SST − SSE puede f´cilmente a n a ser negativo. 3. Obs´rvese que si y no perteneciera a M. Un valor “grande” de R2 podemos interpretarlo como una mejora sustancial del modelo m´ ınimo al incluir regresores distintos de la columna de “unos”. Un valor “peque˜ o” de R2 significa que este coseno es “pen (X β que˜ o”. El denominador SST meramente normaliza el numerador anterior para que tome valores entre 0 y 1. El coeficiente R2 puede verse e como una medida de la mejora en el ajuste atribuible a los regresores distintos de la columna de “unos”. SST puede interpretarse como la suma de cuadrados de los residuos de este modelo m´ ınimo. ESTIMACION M´ INIMO CUADRATICA. Observaci´n 2. y el ´ngulo correspondiente “grande”. es decir.1 puede visualizarse R2 como o el coseno al cuadrado del ´ngulo que forman los vectores (y − y) y a ˆ − y). que y est´ muy n a a elevado sobre el plano M . y SSE sea por tanto grande. p´g. SST ser´ en cambio peque˜ o. β0 ´ o o o a que resulta ser igual a y (se comprob´ en la Observaci´n 3. luego 1 = R2 + SSE .6 En la Figura 3.4 puede ser menor que cero. La igualdad (3.

33 2.2.6.2 Prefijadas las bases en H y M ⊆ H.14). Algunos lemas sobre proyecciones. la aplicaci´n lineal que o proyecta sobre M tiene por asociada una unica matriz PM .6. y M un subespacio. resultan utiles en demostraciones posteriores. Observaci´n 2.3 La matriz de proyecci´n sobre M puede ser expresada as´ o ı: PM = T T ′ . p´g. Los siguientes resultados. de muy sencilla prueba en la mayor´ de los ıa casos. La proyecci´n es una aplicaci´n lineal (v´ase soluci´n al ´ o o e o Ejercicio 2.9 Cuando no hay columna de “unos” algunos o programas de ordenador autom´ticamente sustituyen SST por a ||y ||2 (suma de cuadrados de las desviaciones respecto del origen en lugar de respecto a la media). Todo y ∈ H tiene expresi´n unica en la forma: y = u + v. ´ ´ Demostracion: Es una especializaci´n del resultado seg´n el cual. prefijadas las bases o u en ambos espacios.1 Sea H un espacio vectorial. con u ∈ M y v ∈ M ⊥ . Lema 2. o ´ ´ Demostracion: Es una consecuencia inmediata de la unicidad de la proyecci´n (Teoreo ma 2. siendo T una matriz cuyas columnas forman una base ortonormal de M ⊂ H. ALGUNOS LEMAS SOBRE PROYECCIONES. la matriz que representa una aplicaci´n lineal de uno o en otro es unica.1. ´ Lema 2. a Lema 2. 10). . Ello da lugar a una definici´n alternativa de o R2 que evita que pueda ser negativa.

. | vp Siempre podemos completar {v1 . . . 93). los N −p vectores adicionales pueden tomarse ortogonales entre a s´ y a los de T . utilizando el procedimiento de ı ortogonalizaci´n de Gram-Schmidt. ESTIMACION M´ INIMO CUADRATICA. .47) en virtud de la ortonormalidad de los vectores {vi }. Grafe (1985). p´g. . . . obtenemos: N N vi ′ y = vi ′ j=1 cj vj = j=1 cj (vi ′ vj ) = ci . ´ Demostracion: Sea N la dimensi´n de H y p la dimensi´n de M. Premultiplicando ambos lados de (3. . Entonces. . . N) las coordenadas de y en la base escogida. . . .46) siendo ci (i = 1. p´g. u = PM y puede escribirse as´ ı: .34 ´ ´ CAP´ ITULO 2. e a 79). ∈M ⊥ (2. .46) por vi ′ (i = 1. . y normalizados (por ejemplo. Entonces. p). (2. . . Adem´s. . . vN } hasta obtener una base de H (v´ase por ej. vp una base o o de M formada por vectores ortonormales. y T la matriz N × p siguiente: T = v1 | v2 | . v´ase Grafe (1985). vp } con N − p vectores adicionales {vp+1 . . . . Sea v1 . o e a para cualquier y ∈ H tendremos: p N y = i=1 ci vi ∈M + j=p+1 cj vj .

e ´ Demostracion: La matriz PM es unica (Lema 3. vp ′ y   v1 ′  v2 ′     . y  .   . vp ′ = v1 | v2 | · · · | vp = v1 | v2 | · · · | vp = T T ′y Lema 2. siendo C una matriz cualquiera.3).2) y puede expresarse siempre como T T ′ ´ (Lema 3. 35 u = PM y p = i=1 (vi ′ y )vi   v1 ′ y  v2 ′ y     .4 La matriz PM es sim´trica idempotente. Entonces: R(PM ) = M. Lema 2.  . ALGUNOS LEMAS SOBRE PROYECCIONES.6. . Entonces: ′ PM = (T T ′)′ = T T ′ = PM PM PM = T T ′T T ′ = T (T ′ T )T ′ = T T ′ = PM .  . PM denota la matriz de proyecci´n sobre o un cierto subespacio M.2.5 Denotamos por R(C) el subespacio generado por las columnas de C.

siendo D − una pseudoo inversa.49) es compatible.48) En general. Definici´n 2. ESTIMACION M´ INIMO CUADRATICA.2 Sea D una matriz cualquiera. una soluci´n viene dada por z = D − c. Lema 2. D − = D −1 . Claramente.36 ´ ´ CAP´ ITULO 2. Decimos que o D − es una pseudo-inversa (o inversa generalizada) de D si: DD − D = D (2. ´ Demostracion: Consideremos la identidad y = P y + (I − P )y . que. para todo x ∈ M. idempotente. Si el sistema: Dz = c (2. D − as´ definida no es unica.5. PM x = x =⇒ M ⊆ R(PM ). de acuerdo con el Lema 3.8 Sea D una matriz m × n cualquiera. Por otra parte. (I − P )y ⊥ P y y adem´s (I − P )y = y − P y es ortogonal a P y . o (I −PM ) es sim´trica.6 Si PM es la matriz asociada al operador de proyecci´n sobre M. P y es a proyecci´n de y sobre un cierto subespacio. ´ Demostracion: Claramente R(PM ) ⊆ M. ´ Demostracion: Es consecuencia inmediata de los Lemas 3. y est´ asociada al operador de proyecci´n e a o ⊥ sobre M . Lema 2. Por tanto.7 Toda matriz sim´trica idempotente P representa una proyecci´n e o ortogonal sobre el subespacio generado por las columnas de P . Sea c una matriz m × 1 y z un vector de variables. En el caso particular de que D ı ´ sea una matriz cuadrada de rango completo. Lema 2. . de orden m × n.4. o es el generado por las columnas de P .1 y 3.

o 37 (2.48) deducimos: DD − Dz = c y sustituyendo (3. u cada una de las cuales da lugar a una diferente soluci´n del sistema (3.9 Si M = R(X).6. La o o a unicidad de la matriz de proyecci´n.49) puede expresarse como D c para alguna elecci´n de D . o Lema 2. es posible probar un resultado algo m´s fuerte1 .52) En realidad. fue objeto del Lema 3.49) en (3. y c = X ′ y.2. z = β. ´ Demostracion: De (3. entonces PM = X(X ′ X)− X ′ . 17: a ˆ X ′X β = X ′y (2. o ′ Como se ha indicado. Teorema 8. 1 Cf. ya a o ´ ′ − que hay m´ltiples (X X) en general). a . el lema anterior garantiza que − ′ ˆ (X X) X y ser´ una posible soluci´n para β (no necesariamente unica. hay en general m´ltiples inversas generalizadas D − .52). 26.51) (2.49).5) en la p´g. Searle (1971).50) (2. y verificar las ecuaciones normales (3. 10.50): DD − c = c D(D − c) = c lo que muestra que D − c es soluci´n de (3. Su proyecci´n sobre R(X) ha de ser de la o ˆ forma X β. y X(X X) X es la unica matriz de proyecci´n. p´g. o ´ o La unicidad de la proyecci´n se demostr´ en el Teorema 2. toda soluci´n a o − − de (3.2. no obstante.51)– o (3. p´g. ALGUNOS LEMAS SOBRE PROYECCIONES. X(X ′ X)− X ′ y es la unica u ´ ′ − ′ proyecci´n de y sobre M.53) ˆ Identificando D = X ′ X. ´ Demostracion: Sea y un vector cualquiera.1.

Ben-Israel and Greville (1974) y Rao a and Mitra (1971).r-project.38 ´ ´ CAP´ ITULO 2. proyecciones. hay mucha documentaci´n on line sobre R. Searle (1971) y Abadir and Magnus (2005) ı. Como se indic´. como o o Venables et al. a Draper and Smith (1998) tiene un cap´ ıtulo completo (el 20) mostrando el problema de la estimaci´n MCO desde un punto de vista geom´trico. similar o e al empleado aqu´ Searle (1982). etc. Seber (1977). (1997) (hay traducci´n castellana. son buenas referencias. adem´s de Searle (1982). una relaci´n actualizada puede obtenerse en http://cran. Para las cuestiones de ´lgebra matricial. un o poco desfasada).7. 2. Son de utilidad las referencias indicadas en el Cap´ ıtulo precedente. Sobre R. Lectura recomendada Sobre la teor´ ıa. Sobre matrices inversas generalizadas. Venables et al.org/. Maindonald (2000) o Kuhnert and Venables (2005). (2000). 3 cubre completamente la materia de este cap´ ıtulo. pueden verse. Cap. o . ESTIMACION M´ INIMO CUADRATICA. en particular.

e 39 2. 23): si c ′ β es cualquier o o a forma lineal.matrix(c(2. proporciona no obstante una soluci´n n o ˆ ˆ de β. Las siguientes condiciones. + 2. compru´bese que. para probar la afire maci´n hecha al final de la Secci´n 3.1 ¿Que efecto tienen sobre los estimadores β cambios en la escala de los regresores en X?. la primera de las cu´les coincide con (3. 0. . 0). D − DD− = D − .4 La Definici´n 3. Sobre inversas generalizadas e inversas de Moore-Penrose puede consultarse Searle (1971) y Rao and Mitra (1971) 2.4) Cuando la funci´n lsfit de R encuentra una matriz o de dise˜ o de rango incompleto. . 24) para mostrar que SSE/(N − p) es un estimador insesgado de a σ 2 . en el caso de rango completo el estimador insesgado de ˆ varianza m´ ınima de c ′ β es c ′ β. dada una muestra aleatoria simple Z1 . haciendo un c´mputo en esencia equivalente a β = (X ′ X)− X ′ y . 2. 2.2.7.39). . p´g.4 (p´g. p´g. 2) > XX .48). Demu´strese.2. e el estimador de la varianza 2 σZ = 1 n n (Zi − Z)2 i=1 no es insesgado. e A la unica matriz D − as´ especificada se la denomina inversa de Moore´ ı Penrose. no individualiza una unica invero a ´ sa generalizada. a proporcionan una unica definici´n de inversa generalizada (la inversa ´ o de Moore-Penrose): DD− D = D.3 Exti´ndase el teorema de Gauss-Markov. D − D y DD − sim´tricas.5 (↑ 3. 36.2 Haciendo uso del mismo argumento empleado (en (3. . salvo cuando D es cuadrada de rango completo. Zn . LECTURA RECOMENDADA Complementos y ejercicios ˆ 2. o Podemos llevar a cabo el c´lculo de la inversa generalizada de Moorea Penrose mediante la funci´n ginv del paquete MASS (asociado al libro o Venables and Ripley (1999a)) > library(MASS) > XX <. 0.

2] [1.] 0. .2] 2 0 0 0 > XXig %*% XX %*% XXig [1.2] [1.] 0 0 > XX %*% XXig [.1] [.1] [.1] [.5 0 [2. p´g. El vector de residuos de esta regresi´n es e o ortogonal al primero.1] [.] 0.1] [.1] [.] 1 0 [2.ginv(XX) > XXig [. 15.40 ´ ´ CAP´ ITULO 2.] [2. haciendo uso e a de regresi´n lineal. [.0 0 Observemos que las condiciones que definen a la inversa de MoorePenrose se verifican. (Ayuda: basta normalizar el primer vector y reo gresar el segundo sobre ´l.6) Escr´ ıbase una funci´n en R que resuelva el probleo ma 3.2] [1.] 2 0 [2.6 de un modo completamente general: debe admitir como unico ´ argumento una matrix de rango completo cuyas columnas contengan los vectores a ortonormalizar.) 2.] 0 0 2.] 1 0 [2. > XX %*% XXig %*% XX [1.6 (↑ 2.] [. y devolver una matrix de las mismas dimensiones cuyas columnas sean los vectores ortonormalizados.0 0 > XXig %*% XX [.2] 0.] 0 0 > XXig <. ESTIMACION M´ INIMO CUADRATICA.13.13) Resu´lvase el problema 2.] [2.2] [1.5 0 0.7 (↑ 3.] [.

el origen es arbitrario.7.9. 4.7 −6. 3.0  2.5   3. 4. -2.7. Salvo que haya buenos motivos para o ello. especialmente o si.9 ¿Cu´ndo incluir y cu´ndo no una columna de “unos”? En a a general.5.) o a Supongamos ahora que otro investigador repite el mismo an´lisis.lsfit(X. 3. disminuye en 0. -6. no puede e empeorar al a˜ adir regresores. n 41 2.1)(↑ 3.10 (↑ 3. o o a de acuerdo con la cual el ajuste. intercept = FALSE) ajuste$coefficients X -0. Los resultados o pueden verse en el siguiente fragmento en R: > + > + > > y <.c(-10. cuesti´n que abordaremos m´s adelante. medida en unidades adecuadas) est´ influida por la a temperatura (X1 .8. p´g.6 Imaginemos que ajusta una regresi´n a dichos datos.8  3. como sucede en multitud de ocasiones. (Quedar´ por ver si la estimaci´n del coeficiente de regresi´n o ıa o o es de fiar. y. medida en grados cent´ ıgrados). no querremos forzar tal cosa en nuestra regresi´n.c(5.8 −10 4. ´ lo que estar´ ıamos tentados de interpretar as´ por cada grado que auı: menta la temperatura.2     4. siempre convendr´ hacerlo. 32.1) X <.8.447984 la velocidad de sedimentaci´n. 2.2.44798 El coeficiente que afecta a la unica variable es negativo (= −0. Las unicas situaciones en que no a ´ ser´ conveniente son aqu´llas en que la columna de unos crear´ una a e ıa dependencia lineal exacta entre las columnas de la matriz X. Cuenta con las siguientes observaciones:     5. 4.9) Pensemos en la siguiente situaci´n: un inveso tigador est´ interesado en dilucidar si la velocidad de sedimentaci´n a o de un fluido (y.1 4. El no incluir columna de “unos” fuerza a la recta (o hiperplano) de regresi´n a pasar por el origen.447984). medido en t´rminos de SSE. LECTURA RECOMENDADA 2.9 y =  X1 = −2.2. 2.6) ajuste <. a pero en lugar de expresar las temperaturas en grados cent´ ıgrados (C) .8 Justif´ ıquese la afirmaci´n hecha en la Observaci´n 3.7.

2.8.8. a siempre haciendo una regresi´n pasando por el origen. 4. El problema desaparece si incluimos una columna de unos en ambos an´lisis. 4.8. 4.7. ser´ ahora: o ıan > + > + > > > y <.c(-10.2. 3.11482 > ajuste$coefficients[2] * + (9/5) X -0. 3.5.5. 4.1) X <.20667 Intercept 3.c(5. intercept = FALSE) ajuste$coefficients X 0.6) ajuste <. 4. -2.2. 3.7.42 ´ ´ CAP´ ITULO 2. > + > + > > y <. 4. tenemos motivo para preoo cuparnos si llegamos a conclusiones diferentes dependiendo de nuestra elecci´n de los sistemas de medida —enteramente convencionales o ambos—.9.12265 ¡Ahora el coeficiente afectando a la variable temperatura es positivo.8. dando la impresi´n de una asociaci´n directa entre temperatura y o o velocidad de sedimentaci´n! Claramente.lsfit(X.20667 .(9/5) * X + 32 > ajuste <.9. Los c´lculos. lo hace en grados Fahrenheit (F) cuya relaci´n con los cent´ o ıgrados 5 9 viene dada por C = 9 (F − 32) (⇒ F = 5 C + 32).lsfit(X. 3.80119 > X <.(9/5) * X + 32 ajuste <. -6.c(5. para dar cuenta de los diferentes or´ a ıgenes. y.c(-10. 2. ESTIMACION M´ INIMO CUADRATICA.lsfit(X.1) X <. -2. -6. y) > ajuste$coefficients Intercept 7.6) X <.47538 X -0. y) ajuste$coefficients X -0.

2. Dichas rectas de regresi´n o o y las gr´ficas se han generado mediante a > + + > > + > + > > > > + > > > > > > + > > > > postscript(file = "demo2d. 1)) y <. 4. 4.c(-10.6) ajuste <. 3. .0)") abline(a = 0. b = ajuste$coefficients) text(x = 0.2. LECTURA RECOMENDADA Los coeficientes de X no son ahora iguales (porque los grados Fahrenheit son m´s “peque˜ os”).2 los puntos muestrales (en escalas comparables) y las respectivas rectas de regresi´n.c(5. intercept = FALSE) par(xlim = c(-25.dev. y = 0.0)") F <.9. intercept = FALSE) plot(F. horizontal = FALSE.5. La inversi´n del signo del coeficiente se explica o comparando en la Figura 3. 5)) title(main = "Ajuste en grados centigrados") abline(a = 0.5. height = 10) par(mfcol = c(2. ylim = c(-0. 41)) title(main = "Ajuste en grados Fahrenheit") text(x = 0.7. y. b = ajuste$coefficients) scratch <. pero si relacionados por un factor de a n escala y dar´ lugar a la misma conclusi´n de asociaci´n inversa enıan o o tre ambas magnitudes.5. y.8. y. width = 5.8.lsfit(C. 6)) plot(C.eps".off() 43 Puede verse que el forzar a ambas a pasar por el origen las obliga a tener pendiente de signo opuesto para aproximar la nube de puntos. 3.(9/5) * C + 32 ajuste <. labels = "(0. y. y = 0. labels = "(0.lsfit(F.2. 5)) par(ylim = c(-0.7. -6. 4.1) C <. -2. ylim = c(-0. xlim = c(-13. xlim = c(-25. 6).5. 6).

44 ´ ´ CAP´ ITULO 2.2: En un ajuste sin t´rmino constante.0) 0 −25 −20 −15 −10 C −5 0 5 Ajuste en grados Fahrenheit 6 y 1 2 3 4 5 (0. ESTIMACION M´ INIMO CUADRATICA. la pendiente depende de la e elecci´n arbitraria del origen o Ajuste en grados centigrados 6 y 1 2 3 4 5 (0.0) 0 −10 0 10 F 20 30 40 . Figura 2.

Xp−1 son linealmente independientes.3. Xp−1 no son linealmente independientes. βp−1 que permiten expresar PM y como combinaci´n lineal de dichos vectores son unicos. o ´ Si. ´ La Figura 4.) Ocurre sin embargo (Lema 3. . Modelos con matriz de dise˜ o de rango n deficiente. Cuando ´sto no ocurre. . . . . . Xp−1 que lo generan. Se dice que hay mula ticolinealidad exacta entre las columnas de la matriz de dise˜o X. . n 45 .1 resulta iluminante a este respecto. Colinealidad o exacta 3. los vectores X0 . . . . Si X0 . . forman base Xβ ´ ˆ ˆ del espacio que generan. No hay por tanto o una unica estimaci´n m´ ´ o ınimo cuadr´tica del vector β . . 7.1. p´g. . ´ o (Recu´rdese que R(X) designa el subespacio generado por las columnas de e ˆ X. como acontece en el caso de rango deficiente de la matriz X. hay infinidad de maneras de expresar PM y como combinaci´n lineal de ellos. el plano horizontal representa M. p. La proyecci´n e o ˆ es unica. . tal como ha quedado demostrado. y en ´l yacen los vectores X0 . sigue habiendo una u e unica proyecci´n de y sobre M = R(X). o a apartados 1 a 3) es que el rango de la matriz de dise˜o X coincide con n el n´mero de sus columnas. Uno de los que hemos llamado supuestos habituales (Secci´n 2. .9) que β = (X ′ X)− X ′ y no es unico.Cap´ ıtulo 3 Identificaci´n. . y los coeficientes β0 .

dividida entre dos. 7  8 4 Observemos que la primera columna.46 ´ CAP´ ITULO 3. COLINEALIDAD EXACTA Figura 3. Puede o verse que X0 y X1 yacen uno sobre otro. puede expresarse de manera ı. es igual a la segunda. o Ejemplo 3.1: Regresi´n en el caso de matrix X de rango deficiente. o y X p−1 ˆ Xβ X1 X0 Una matriz de dise˜o de rango deficiente es demasiado “pobre” para desn lindar todos los efectos de inter´s: no podemos con la informaci´n disponible e o deslindar la relaci´n de cada uno de los regresores con la variable respuesta. ´ o o Podemos estimar β2 . X0 . o pero puede ocurrir que si lo podamos deslindar con algunos. pero no β0 ´ β1 : no es posible adscribir a uno de o ellos la “parte” de PM y colineal con la direcci´n com´ n de X 0 y X 1 . La Figura 4.1 Imaginemos una matriz de dise˜ o como n  1 1  2  2  1 1 2 2 4 4 2 2  3 5  1 . El Ejemplo 4. o u . o o En un caso as´ la proyecci´n. difiriendo s´lo en el m´dulo. X1 . o unica como combinaci´n lineal de X 2 y uno de los vectores X 0 ´ X 1 . IDENTIFICACION. PM y .1 a continuaci´n lo ilustra.2 ilustra una situaci´n similar.

1 La funci´n lineal a ′ β es estimable si a ∈ R(X ′ ).2: Caso de un vector β parcialmente estimable. FUNCIONES ESTIMABLES. o .2. 47 Figura 3. puede haber algunos par´metros o combinaciones lineales de a par´metros que s´ puedan estimarse. ˆ ıvocamente Incluso aunque el vector β no sea estimable por no estar β un´ determinado. y X2 X0 X1 PM y Fin del ejemplo La noci´n de funci´n estimable a continuaci´n permite caracterizar situao o o ciones como la mostrada en el ejemplo anterior. 3.2. Funciones estimables.3. o Teorema 3.1 Decimos que una funci´n lineal de los par´metros a ′ β es o o a estimable si existe un vector c de constantes tal que: E[c ′ Y ] = a ′ β El Teorema a continuaci´n permite caracterizar las funciones estimables. a ı Definici´n 3.

ha de existir c tal que: c ′ X = a ′ . si queremos estimar a ′ β y a ′ coincide con la j-´sima fila e xj ′ de la matriz X. Entonces. pues: E[Yj ] = E[xj ′ β + ǫj ] = E[a ′ β + ǫj ] = a ′ β . o Hemos visto que la inestimabilidad de los par´metros es consecuencia de a la indeterminaci´n del sistema de ecuaciones normales: o ˆ (X ′ X)β = X ′ y Si contamos con informaci´n adicional sobre β que podamos imponer sobre o ˆ el vector de estimadores β. . . Son estimables aqu´llas combinaciones lineales de los e par´metros cuyos coeficientes coinciden con los dados por filas de X. en que e i es un vector de ceros con un 1 en posio ci´n i–´sima. la combinaci´n lineal an´loga de o o a observaciones en el vector Y es un estimador insesgado de a ′ β . e p } (que son linealmente a a independientes) est´n en R(X ′ ).2 El enunciado del Teorema 4. Esto requiere que la dimensi´n de a o R(X ′ ) sea p. Observaci´n 3.1) ha de verificarse para cualesquiera valores de β . De manera an´loga se demuestra que si a puede expresarse como a combinaci´n lineal de filas de X. a En efecto. Por ejemplo. IDENTIFICACION. βi . podemos a˜adir al anterior sistema ecuaciones n adicionales que reduzcan o resuelvan la indeterminaci´n.3. βi es estimable si e i ∈ R(X ′ ). podemos ver βi como la a funci´n lineal e ′ i+1 β . si suo pi´ramos que Aβ = c. La totalidad de o e los par´metros ser´n estimables si {e 1 . COLINEALIDAD EXACTA ´ Demostracion: a ′β = E[c ′ Y ] = E[c ′ (X β + ǫ )] = c ′ X β (3. Restricciones de identificaci´n.48 ´ CAP´ ITULO 3.1) Como (4. . En efecto. . Observaci´n 3. podr´ e ıamos formar el sistema: ˆ (X ′ X)β = X ′ y ˆ Aβ = c (3. es claro que Yj ser´ un estimador insesgado de ıa a ′ β . 3.2) (3. lo que demuestra que a ∈ R(X ′ ).1 tiene gran cono tenido intuitivo. es decir.3) . que X sea de rango completo.1 El teorema anterior incluye como caso partio cular el de par´metros aislados.

1. obtener estimaciones unicas de β .] [2.4) Habremos de realizar mediciones de la dureza con varias probetas de acero elaborado con los distintos tratamientos. Por tanto. Aβ = 1 con ıa A= 1 0 0 es una restricci´n de identificaci´n. y) [1. 3).9853 0 0 1 4.] [7.2 Retomemos el Ejemplo 4. y cero en caso contrario. o o Fin del ejemplo Una matriz de dise˜o de rango incompleto se puede presentar por falta de n cuidado al dise˜ar el experimento. dice entonces que las relaciones Aβ o Ejemplo 3. es intencional. La variable explicativa o regresor i-´simo tomar´ el valor 1 e a cuando se emplee el tratamiento i-´simo.3619 1 0 0 4. y estimar dicho lmodelo. m´s frecuentemente. RESTRICCIONES DE IDENTIFICACION.4247 .0601 0 0 1 3. pero. R: Ejemplo 3.2] [. Vimos que β era parcialmente estimable.] [.8403 0 1 0 5. supi´ramos que β0 = 1. y que el problema resid´ en que la componente ıa de PM y colineal con la direcci´n (com´ n) de X0 y X1 no puede ser o u “distribuida” entre ambos. (i = 1.] [4.1 ilustra este punto.2419 0 1 0 6.1 Supongamos que se investiga el efecto de tres diferentes tratamientos t´rmicos sobre la dureza de un acero. el e problema dejar´ de existir.3] [.3579 0 1 0 4. 2.] [9.] [6.] [8. (3.3.4] 1 0 0 4. 49 y.] [3. Si.2087 0 0 1 3.8150 1 0 0 4. n a El Ejemplo 4. Podemos e pensar en el modelo: Y = β1 X1 + β2 X2 + β3 X3 + ǫ. dependiendo del rango de X ′ X y A.1] [. no obstante. Consideremos los e datos siguientes: > cbind(X. e Con esta especificaci´n βi . Se ´ ˆ = c son restricciones de identificaci´n. se interpretar´ como la dureza o a estimada derivada de utilizar el tratamiento i-´simo.´ 3.] [5.

39865 > SSE <.68824 X2 1.39865 > SSE <.23672 -0. con lo que obtenemos: > ajuste2 <.14972 -0.18841 0. y.58995 -0.3687 Podr´ ıamos pensar.30342 -0. y.5) En esta nueva parametrizaci´n.sum(ajuste1$residuals^2) > SSE [1] 1.18841 0. (3. sin embargo.14972 -0.8234 > ajuste1$residuals [1] [6] 0. β0 ser´ una dureza “media” y β1 a o ıa β3 recoger´ el efecto diferencial (respecto de dicha dureza “media”) ıan resultado de emplear cada uno de los tres tratamientos.16193 0. basta omitir el argumento intercept=FALSE.00000 > ajuste2$residuals [1] [6] 0.5116 5. Para introducir en el modelo β0 multiplicando a una columna de “unos”.23672 -0.82339 X1 0.77837 0.15371 -0.60690 X3 0. intercept = FALSE) > ajuste1$coefficients X1 X2 X3 4.30342 -0.16193 0.77837 0.lsfit(X.3687 . COLINEALIDAD EXACTA Podemos estimar los par´metros mediante a > ajuste1 <.sum(ajuste1$residuals^2) > SSE [1] 1.58995 -0.50 ´ CAP´ ITULO 3.15371 -0.4303 3. IDENTIFICACION. en adoptar una diferente parametrizaci´n: o Y = β0 + β1 X1 + β2 X2 + β3 X3 + ǫ. intercept = TRUE) > ajuste2$coefficients Intercept 3.lsfit(X.

que son iguales. El tratamiento 3 pasa as´ a o ı convertirse en caso de referencia y la dureza atribuible al mismo viene ˆ ˆ ˆ medida por β0 =3. Fin del ejemplo 51 3. e En el segundo ajuste. o tratamiento 3. lsfit ha proporcionado una estimaci´n de o los par´metros. Esto ıa. y dados. no podemos dise˜ar nuestro experin mento y nos vemos obligados a utilizar unos datos X. aunque no precisamente de rango incompleto. lsfit ha tomado una restricci´n o identificadora arbitraria —ha hecho β3 = 0— y proporcionado una de las infinitas soluciones equivalentes. fruto habitualmente de una decisi´n n o consciente. . dificultades para seleccionar un modelo adecuado. Si. igual en los dos casos.3. es. a pesar de que el rango de la matriz X ampliada con a una columna de“unos”es incompleto.3687. β1 + β2 + β3 = 0. puede ocurrir que la matriz X. como se ha visto. como muestran los resie duos. proporcione una matriz (X ′ X) “casi” singular. X3 y estos tres o vectores m´s la columna de “unos” son id´nticos. . β3 ser´ desviaıa o ıan ciones respecto de esta dureza media. Podr´ ıamos adoptar restricciones de identificaci´n diferentes. β0 o tendr´ la interpretaci´n de “dureza media” y β1 . Las proyecciones han a e de serlo tambi´n. β2 . Escogemos un dise˜o de rango incompleto. y SSE =1. grandes varianzas de los estimadores y otros inconvenientes a los que nos referiremos en el Cap´ ıtulo 10.4. dado que los subespacios que generan X1 . resultado l´gico. Una o muy habitual ser´ en el caso que nos ocupa. Los valores estimados β1 y β2 miden as´ las ı diferencias de dureza de los tratamientos 1 y 2 respecto del caso de referencia. Esto se traduce en dificultades num´ricas e para resolver las ecuaciones normales. a o En la medida en que la matriz X sea de nuestra elecci´n. . La restricci´n adoptada hace β3 = 0.8234. . equivale a forzar que los efectos diferenciales de los tres tratamientos no puedan ser todos positivos o negativos. Multicolinealidad exacta y aproximada La existencia de dependencia lineal “exacta” entre las columnas de la matriz de dise˜o X. pero lo suplementamos n con restricciones de identificaci´n que solventan el problema de la estimaci´n o o y dotan a los par´metros de la interpretaci´n que deseamos.4. Con esta restricci´n. . MULTICOLINEALIDAD EXACTA Y APROXIMADA Observemos que los dos ajustes son id´nticos. por el contrario. siempre podemos o eludir el problema.

4.52 ´ CAP´ ITULO 3.8. por ejemplo. COLINEALIDAD EXACTA 3. o Draper and Smith (1998). o . Lectura recomendada. IDENTIFICACION. Pueden verse Seber (1977). Secci´n 3. Seco ci´n 20.5.

determine un unico vector de ´ ˆ estimadores β. junto con las ecuaciones normales. Planteamiento del problema. Puede que el conjunto de restricciones que impongamos sea o tal que. ya para hacer el modelo interpretable ya porque as´ lo ı imponen criterios extra-estad´ ısticos. En tal caso.1 Si quisi´ramos estimar los par´metros de una fune a ci´n de producci´n Cobb-Douglas Q = αLℓ K γ . partimos de un modelo ya identificable (con soluci´n unica para las ecuaciones normales). Las restricciones se han limitado a remover la indeterminaci´n o presente en las ecuaciones normales.1.2). sin embargo. N´tese que no nos estamos refiriendo exclusivamente a restricciones de o identificaci´n. en un problema que previamente admit´ m´ltiples soluciones ıa u (como suced´ en el Ejemplo 4. la restricci´n es inneo cesaria desde el punto de vista de la estimabilidad de los par´metros. o Ejemplo 4. En otras ocasiones. En ocasiones deseamos imponer a las estimaciones de los par´metros β a ciertas condiciones. pero no obstante deseamos o ´ imponer una restricci´n que viene dictada al margen de los datos. todo se reduce a resolver el ıa sistema (4.3). ℓ y γ. como ilustra o el ejemplo a continuaci´n. Con tres o m´s observaa ciones es perfectamente posible estimar α. a No obstante. puede formar parte de la especificaci´n que deseamos: o 53 .Cap´ ıtulo 4 Estimaci´n con restricciones o 4. podr´ o o ıamos desear que las estimaciones de los par´metros ℓ y γ verificaran la condici´n a o ˆ ˆ ℓ + γ = 1 (rendimientos constantes a escala).

′ derivando respecto a β0 . 4. Para ello habremos de transformar el problema en otro equivalente. .1 Si K(C) designa el n´cleo de la aplicaci´n lineal representada por u o la matriz C. Lemas auxiliares. ESTIMACION CON RESTRICCIONES no queremos ajustar cualquier funci´n de producci´n Cobb-Douglas a o o nuestros datos. . Previamente precisamos e o algunos resultados instrumentales.3). an´logo al sea guido con el problema incondicionado: proyectando y sobre un subespacio adecuado. βp−1 y a los multiplicadores de Lagrange en el vector λ. . nos planteamos el problema siguiente: ˆ m´ y − X β ın 2 ˆ condicionado a : Aβ = c (4. . − βp−1 xi. . . N L(β0 .1) o escribiendo el lagrangiano. Resolveremos el problema por un procedimiento diferente. de algunos de los cuales nos serviremos repetidamente en lo que sigue. .2.1) Est´ claro que no podemos esperar obtener la soluci´n de este problema a o resolviendo un sistema como (4. Poıas demos recurrir a resolver el problema de optimizaci´n condicionada (5. e igualando las derivadas a cero. βp−1 ) = i=1 ˆ (yi − β0 xi0 − .p−1 )2 − λ (Aβ − c). Fin del ejemplo De un modo general. que nos permita utilizar la t´cnica de la proyecci´n. sino una con rendimientos constantes a la escala. Lema 4. . que en general ser´ incompatible. a Hay al menos dos v´ para resolver un problema como el indicado. se tiene: K(C) = [R(C ′ )]⊥ ´ Demostracion: x ∈ K(C) ⇐⇒ Cx = 0 ⇐⇒ x ′ C ′ = 0 ′ ⇐⇒ x ⊥ R(C ′ ) . . obtendr´ ıamos una soluci´n o que mediante las condiciones de segundo orden podr´ ıamos comprobar que corresponde a un m´ ınimo. .54 ´ CAP´ ITULO 4.

PM v = Ph v + (PM v − Ph v) en la que Ph v ∈ h ⊆ M mientras que (PM v − Ph v) ∈ M.2. Sea M un subespacio de H y h = M ∩K(B). se tiene: PM − Ph = PM ∩h⊥ ´ Demostracion: Partimos de la identidad. lo denotaremos mediante M ∩ h⊥ . Lema 4.4) implica entonces que: Ph = Ph = Ph PM = ıa Ph PM . 55 Lema 4. LEMAS AUXILIARES. Por otra parte. proyecta sobre un subespacio ortogonal a h e inclu´ e ıdo en M. y K(B) el n´cleo de la aplicaci´n u o lineal que representa.4 Sea B una matriz cualquiera. que es ´ sim´trica idempotente. la ultima igualdad en virtud del Lema 5.4. se verifica: PM Ph = Ph PM = Ph ´ Demostracion: Para cualquier v ∈ H.2. y Ph .2 Si h ⊆ M ⊆ H. (PM −Ph ). Por consiguiente. Ph v ∈ h ⊆ M ⇒ PM Ph v = Ph v ⇒ PM Ph = Ph ′ ′ ′ La simetr´ de PM y Ph (Lema 3. Entonces.2.3 Si h ⊆ M ⊆ H. (PM v − Ph v) > = v ′ Ph (PM v − Ph v) = v ′ (Ph PM − Ph )v = 0. Lema 4. o e a . M ∩ h⊥ = R(PM B ′ ). La demostraci´n puede hallarse en el Ap´ndice E. p´g. < Ph v. 256. PM son las matrices de proyecci´n sobre o los subespacios respectivos.

la idea es muy simple. Se tiene entonces que: y Aβ = X β + ǫ =⇒ y − X δ = X β − X δ + ǫ =⇒ y = Xγ + ǫ ˜ = c =⇒ A(γ + δ ) = c =⇒ Aγ = c − Aδ =⇒ Aγ = 0 y el problema original (5. Estimaci´n condicionada. Basta proyectar y sobre h para obtener X γ y.3) siendo δ una soluci´n cualquiera de Aδ = c (de no existir tal soluci´n. no o o tendr´ sentido el problema. m´ y − X γ ın ˜ ˆ 2 2 condicionado a Aˆ = 0. (4. alternativamente. estar´ ıa ıamos imponiendo condiciones a los par´a metros imposibles de satisfacer).6) (4. γ condicionado a : A(X ′ X)−1 X ′ (X γ ) = 0.56 ´ CAP´ ITULO 4.5) (4.2) (4. ESTIMACION CON RESTRICCIONES 4. tenemos que: γ X γ h = Ph y ˆ ˜ = (PM − PM ∩h⊥ )˜ y ′ −1 ′ y = [X(X X) X − PM ∩h⊥ ]˜ (4. a Si denotamos por γh las estimaciones m´ ˆ ınimo cuadr´ticas condicionadas a o restringidas por Aˆ = 0.3. si X es de rango completo. (Supondremos X y a A de rango completo. pero es f´cil generalizar el tratamiento reemplazando a las inversas por inversas generalizadas. Vamos a transformar el modelo de modo que las restricciones Aβ = c se conviertan en Aβ = 0 .4) del problema comparada con la e o original? Una importante: muestra que el X γ buscado no es sino la proyecci´n ˆ o ′ ′ −1 de y sobre un cierto subespacio: h = M ∩ K(A(X X) X ).7) .1) puede ahora reescribirse as´ ı: m´ y − X γ ın ˜ ˆ o. o Los Lemas anteriores proporcionan todos los elementos para obtener de forma r´pida el estimador condicionado que buscamos. y esta proyecci´n ˜ ˆ ˆ o se puede obtener f´cilmente con ayuda de los Lemas anteriores.) Aunque el desarrollo formal es algo farragoso. ˆ (4. γ . Lo haremos mediante la transformaci´n o y = y − Xδ ˜ γ = β −δ. Hay garant´ de ˜ ıa que h es un subespacio porque M y K(A(X ′ X)−1 X ′ ) lo son.4) ¿Qu´ ventajas presenta la expresi´n (5.

10) (4. 37.6) ha hecho uso del Lema 5. proporciona: o X γh = X(X ′ X)−1 X ′ y − X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ y ˆ ˜ ˜ ′ ′ −1 ′ −1 ′ −1 = X γ − X(X X) A [A(X X) A ] Aˆ . Si X es de rango total.8) (v´ase el Ejercicio 5. ˆ γ (4. 57 en que el paso de (5. a el tratamiento anterior se generaliza de modo inmediato al caso de modelos de rango no completo.7). de acuerdo con el Lema 3.3.3. el lado izquierdo de (5. Es decir. En primer lugar. p´g. tomando valor a medio en (5. sin m´s que reemplazar en los lugares procedentes a matrices inversas por las correspondientes inversas generalizadas. o 2 1 Ello garantiza de manera autom´tica que y − X γh es m´ a ˜ ˆ ınimo .9) en que γ es el vector de estimadores m´ ˆ ınimo-cuadr´ticos ordinarios al regresar a y sobre X.10) vemos que: E[ˆh ] = γ − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 Aγ γ lo que muestra que γh es un estimador insesgado de γ si Aγ = 0. dado que los estimadores m´ ınimo cuadr´ticos ordinaa rios estiman insesgadamente los correspondientes par´metros. de (5.10). llevada a (5. PM ∩h⊥ es. ecuaci´n que.3. ˆ ˆ γ (4. como venimos suponiendo. a 1 .) e Hay algunas observaciones interesantes que hacer sobre las ecuaciones (5.9) se ˜ deduce: γh = γ − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 Aˆ .´ 4. ESTIMACION CONDICIONADA.9) es una proyecci´n. a PM ∩h⊥ = Z(Z ′ Z)−1 Z ′ . En segundo lugar. M ∩ h⊥ = R[X(X ′ X)−1 X ′ X(X ′ X)−1 A ′ ] = R[X(X ′ X)−1 A ′ ] PM B′ Z Por consiguiente.4.5) a (5. de acuerdo con el Lema 5.9) y (5.9. Adem´s. Pero es que. Si hubi´ramos llegado al mismo resultado minimizando una suma de cuadrados por e el procedimiento habitual (derivando un lagrangiano) tendr´ ıamos a´ n que mostrar que el u punto estacionario encontrado es un m´ ınimo y no un m´ximo. la ˆ insesgadez se mantiene si los par´metros realmente verifican las condiciones a impuestas sobre los estimadores.

d) + betas.vector(betas.names(ajuste$coefficients) + return(list(betas = betas.11) .solve(A %*% xxinv %*% t(A)) + betas.betas . puede introducir alg´n sesgo.inc = ajuste)) + } (4. que Σγh tiene en la diagonal principal varianzas no mayores que las ˆ correspondientes en Σγ . dado que el segundo sumando tiene claramente elementos no negativos en su diagonal principal (la matriz (X ′ X)−1 es definida no negativa).h <.as. A. d. pues. Por consiguiente. intercept = beta0) + betas <. y. No se ha buscado la eficiencia ni elegancia sino la correspondencia m´s directa con la teor´ expuesta a ıa m´s arriba.xxinv %*% t(A) %*% + axxa %*% (A %*% betas .h) <. ESTIMACION CON RESTRICCIONES En tercer lugar.h <.solve(t(X) %*% X) + axxa <.58 ´ CAP´ ITULO 4. La extensibilidad del lenguaje hace sin embargo o extraordinariamente f´cil el definirla.1 (estimaci´n condicionada) o No hay en R una funci´n de prop´sito general para realizar estio o maci´n condicionada. + ajuste. ˆ γ Σγh = ˆ = = = (I − G)Σγ (I − G′ ) ˆ 2 (I − G)σ (X ′ X)−1 (I − G′ ) σ 2 [(X ′ X)−1 − G(X ′ X)−1 − (X ′ X)−1 G′ + G(X ′ X)−1 G′ ] σ 2 [(X ′ X)−1 − G(X ′ X)−1 G′ ] que muestra. si las restricciones impuestas no son verificadas por los parametros a estimar. Podemos concluir. u Hemos razonado en las l´ ıneas anteriores sobre el modelo transformado.ajuste$coefficients + xxinv <. aunque eventualmente. a Definimos en primer lugar una funci´n para uso posterior: o > lscond <. que la imposici´n de restrico ˆ ciones lineales sobre el vector de estimadores nunca incrementa su varianza. El fragmento a continuaci´n ilusa o tra el modo de hacerlo y como utilizarla. si definimos: G = (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A tenemos que: γh = (I − G)ˆ .3) en (5.h = betas.function(X. betas.lsfit(X.10) y obtener la expresi´n equivao lente en t´rminos de los par´metros originales: e a ˆ ˆ ˆ βh = β − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c) R: Ejemplo 4. beta0 = TRUE) { + ajuste <.h. Podemos sustituir sin embargo (5. y.h) + names(betas.

Generamos a continuaci´n los datos y realizamos la estimaci´n ci˜´no o ne donos a la teor´ del modo m´s directo.3. 3. 3. 1.h X1 X2 X3 2. 1. 4. + 3) > X [1. 0.0 y a continuaci´n realizamos la estimaci´n condicionada: o o > resultado <.lscond(X.0526 3.2647 > resultado$betas X1 X2 X3 2.7138 Fin del ejemplo . 1. 2). + 12. y. 1.2] [. 4) > y <. 1. 1.] [3.matrix(c(0. d = d.] [6.] [4.X %*% beta + rnorm(6) Especificamos la restricci´n lineal β1 = β2 tomando la matriz A y o vector d siguientes: > A <. 1. -1).c(2.´ 4. 6. byrow = TRUE) > d <. beta ıa a n contiene los par´metros e y la variable respuesta: a > X <.] [5. 6. A = A. 0.2647 3. ESTIMACION CONDICIONADA. 1.3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 59 > beta <.8037 3. X es la matriz de dise˜ o.1] [. 4. 1. 7. 13.matrix(c(1.] [.8392 3. + beta0 = FALSE) > resultado$betas.] [2. 2.

60 ´ CAP´ ITULO 4. En ocasioa nes se recurre a restricciones estoc´sticas.2 (↑ 5. Es muy f´cil introducirlas. al hacer estimaci´n m´ o ınimo-cuadr´tica. Los regresores (K y L. e (Ayuda: consid´rese una matriz cuyas filas fueran una base de M ⊥ ).8. llevando a los par´metros a a a verificarlas de forma aproximada. n La idea es que las filas a˜ adidas funcionan como observaciones y. 256. a ıcil Las restricciones que hemos discutido en la Secci´n 5. p´g.1 Sea un espacio vectorial M cualquiera. Es tambi´n a o e interesante. Estamos ante datos observados o en oposici´n a datos experimentales. de dimensi´n finita. aunque de m´s dif´ lectura.5 y hagamos m´ ınimos cuadrados ordinarios con la muestra ampliada (las filas a˜ adidas se denominan en ocasiones pseudo-observaciones). el procedimiento de estimaci´n tender´ a hacer Aβ ≈ c (para o a ˆ que los residuos correspondientes c − Aβ sean “peque˜ os”). por n ˆ tanto. Wang (1993).3 Justif´ ıquese el paso de (5.1 se sale del marco conceptual en el que nos movemos. Recora demos que. 3. kA (4.10). A´ n m´s: n u a podemos graduar la importancia que damos a las pseudo-observaciones (y por tanto el nivel de aproximaci´n con que deseamos imponer las o restricciones estoc´sticas): basta que las multipliquemos por una consa tante adecuada k para estimar y kc = X β + ǫ. 4.15). ´ log(K) y log(L) al linealizar la o funci´n de producci´n) no pueden ser fijados por el experimentador: o o dependen de los agentes econ´micos. e a 4. Los par´metros las verifican de modo exacto. Sec.1) Pru´bese la igualdad (E. e 4.4 El Ejemplo 5. Faraway (2005). los par´metros se a a fijan de modo que la suma de cuadrados de los residuos sea la m´ ınima posible. ESTIMACION CON RESTRICCIONES Complementos y ejercicios 4.3 o son exactas. o Compru´bese que siempre existe una matriz C tal que M = K(C).12) . contiene o una di´fana discusi´n de los problemas que ello conlleva. Si tenemos restricciones Aβ = c que queremos imponer de modo aproximado basta que a˜ adamos las filas de A a la matriz X y n los elementos correspondientes de c al vector y para obtener: y c = X β +ǫ A 4.9) a (5.

Obs´rvese que ahora los residuos de las pseudo-observaciones ser´n e a ˆ y si tomamos k elevado el m´todo m´ k(c −Aβ) e ınimo cuadr´tico tendr´ a a ˆ que prestar atenci´n preferente a que Aβ ≈ c se verifique con gran o aproximaci´n (porque los cuadrados de los residuos correspondientes o entran en SSE afectados de un coeficiente k2 ).14) . Σ0 ). σ 2 I).13) 61 4. 0 0 y por tanto la moda de la distribuci´n a posteriori (que f´cilmente se o a comprueba es normal multivariante) es: ˆ β = (X ′ X + σ 2 Σ−1 )−1 (X ′ y + σ 2 Σ−1 β 0 ). σ 2 . β 0 .3. La densidad a posteriori de β es entonces f (β |y . 0 2σ 2 que proporciona (X ′ X + σ 2 Σ−1 )β − X ′ y − σ 2 Σ−1 β 0 = 0 . 0 0 (4. Y se distribuye como N (X β . Se dice entonces que estamos ante el estimador ridge de par´metro k. Supongamos que a priori o β ∼ N (β 0 . Un caso particular de inter´s se presenta cuando e en el problema anterior se toma A = I y c = 0 .3. Cuando k → ∞ nos acercamos al efecto de restricciones exactas.7 (↑ 5. Dado β .5) 4. ESTIMACION CONDICIONADA.12) haciendo uso de las o ecuaciones normales proporciona ˆ β = (X ′ X + k2 A ′ A)−1 (X ′ y + k2 A ′ c ). 144.5) que admite una interpretaci´n bayesiana. Σ0 ) ∝ exp − ′ 1 (y − X β ) (y − X β ) 2 2σ ′ 1 × exp − (β − β 0 ) Σ−1 (β − β 0 ) 0 2 ′ 1 = exp − 2 (y − X β ) (y − X β ) 2σ + σ 2 (β − β 0 ) Σ−1 (β − β 0 ) 0 ′ Tomando el logaritmo neperiano e igualando a cero su derivada respecto a β tenemos entonces − 1 (−2X ′ (y − X β ) + 2σ 2 Σ−1 (β − β 0 ) = 0 . En 11. p´g. a a abordamos su estudio y justificaci´n con detalle. (4.6 (↑ 5. o La estimaci´n de (5.´ 4.

62 ´ CAP´ ITULO 4.14) con (5.13) vemos que son id´nticas cuando kA = e σΣ0 2 y kc = σΣ0 2 β 0 : para obtener el estimador bayesiano con informaci´n a priori como la indicada. basta por tanto con obtener el o estimador MCO en una muestra ampliada con pseudo-observaciones. −1 −1 . ESTIMACION CON RESTRICCIONES Comparando (5.

Estudiamos en lo que sigue el efecto de estos dos tipos de mala especificaci´n. Incluir en (6. sin embargo.1) En la pr´ctica. (5. Introducci´n.Cap´ ıtulo 5 Especificaci´n inadecuada del o modelo 5. . Omitir en (6. que la variable aleatoria Y efectivamente se genera de la siguiente manera: Y = β0 X0 + β1 X1 + . por ello. o En lo que antecede hemos dado por supuesto que el modelo lineal que se estima es el “correcto”.1. o o De ordinario.1) regresores que hubieran debido ser incluidos. o 63 . 2. . no tenemos un conocimiento preciso del mea canismo que genera las Y ’s.1) regresores irrelevantes. Tenemos. + βp−1 Xp−1 + ǫ.1) en condici´n de regresores. incurriremos en errores en la especificaci´n. todo lo m´s. una lista de variables a susceptibles de formar parte de la ecuaci´n (6. que o pueden ser de dos naturalezas: 1. es decir.

En efecto. los estimadores de β proporcionados por (6.2) en (6.4) es una matriz diagonal por bloques y β = (X ′ X)−1 X ′ Y .2) Supongamos que pese a lo cual decidimos estimar el modelo Y = X β + Zγ + ǫ (5.3) ¿Qu´ ocurre con los estimadores de los par´metros β ? e a Al estimar el modelo sobreparametrizado (6. sustituyendo (6.4) proporciona estimadores insesgados. a .5) (5. si existe tal ortogonalidad. β 0 +ǫ (5.7) (5. la matriz inversa en ıan ˆ (6. En efecto. γ (5. (6. (5.4) En el caso particular de columnas Z ortogonales a las columnas en X. ıa Sin embargo. sean cuales fueren los regresores irrelevantes a˜adidos1 . Inclusi´n de regresores irrelevantes.8) De la misma ecuaci´n (6.3) obtendr´ ıamos: ˆ β γ ˆ = X ′X X ′Z Z ′X Z ′Z −1 X′ Y Z′ (5.4) son diferentes a los que se obtendr´ de estimar (6.3) son id´nticos a los que se obtene dr´ de (6.9) De los que lo unico que supondremos es que no introducen combinaciones lineales ´ exactas que hagan inestimables los par´metros.64 ´ CAP´ ITULO 5.2).6) X ′X X ′Z β + Z ′X Z ′Z 0 Al tomar valor medio en la ecuaci´n anterior obtenemos: o ˆ E[β] = β . los estimadores de β procedentes de (6. ESPECIFICACION INADECUADA DEL MODELO 5.2.4) n tenemos: ˆ β γ ˆ = = X ′X X ′Z Z ′X Z ′Z −1 X′ Z′ −1 X Z X ′ǫ Z ′ǫ . E[ˆ ] = 0.2). o Y = Xβ + ǫ (5. Fuera de este caso particular.6) obtenemos que la matriz de covarianzas del vector o ˆ′ γ ′ )′ es: (β ˆ Σ = σ2 1 X ′X X ′Z Z ′X Z ′Z −1 .

p´g. y por tanto la expresi´n anterior tendr´ en su diagonal princio a pal elementos no menores que los de la diagonal principal de (X ′ X)−1 . .3. INCLUSION DE REGRESORES IRRELEVANTES.9) es la matriz de covarianzas de los β obtenidos en el modelo sobreparametrizado. Para mostrar que es definida no negativa. En consecuencia. Por simple inspecci´n vemos que el segundo sumando es una matriz definida o no negativa2 . La matriz de la forma cuadr´tica en e es la conocida matriz de coproyecci´n. Denominando.11) es. y en geneo ral incrementa. Pero a′ Ga = b′ (Z ′ Z − Z ′ X(X ′ X)−1 XZ)−1 b con b = Z ′ X(X ′ X)−1 a. p´g. o equivalentemente que (Z ′ Z − Z ′ X(X ′ X)−1 XZ) lo es.9) es σ 2 multiplicado por (X ′ X)−1 + (X ′ X)−1 X ′ Z[Z ′ Z − Z ′ X(X ′ X)−1 X ′ Z]−1 Z ′ X(X ′ X)−1 . De cuanto antecede se deduce que Y − X Z ˆ β γ ˆ (5.1.2. Debemos comparar dicho bloque ˆ con σ 2 (X ′ X)−1 . a No afecta sin embargo a su insesgadez. En consecuencia. Esto ′ ultimo es inmediato: (Z ′ Z − Z ′ X(X ′ X)−1 XZ) = Z ′ (I − X(X ′ X)−1 X)Z. ya s´lo tenemos que comprobar que (Z ′ Z − Z ′ X(X ′ X)−1 XZ)−1 o es definida no negativa. definida no negativa por a o ser idempotente (con valores propios cero o uno). basta ver que para cualquier a se verifica a′ Ga ≥ 0.10) es un vector aleatorio de media cero. las varianzas de los estimadores de los par´metros relevantes. y d Z ′ (I − ´ X(X ′ X)−1 X)Z d puede escribirse como e ′ (I − X(X ′ X)−1 X)e con e = Z d . σ2 = ˆ 2 SSE N − (p + q) (5. 230. bajo los supuestos habituales m´s normalidad. a muestra que en el modelo sobreparametrizado SSE = Y ′ (I − L(L′ L)−1 L′ )Y = ǫ ′ (I − L(L′ L)−1 L′ )ǫ (5.2). en que p y q son respectivamente los rangos de X y o N Z. una forma cuadr´tica con a a distribuci´n σ 2 χ2 −(p+q) .´ 5. Haciendo uso del Teorema A. ˆ β . la inclusi´n de regresores irrelevantes no disminuye. 65 ˆ El bloque superior izquierdo de (6. matriz de covarianzas de los β obtenidos al estimar el modelo (6.12) Llamemos G a dicho segundo sumando. vemos que el bloque que nos a interesa de (6. γ ˆ un desarrollo enteramente similar al realizado en el Teorema 7. L = ˆ δ = X Z . 72.

Las siguientes conclusiones son as´ o ı inmediatas: ˆ(h) El estimador β1 obtenido en el modelo “escaso” (6. Omisi´n de regresores relevantes. Tenemos as´ ı que ˆ(h) β1 0 = ˆ β1 ˆ β2 ˆ − (X ′ X)−1 A′ [A(X ′ X)−1 A′ ]−1 (Aβ − 0). par´metros.14) es. X2 ) una matriz de dise˜o particionada en sendos bloques .14) Estimar (6. expresables as´ ı: 0 0 0 I β1 β2 = 0 0 (5.16) (p×1) en que [M](p×q) designa el bloque superior izquierdo con p filas y q columnas de la matriz M. n . o .13) pese a lo cual estimamos el modelo “escaso” Y = X1 β 1 + ǫ . sesgado.11). La ecuaci´n (6. Sea β ′ = (β ′1 . Sea X = (X1 . (5.13) junto con las restricciones h : β 2 = 0.15) En consecuencia.3. Consideremos el caso en que el modelo “correcto” es a Y = X β + ǫ = X 1 β 1 + X2 β 2 + ǫ . (5. e 5. podemos deducir cuanto necesitamos saber haciendo uso de los resultados en la Secci´n 5. en general. ′ de p y r columnas.3.14) es lo mismo que estimar (6. El sesgo puede obtenerse haciendo uso de (5. ESPECIFICACION INADECUADA DEL MODELO es un estimador insesgado de σ 2 . β 2 ) el correspondiente vector de p + r . . El unico efecto adverso de la inclusi´n de los ´ o q regresores irrelevantes ha sido la p´rdida de otros tantos grados de libertad. y en consecuencia ˆ E[β1 − β 1 ] = − (X ′ X)−1 A′ [A(X ′ X)−1 A′ ]−1 (h) 0 β2 (5.66 ´ CAP´ ITULO 5.16) muestra que el sesgo o introducido depende de la magnitud de los par´metros asociados a los a regresores omitidos.

X1 X2 = 0. La p´rdida de un grado de libertad adicional originada n e por la inclusi´n de un par´metro es menos importante cuando los grados de o a libertad restantes (N − p) siguen siendo muchos. o o . a 5. puede verse que no es de aplicaci´n a (6. y tanto menos importantes cuanto mayor sea el tama˜o muestral. p´g. La s´la circunstancia en que la inclusi´n de un regresor innecesario puede o o perjudicar gravemente la estimaci´n se presenta cuando la muestra es muy o peque˜a o el par´metro adicional es aproximadamente combinaci´n lineal de n a o los ya presentes. y (X X) A = ′ −1 ′ ′ X1 X1 0 ′ 0 X 2 X2 −1 0 0 0 I (5. Errar “por exceso” tendr´ por ello en general a consecuencias menos graves.14) no decrece hacia cero al crecer N. A esta ultima cuesti´n volveremos en el Cap´ ´ o ıtulo 10. Esta cuesti´n se trata en el Cap´ o o ıtulo 13. En la pr´ctica los dos o a tipos de errores se pueden presentar conjuntamente y sus efectos se combinan.1.16) muestra tambi´n que hay un caso particular en que o e ˆ(h) es insesgado para β 1 . cuando las columnas de X1 y las de X2 son β1 ′ ortogonales. e El estimador de la varianza de la perturbaci´n o ˆ(h) ˆ(h) (Y − X1 β1 )′ (Y − X1 β1 ) SSE = σ = ˆ N −p N −p 2 (5. Conocidos los problemas de una mala especificaci´n se plantea el proo blema de c´mo lograr una buena.3. la matrix (X ′ X)−1 es diagonal por bloques.18) no es insesgado. 23.16) est´ formado por ceros. En efecto. Algunas t´cnicas de an´lisis gr´fico de residuos que pueden ser de ayuda en e a a la especificaci´n de modelos se consideran en la Secci´n 14. CONSECUENCIAS DE ORDEN PRACTICO 67 La ecuaci´n (6.17) tiene sus primeras p filas de ceros.2. Omitir regresores relevantes tiene consecuencias en general m´s graves y a ˆ(h) que no se aten´an al crecer el tama˜o muestral: el sesgo de β1 en el modelo u n “escaso” (6. Consecuencias de orden pr´ctico a Los resultados de las dos Secciones anteriores pueden ayudarnos a tomar decisiones a la hora de especificar un modelo.18) o el Teorema 3. Hemos visto que sobreparametrizar no introduce sesgos: tan s´lo incrementa la varianza de los estimadores o y resta grados de libertad.´ 5.4. Ello hace que el bloque considerado en (6. En este cap´ ıtulo hemos rastreado las consecuencias de dos posibles errores de especificaci´n “puros”: falta o sobra de regresores.4.

68 ´ CAP´ ITULO 5. ESPECIFICACION INADECUADA DEL MODELO .

o Si a los supuestos habituales (Secci´n 2. p´g.3. 7) a˜adimos1 el de que o a n ǫ ∼ N(0. en que Λ es una matriz en cuya diagonal principal aparecen los El s´ ımbolo ∼ denotar´ en lo sucesivo que el lado izquierdo es una variable aleatoria a con la distribuci´n que especifica el lado derecho. todos los resultados anteriores se mantienen. o 1 69 . Podremos tambi´n efectuar contrastes de hip´tesis diversas. 6. σ 2 I). D es una e matriz ortogonal cuyas columnas son vectores propios de A.1 Si u ∼ N(0. Buena e o parte de estos resultados son consecuencia casi inmediata de alguno de los siguientes lemas. 2 r ´ Demostracion: Sea D la matriz diagonalizadora de A. Introducci´n.Cap´ ıtulo 6 Regresi´n con perturbaciones o normales. relativos a la distribuci´n de diferentes estao d´ ısticos. Siendo A sim´trica. verific´ndose: a ′ D AD = Λ. entonces: u σAu ∼ χ2 . obtendremos no obstante muchos adicionales.1. Lema 6. σ 2 I) y A es una matriz sim´trica idempotente de e ′ orden n y rango r.

e o u ′ Au v ′ D ′ ADv v′ = = σ2 σ2 σ I 0 0 0 v = σ r 2 vi . u ′ Bu y u ′ P u son variables aleatorias independientes. Teorema 2. v´ase en Searle (1971). y los bloques de ceros que la circundan son de ´rdenes adecuados para completar una matriz cuadrada de o orden n × n.2 Sea B una matriz sim´trica n×n y P una matriz sim´trica ideme e potente del mismo orden y rango r.2) (6. definamos v = D ′ u. Como A es idempotente.3) =0 (6. u ∼ N(0.´ 70 CAP´ ITULO 6. σ 2 I). o r Lema 6. 1) independientes. Al igual que antes.6) ⇒ D ′ BD ′ ⇒ D BD tiene sus r primeras columnas nulas 2 El rec´ ıproco es tambi´n cierto. 57 una versi´n e e o m´s potente de este teorema. y supongamos que se verifica BP = 0.1) es una suma de cuadrados de r variables aleatorias N(0. y por tanto sigue una distribuci´n2 χ2 . σ 2 I). σ2 (6. valores propios de A. Sea u un vector aleatorio n-variante. a .4) (6. el nuevo vector v sigue tambi´n una distribuci´n N(0. Λ es de la forma r (n − r) I 0 .1) i=1 Pero el lado derecho de (7. Entonces. Si hacemos el cambio de variable v = D ′ u (⇒ u = Dv). ´ Demostracion: Sea D la matriz diagonalizadora de P . Tenemos que: BP = 0 ⇒ D ′ BDD ′ P D = 0 r (n − r) I 0 0 0 (6. pag.5) (6. (lo que implica u = Dv). Entonces. REGRESION CON PERTURBACIONES NORMALES. 0 0 Λ= en que I es una matriz unidad de rango r.

1. Por consiguiente. INTRODUCCION.3 Sea M una matriz sim´trica idempotente de rango r y dimene siones n × n. r (n − r) 0 | L2 v. y D ′ MD es una matriz diagonal con r unos y (n − r) ceros en la diagonal principal.8) y (7.´ 6. Sea A una matriz que verifica AM = 0. σ 2 I). Como AM = 0. L12 ha de ser tambi´n un bloque de a e e ceros. adem´s. y: r (n − r) 0 0 v 0 L22 u ′ Bu = v ′ D ′ BDv = v Por otra parte: ′ (6. y u ∼ N(0 . Au = ADv = (6.9) De (7. (6.11) . AD tiene sus primeras r columnas de ceros. Lema 6. Entonces Au y u ′ Mu son variables aleatorias independientes.7) Como.8) u ′ P u = v ′ D ′ P Dv = v ′ r (n − r) I 0 v 0 0 (6. Por tanto: r (n − r) r (n − r) 0 L12 0 L22 71 D ′ BD = =0 (6. definamos v = D u (⇒ u = Dv).9) se deduce que ambas formas cuadr´ticas consideradas a dependen de distintas componentes del vector v.10) es decir. ´ Demostracion: Sea D la matriz que diagonaliza M. Al igual que antes. D ′ BD es sim´trica. se verifica que ′ AM = ADD MD = 0 ⇒ AD = ′ r (n − r) 0 | L2 . y son por tanto independientes.

p´g. 3.12) que ambas variables aleatorias consideradas dependen de distintas componentes de v.1. Como r (n − r) I 0 v. Si se verifican los supuestos habituales. ǫ ∼ N(0. demostrar el siguiente resultado: Teorema 6. σ 2 (X ′ X)−1 ) ˆ ˆ (β − β )′ (X ′ X)(β − β ) ∼ σ 2 χ2 p (N − p)ˆ 2 = SSE ∼ σ 2 χ2 −p σ N ˆ ˆ β y σ 2 son variables aleatorias independientes. ˆ β ∼ N(β .1 Si Y = X β + ǫ . 4. β es una combinaci´n a ˆ o lineal de variables aleatorias normales e independientes.´ 72 CAP´ ITULO 6. es tambi´n normal. 21) que β es un estimador insesgado de β a con la matriz de covarianzas indicada.11) y (7.12) deducimos de (7. fue ˆ ya demostrado (Teorema 3. 2. REGRESION CON PERTURBACIONES NORMALES. 0 0 u ′ Mu = v ′ D ′ MDv = v ′ (6. adem´s. Podemos ahora. con ayuda de los Lemas precedentes. una vez que 1 ˆ observamos que (X ′ X) 2 (β − β ) ∼ N(0 . se verifica: 1. y son consecuentemente independientes. σ 2 I). ´ Demostracion: El apartado 1) es inmediato. . y X es de orden N × p y rango p. e El apartado 2) es consecuencia inmediata del Lema 7. σ 2 I).2. Como.

Para demostrar el apartado 3) observemos que: SSE σ2 ˆ ˆ (Y − X β )′ (Y − X β ) = σ2 (Y − X(X ′ X)−1 X ′ Y )′ (Y − X(X ′ X)−1 X ′ Y ) = σ2 ′ ′ ′ −1 Y [I − X(X X) X ]Y = σ2 ′ (X β + ǫ ) [I − X(X ′ X)−1 X ′ ](X β + ǫ ) = σ2 ′ ′ −1 ǫ [I − X(X X) X ′ ]ǫ = σ2 ′ ǫ Mǫ = σ2 ∼ χ2 −p . INTRODUCCION.21) ˆ De la ecuaci´n (7. σ2 = ˆ SSE Y [I − X(X X) X ]Y = .21) muestra que o σ2 = ˆ Como (X ′ X)−1 X ′ [I − X(X ′ X)−1 X ′ ] = 0.1.14) (6.18) (6.19) donde (7. a ǫ ′ [I − X(X ′ X)−1 X ′ ]ǫ .15) (6. p´g.13) (6. N −p N −p ′ −1 ′ ′ (6.17) (6. ya que M es sim´trica e idempotente y de rango N − p.20) deducimos (sustituyendo Y por X β + ǫ ) que β = o ′ ′ −1 β + (X X) X ǫ .´ 6.20) y (7. N −p .21).16) (6. N 73 (6. ya que ˆ β = (X ′ X)−1 X ′ Y . el Lema 7.3. Para probar 4).1. La misma sustituci´n en (7. basta invocar el Lema 7.19) es consecuencia inmediata del Lema 7.3. demuestra la independencia de las formas lineal y cuaa dr´tica anteriores y por tanto de (7. 71.20) (6.

2] [. y.]): > for (i in 1:muestras) { + y <. 1. 1. cada una ˆ de cuyas filas guardar´ los par´metros estimados β con una muestra a a artificial diferente > muestras <.c(2. 0.1] [. R: Ejemplo 6. 0. generando en cada pasada del bucle for un nuevo vector de perturbaciones ǫ (mediante rnorm). ] <.X %*% beta Definiremos ahora una matriz b de dimensiones 100 × 3. Lo que se hace es generar m´ ltiples a u muestras artificiales. 1.] [5. 6. obtener de ellas m´ ltiples observaciones del esu tad´ ıstico de inter´s (aqu´ β) y examinar el ajuste de la distribuci´n e ı. intercept = FALSE) + b[i.fit$coefficients + } . 1.matrix(c(1. muestras.] [4. 2).100 > b <. 1.] [6. vector de pan r´metros β y los valores medios de la respuesta X β : a > X <. 13. 1.] [3. 6. 3.3] 1 9 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 > beta <.] [.] [2.´ 74 CAP´ ITULO 6. 9. 4) > Ey <. + 12. 4. que se almacenan en b[i. un nuevo vector de valores de ˆ ˆ la variable respuesta y y nuevas estimaciones β de los par´metros β a (fit$coefficients. REGRESION CON PERTURBACIONES NORMALES. 4.lsfit(X. 3) e iteremos. + 3) > X [1.1 (ejemplo de simulaci´n) o El c´digo que sigue tiene por objeto ilustrar c´mo examinar´ o o ıamos emp´ ıricamente la concordancia entre lo que la teor´ predice y lo que ıa podemos obtener en la pr´ctica. ˆ o emp´ ırica de los mismos a la te´rica.Ey + rnorm(6) + fit <. o Generemos en primer lugar la matriz de dise˜ o X. 7. 2.matrix(0.

1).solve(t(X) %*% X) Por consiguiente.tipif") . con vector de medias o o ′ (2. + 1]) > mean(beta1. un modo de verificar que los resultados emp´ ıricos son congruentes con la teor´ consistir´ en tipificar las estimaciones de los ıa ıa par´metros y comparar su distribuci´n con una N (0. 3.1.19871 > var(beta1. o > beta1. 75 > cov. + main = "Histograma de beta1.(b[.tipif <.tipif) [1] 0.betas[1. 4) y matriz de covarianzas (X ′ X)−1 (la varianza de las perturbaciones generadas por rnorm es 1 si no se especifica otra cosa). 1] .1125 dibujar el histograma > hist(beta1.betas <. ylab = "Frecuencia absoluta". Podemos por a o ejemplo comparar la media y varianza emp´ ıricas con las te´ricas. INTRODUCCION.´ 6. La distribuci´n te´rica de los betas es Normal.tipif) [1] 1.beta[1])/sqrt(cov.tipif.

p-value = 0.test(beta1. Puede parecer un ejercicio ocioso en el e ˆ caso que nos ocupa (ya “sab´ ıamos” c´mo se distribuye β ¿a que vieo ne comprobarlo mediante una simulaci´n?). p-value = 0.9874. el llamado m´todo de Monte-Carlo.tipif W = 0.1036. Sin embargo.´ 76 CAP´ ITULO 6.tipif. reducido a sus rasgos esenciales.tipif 1 2 o llevar a cabo alg´ n contraste de normalidad especializado: u > ks. "pnorm") One-sample Kolmogorov-Smirnov test data: beta1. tiene una o enorme aplicaci´n pr´ctica por varias razones: o a .4679 Lo que antecede ilustra.tipif D = 0. Histograma de beta1.tipif) Shapiro-Wilk normality test data: beta1.2334 alternative hypothesis: two-sided > shapiro.test(beta1. REGRESION CON PERTURBACIONES NORMALES.tipif Frecuencia absoluta 0 5 10 15 −2 −1 0 beta1.

22). 1. En este caso. CONTRASTE DE HIPOTESIS LINEALES. mediante adecuada elecci´n de A se pueden hacer contrastes de nulidad de uno o varios par´metros.1 Llamamos hip´tesis lineales a las que pueden o o expresarse del modo (7. n 2. Todo lo que podemos e obtener te´ricamente es la distribuci´n asint´tica (la distribuci´n o o o o cuando el tama˜ o muestral tiende a infinito). como se ver´ en lo que sigue.22). la sin mulaci´n permite ver si la aproximaci´n asint´tica es aceptable o o o para un cierto tama˜ o muestral. Cualquier hip´tesis lineal sobre los par´metros o a se puede expresar en la forma (7. sin embargo. contrastar la siguiente hip´tesis lineal o h : Aβ = c (rango de A = q < p). se ha empleado rnorm para generar variables aleatorias normales. como casi cualquier otro paquete a estad´ ıstico. (R ofrece generadores de n´ meros aleatorios u de las distribuciones m´s usuales.2. En este ejemplo. Contraste de hip´tesis lineales. con a ayuda de una muestra. o El problema que nos planteamos es el siguiente: dado el modelo lineal Y = X β + ǫ con los supuestos habituales m´s normalidad. Por ejemplo.) Fin del ejemplo 77 6. etc. (cosas como β1 2 .2.´ 6.22) siendo A de dimensiones q ×p. a a De nuevo el m´todo de Monte-Carlo proporciona un m´todo para e e obtener aproximaciones a la distribuci´n de cualquier estad´ o ıstico. a Observaci´n 6. En particular. (6. En otras ocasiones. Este es el caso m´s frecuente en la pr´ctica. multitud de hip´tesis de inter´s admiten o e tal expresi´n. El uso del m´todo de Monte-Carlo reposa en la posibilidad de genee rar mediante un ordenador n´ meros aleatorios con la distribuci´n que u o deseemos. queremos. restricciones de no negatividad sobre los par´metros (βi > 0) o sobre el m´dulo de β a o 2 + β 2 = 1). o a o que no pueden escribirse de tal forma. o a de igualdad de dos o m´s de ellos. ni siquiera la distribuci´n asint´tica es obteo o nible anal´ ıticamente. Hay hip´tesis. En ocasiones no conocemos la distribuci´n te´rica de los estao o d´ ısticos de inter´s para muestras finitas.

ˆ ˆ SSEh − SSE = (Aβ − c )′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c ) Si h : Aβ = c es cierta. (6. REGRESION CON PERTURBACIONES NORMALES. Se busca un estad´ ıstico que bajo la hip´tesis nula h siga una distribuci´n conocida. si el valor obtenido o o en el muestreo de dicho estad´ ıstico es “raro” de acuerdo con lo esperable cuando h es cierta.24) 2 2 ˆ ˆ ˆ ˆ 2 Y − X β + X β − X βh − Y − X β ˆ ˆ ˆ +2 < (Y − X β ). (6.25) (6. La forma de efectuar el contraste es la habitual.2 Sea h : Aβ = c una hip´tesis lineal.27) se cono a o vierte en: ˆ ˆ SSEh − SSE = (Aβ − c )′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c ).27) Se ha hecho uso en el paso de (7. ´ Demostracion: SSEh − SSE = = = = = ˆ 2 ˆ 2 Y − X βh − Y − X β (6. y SSEh = Y − X βh a Bajo los supuestos habituales m´s el de normalidad en las perturbaciones. la expresi´n (7. lo que garantiza la nulidad o del producto interno en (7.26) (6.28) Esto finaliza la demostraci´n del primer apartado.25) a (7. (X β − X βh ) > ˆ ˆ 2 X β − X βh ˆ ˆ ˆ ˆ (β − βh )′ (X ′ X)(β − βh ). 58. Por otra parte. 2.´ 78 CAP´ ITULO 6. se a verifica: 1.25). como o ˆ β = β + (X ′ X)−1 X ′ ǫ. Haciendo uso de la ecuaci´n (5.11).26) de que ǫ es ortogonal a ˆ toda combinaci´n lineal de las columnas de X. El estad´ o ıstico de contraste y su distribuci´n se deducen del siguiente teorema: o ˆ Teorema 6. .23) 2 2 ˆ ˆ ˆ ˆ Y − X β + X β − X βh − Y − X β (6.N −p SSE/(N − p) en que q ≤ p es el rango de A. Qh = (SSEh − SSE)/q ∼ Fq. βh el vector de estimao ˆ 2 dores m´ ınimo cuadr´ticos condicionados por h. rechazaremos la hip´tesis nula. p´g.

indic´no a dose.2. ya que e (I − PM ) X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ = 0. 69. qu´ valores debemos consiu e derar en la regi´n cr´ o ıtica. Observaci´n 6.2. o ˆ ˆ (Aβ − c) = (Aβ − Aβ ) = A(X ′ X)−1 X ′ ǫ. CONTRASTE DE HIPOTESIS LINEALES. Podr´ ıamos llegar a un resultado an´logo si a . se ha propuesto el estad´ ıstico Qh y encontrado su distribuci´n. En a efecto. Desde otro punto de vista. o α la regi´n cr´ o ıtica estar´ formada por valores mayores que Fq.2 muestra que el estad´ ıstico tiene en su numerador ˆ una forma cuadr´tica que crece al separarse Aβ de c. resultado que llevado a (7.30) Para demostrar que Qh en el enunciado es una variable aleatoria con distribuci´n F de Snedecor. SSEh − SSE sigue una disu a tribuci´n σ 2 χ2 .2 garantiza por tanto la independencia.N −p . sin otro apoyo que el sentido com´ n.´ 6.1. el apartado 1) del Teorema 7. En primer lugar. seg´n el Lema 7.1) que: a SSE = Y ′ (I − PM )Y ∼ σ 2 χ2 −p N (6. es claro que.2 Hay cuestiones de inter´s sobre el Teorema o e 7. s´lo resta comprobar que numerador y denominador o o son independientes: pero ´sto es inmediato.28) proporciona: SSEh − SSE = ǫ ′ X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ ǫ G h 79 (6. Por tanto.29) Esta expresi´n muestra que SSEh − SSE es una forma cuadr´tica en o a variables normales (las ǫ) de matriz G que f´cilmente comprobamos es idema potente. para un nivel de significaci´n α.3 La presentaci´n es puramente heur´ o o ıstica. son grandes discrepancias entre SSEh y SSE las que cabe considerar evidencia contra h. tenemos que. p´g. a Observaci´n 6. cuando se verifica la hip´tesis h. G El Lema 7. o q Tenemos adem´s (Teorema 7. con grados de libertad q iguales al rango de G (= rango(A)).

d) + betas.vector(betas.´ 80 CAP´ ITULO 6.h <. que calcula SSE. Nos sera o viremos de la funci´n lscond para realizar estimaci´n condicionada o o presentada en el Ejemplo 5. X) a βh ˆ ˆ ˆ siendo βh aquellos β verificando h : Aβ = c.inc = ajuste)) + } Definiremos ahora una nueva funci´n. REGRESION CON PERTURBACIONES NORMALES.as. + ajuste. y. contraste. o 1 R: Ejemplo 6.h.solve(t(X) %*% X) + axxa <. el estad´ ıstico Qh y su nivel de significaci´n. intercept = beta0) + betas <. si se dispone de tablas o ´bacos de la a F de Snedecor no central.function(X.ajuste$coefficients + xxinv <.1.2 (contraste de una hip´tesis lineal) o Veamos el modo en que contrastar´ ıamos una hip´tesis lineal geo neral sobre los par´metros de un modelo de regresi´n lineal. y. 58.h.h <.betas .1).h = betas. o SSEh (utilizando lscond).lsfit(X.4 Del enunciado del teorema anterior se sigue o con facilidad que cuando h no es cierta (y en consecuencia Aβ − c = d = 0. A. Observaci´n 6. X) a ˆ ˆ ˆ m´x ˆ g(βh . Ello permite calcular f´cilmente la potencia de cualquier contraste a frente a alternativas prefijadas. a > lscond <. p´g. con o 2 = t ′ t (v´ase Ap´ndice B.names(ajuste$coefficients) + return(list(betas = betas. construy´ramos un estad´ e ıstico de contraste basado en la raz´n geneo ralizada de verosimilitudes: Λ= m´xβ g(β. Ello proporciona una justificaci´n al estad´ o ıstico anterior. betas.solve(A %*% xxinv %*% t(A)) + betas. y. Qh sigue una distribuci´n F de Snedecor no central. d. Alternativamente.xxinv %*% t(A) %*% + axxa %*% (A %*% betas . y.h) + names(betas.h) <. siendo e e par´metro de no centralidad δ a t = [A(X ′ X)−1 A ′ ]− 2 (Aβ − c ). En R se dispone de la funci´n pf que admite o un par´metro de no centralidad. beta0 = TRUE) { + ajuste <. o . puede estimarse la a potencia por simulaci´n.

0 El contraste puede entonces llevarse a cabo as´ ı: . beta0 = TRUE) { + lscond.2] [.] [6. + beta0 = beta0) + betas <. que debiera ser rechazada. + 12.2. A.lscond.result$betas.] [3.h <.] [. 1. La matriz A y vector c especificando dicha hip´tesis pueden construirse as´ o ı: > A <.ncol(X)) + Qh <.SSE/(nrow(X) . d. Probaremos a continuaci´n a contrastar la hip´tesis o o β1 = β2 . 4.function(X.] [2. 1. d.result <. 7.] [5. 1. 0. 13.pf(Qh. 2).c(2. 1.h)^2) + numer <. 3.h <.X %*% betas)^2) + SSE. 2. 0.X %*% beta + rnorm(6) “Sabemos”. A.result$betas + betas.sum((y .value <.numer/denom + p. 6. 6. 4) > y <. 3. y.value)) + } Generemos datos artificiales: > X <.SSE)/nrow(A) + denom <.X %*% betas.sum((y .´ 6.h <.(SSE. 1.lscond(X.3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 81 > beta <. CONTRASTE DE HIPOTESIS LINEALES. porque los datos han sido artificialmente generados.matrix(c(1. -1).h . > contraste. 1.1 . nrow(X) + ncol(X)) + return(list(Qh = Qh. 1.h + SSE <.] [4. 4. byrow = TRUE) > d <. y. que β1 = 3 y β2 = 4.value = p. + 3) > X [1. 1.lscond. 1.1] [.matrix(c(0. p. nrow(A).

si realmente β1 = β2 . d = d. o Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hip´tesis de inter´s de manera m´s simple. podr´ ıamos obtener SSE de la regresi´n o (7. para calcular el estad´ ıstico Qh as´ ı: .SSE)/1)/(SSE/(nrow(X) ncol(X))) (6.h <. REGRESION CON PERTURBACIONES NORMALES. X[. o e a En el caso que nos ocupa. 2] + X[. 1].11 Esta t´cnica de calcular las sumas de cuadrados SSE y SSEh en dos e regresiones ad-hoc puede ser muy frecuentemente utilizada. Si en nuestro ejemplo quisi´ramos a e contrastar h : β1 = β2 = 0. A = A.31) Puede verse que el valor de Qh as´ calculado es id´ntico al obtenido ı e m´s arriba: a > Qh [1] 161. En el caso frecuente de hip´tesis de exclusi´n (alguno o varios betas iguales a o o cero).´ 82 CAP´ ITULO 6.cbind(X[. y)$residuals^2) Qh <.sum(lsfit(X. y.31) y SSEh de la regresi´n o Y = β0 X0 + ǫ. Y = β0 X0 + β1 X1 + β2 X2 + ǫ es equivalente a Y = β0 X0 + β1 (X1 + X2 ) + ǫ y las sumas de cuadrados SSE y SSEh podr´ obtenerse as´ ıan ı: > > > > + SSE <. y)$residuals^2) Xmod <. + beta0 = FALSE) > result$Qh [1] 161.h(X.11 > result$p. 3]) SSE.32) (6.contraste.h .((SSE.0010548 Rechazar´ ıamos por consiguiente la hip´tesis contrastada para cualo quier nivel de significaci´n α > 0.sum(lsfit(Xmod.0010548. > result <.value [1] 0. puede obtenerse SSEh de una regresi´n en que los regresores o correspondientes est´n ausentes.

SSE)/2)/(SSE/(nrow(X) ncol(X))) Qh 83 [1] 16956 El valor que dicho estad´ ıstico Qh deja en a su derecha en la distribuci´n o de referencia. y como σ 2 (X ′ X)−1 = σβ tenemos que: o ˆ ˆ2 ii ˆ i−1 Qh = ˆ βi−1 ∼ σβi−1 ˆˆ F1. nrow(X) . a o .N −p . En tal caso.N −p ∼ tN −p (6. > 1 .3193e-07 permite rechazar contundentemente la hip´tesis h : β1 = β2 = 0 o contrastada. (7. El Teorema 7. Bajo la hip´tesis h.1. 1]. la hip´tesis h : βi−1 = 0 puede o contrastarse tomando c = 0 y A = 0 · · · 1 · · · 0 . Fin del ejemplo 6.34) La regla de decisi´n que se deduce de (7. > > > + > SSE <.34) es: o Rechazar h : βi−1 = 0 al nivel de significaci´n α si o ˆ βi−1 α/2 > tN −p . σβi−1 ˆˆ ˆ ıstico t o t-ratio. CONTRASTE DE HIPOTESIS LINEALES.sum(lsfit(X[.33) Qh = σ2 ˆ donde (X ′ X)−1 = [A(X ′ X)−1 A ′ ] designa el elemento en la posici´n i-´sima o e ii ′ −1 de la diagonal principal de (X X) .2.sum(lsfit(X. ocupando el unico ´ “uno” la posici´n i-´sima (recu´rdese que los par´metros β se numeran a o e e a partir de β0 ). Contraste sobre coeficientes βi aislados. De El estad´ ıstico |βi−1 /ˆβi−1 | recibe el nombre de estad´ σˆ forma an´loga se contrasta la hip´tesis h : βi−1 = c. y)$residuals^2) Qh <.ncol(X)) [1] 8.((SSE.pf(Qh.2. y)$residuals^2) SSE. Por ejemplo.h .´ 6. Qh puede escribirse as´ ı: ˆ ˆ (βi−1 − 0)′ [(X ′ X)−1 ]−1 (βi−1 − 0) ii (6.h <.33) sigue una o distribuci´n F1.2 permite obtener como casos particulares multitud de contrastes frecuentemente utilizados. 2.

N −p. o u a 31. . a . a Qh = = = (SST − SSE)/(p − 1) SSE/(N − p) N − p (SST − SSE) × p−1 SSE N −p R2 × p−1 (1 − R2 ) siendo R el coeficiente de correlaci´n m´ltiple definido en el Teorema 3. = 0 | I . N SSEh = i=1 (Yi − Y )2 en la forma Aβ = c siendo:  ··· 0 0 · · · 0 0  . . Construcci´n de intervalos de confianza o para la predicci´n. β0 —.4. p´g. . o Supongamos de nuevo que trabajamos sobre el modelo Y = X β + ǫ con los supuestos habituales m´s el de normalidad en las perturbaciones. . En este caso. Contraste de significaci´n conjunta de la regreo si´n.3. . Qh se distribuye como una Fp−1. .2.4. o Otra hip´tesis frecuentemente de inter´s es: h : β1 = · · · = βp−1 = 0 —es o e decir. nulidad de todos los par´metros. y: c′ = 0 0 ··· 0 Pero SSEh en este caso particular es lo que hemos definido (Teorema 3. salvo el correspondiente a la columna a de “unos”. REGRESION CON PERTURBACIONES NORMALES. . 0 0 0 una matriz con (p − 1) filas y p columnas. . Por tanto. .2. . Cuando h es cierta. 30) como SST .´ 84 CAP´ ITULO 6. 6. ··· 0 1 y la hip´tesis h puede expresarse o  0 1 0 0 0 1  A = . p´g. . 6. . El contraste de h requiere solamente conocer R2 .

la e a o a utilizaci´n del modelo con finalidad predictiva. Teorema 6. El examen de (7. y ǫ∗ es perturbaci´n o ˆ de una observaci´n adicional. p´g. distinta de las que han servido para estimar β o e independiente de ellas). al emplear β . adem´s de la estimaci´n de los par´metros.39) (6. 2.37) (6.43) = x∗ ′ σ 2 (X ′ X)−1 x∗ + σ 2 = σ 2 [1 + x∗ ′ (X ′ X)−1 x∗ ] En el paso de (7. Esto es l´gico: a o ˆ∗ incorpora una fuente ǫ∗ es del todo impredecible.3. Una predicci´n Y∗ del valor a tomar por a o ˆ ˆ ˆ la Y∗ es: Y∗ = x∗ ′ β.2. Una.40) (6.3 Se verifica lo siguiente: 1.35) (6. o Sea x∗ un vector p × 1 de valores a tomar por los regresores. adem´s. la predicci´n Y a o ˆ en lugar de β .41) (6.35) y (7. 21). La correspondiente Y∗ ser´: Y∗ = x∗ ′ β + ǫ∗ .38) a (7. ˆ E(Y∗ − Y∗ ) = 0 ˆ E(Y∗ − Y∗ )2 = σ 2 (1 + x∗ ′ (X ′ X)−1 x∗ ) ´ Demostracion: El apartado 1) se sigue inmediatamente de las ecuaciones (7. Observemos que: o ˆ ˆ E(Y∗ − Y∗ )2 = E[x∗ ′ β + ǫ ∗ − x∗ ′ β ]2 ˆ = E[x∗ ′ (β − β) + ǫ∗ ]2 ˆ = E[x∗ (β − β)] + E[ǫ∗ ] ˆ ˆ = E[x∗ ′ (β − β)(β − β)′ x∗ ] + E[ǫ∗ ]2 = x∗ ′ Σβ x∗ + σ 2 ˆ ′ 2 2 (6. a E(Y∗ ) = E(x∗ ′ β + ǫ∗ ) = x∗ ′ β ˆ ˆ E(Y∗ ) = E(x∗ ′ β) = x∗ ′ β (6.42) (6.´ 6.36) a continuaci´n. y.39) se ha hecho uso de la circunstancia de que ˆ ˆ β y ǫ∗ son independientes (β depende solamente de ǫ . y la o ˆ segunda de la insesgadez de β (Teorema 3.36) ˆ Se dice que Y∗ es una predicci´n insesgada de Y∗ . adicional de error. que la varianza del error de predicci´n es mayor o igual que la varianza de la perturbaci´n (ya que o o x∗ ′ (X ′ X)−1 x∗ es una forma cuadr´tica semidefinida positiva). INTERVALOS DE CONFIANZA PARA LA PREDICCION 85 Frecuentemente es de inter´s. consecuencia la primera de los supuestos habituales.38) (6.43) muestra dos cosas.

en general. Pe˜a (2002) Sec. puede verse Cox o and Hinkley (1974) p. Por otra parte. 3. presupone familiaridad con la funci´n lm. En a R hay funciones en varios paquetes que proporcionan an´loga funcionalidad. (7. Habr´ determinadas Y∗ cuya predicci´n ser´ m´s precisa que a o a a la de otras.4. 6.8. que tambi´n pueden obtenerse e f´cilmente de acuerdo con la teor´ esbozada en la Secci´n 7. Stapleton (1995) Sec. 7. Pueden ser consultados los manuales repetidamente citados: Seber (1977). pueden consultarse Knuth (1968). 8. u Kennedy (1980). REGRESION CON PERTURBACIONES NORMALES. a Puede consultarse por ejemplo la documentaci´n de linear. 58 y siguientes. n Sobre generadores de n´meros aleatorios. cualquier texto sobre computaci´n estad´ o ıstica. Cap.3.7 son unos cuantos.hypothesis (pao quete car) y glh. En el Cap´ ıtulo 10 volveremos sobre el particular. Stapleton (1995) Sec.test (paquete gmodels). o . 4. Thisted (1988) y. que es objeto de atenci´n en el Cap´ o o ıtulo 8 a continuaci´n. Lectura recomendada. Sobre el contraste raz´n generalizada de verosimilitudes. Por lo que hace a intervalos de confianza. Lange (1998). 313 y para su aplicaci´n al contraste de hip´tesis o o lineales generales. Sobre la utilizaci´n de R. se o a han definido las funciones lscond y contraste.43) muestra que la varianza del error de predicci´n o ′ depende de x∗ .h por motivos did´cticos. o El empleo de dichas funciones.´ 86 CAP´ ITULO 6. Sobre la teor´ ıa. 3. p´g. En el Ejemplo 5. Draper and Smith (1998) Cap.8. sin embargo. puede ser de a ıa o utilidad la funci´n confint (paquete stats).1.

87 . LECTURA RECOMENDADA.6.1 Demu´strese que si G es la matriz definida en (7.4. Complementos y ejercicios 6.29) con A e y (X ′ X) ambas de rango completo. entonces rango(G) = rango(A).

´ 88 CAP´ ITULO 6. . REGRESION CON PERTURBACIONES NORMALES.

“Africa”. ıa Interesar´ distinguir dos tipos de variables: cualitativas (tambi´n llamaa e das categ´ricas) y num´ricas. de forma que todo caso muestral pueda recibir ıas un valor. para ilustrar tanto los conceptos te´ricos adquiridos como o la potencia del entorno de modelizaci´n proporcionado por R. Una variable cualitativa nominal especifica una caracter´ ıstica o atributo que puede tomar un n´mero entero (y habitualmente peque˜o) de niveles u n o estados. Las variables cualitativas se desglosan a su o e vez en nominales y ordinales. una variable Zona podr´ tomar los niveles o estaıa dos: “Europa”. Tipolog´ de variables explicativas. a 7. o En los cap´ ıtulos anteriores han aparecido fragmentos de c´digo ilustrando o el modo de llevar a cabo diversos c´lculos en R. Se presenta aqu´ la funci´n a ı o lm y algunas otras. Si es preciso. 89 . “America” y “Ocean´ Requeriremos que las ıa”. o Este cap´ ıtulo es eminentemente pr´ctico y puede ser omitido sin p´rdia e da de continuidad por lectores que no est´n interesados en utilizar R como e herramienta de c´lculo. podemos crear una categor´ especial como “Otros” o ıa “Resto”.Cap´ ıtulo 7 Estimaci´n del modelo de o regresi´n lineal con R. categor´ sean exhaustivas. Por ejemplo.1. “Asia”.

los sujetos podr´ ser m´s o ıan a veraces al encuadrarse en intervalos amplios de renta que al responder directamente sobre su valor.1 En general. puea de convenirnos hacerlo. una variable ordinal puede tratarse como nominal. medir la renta en euros da al coeficiente β asociado la interpretaci´n o de “Incremento de consumo asociado a un incremento de renta de un euro”. no interesar´ “degradar” una vao a riable trat´ndola como un tipo inferior. podr´ convenirnos redefinir ıa la variable renta en categor´ Los coeficientes estimados ser´n m´s ıas. 80C y 93C podr´ ambas convertirse en “Caliente”. Ser´ el caso de u ıa variables como Peso ´ Temperatura (aunque en la pr´ctica el n´mero de o a u estados que pueden tomar es finito a causa de la precisi´n tambi´n finita de o e los instrumentos de medida que empleamos). en el orden en que se han descrito. por ejemplo. y tendremos un modelo m´s flexible. aunque en algunos casos. y “Caliente”. si o la variable se obtiene por encuestaci´n. En cierto sentido. Temperatura podr´ convertirse en una variable ordinal con niveles “Fr´ “Templado” ıa ıo”. al precio de un cierto sacrificio de informaci´n: dos temperao turas de. o e o Observaci´n 7. haciena do abstracci´n de su orden. Adem´s. T´ ıpicamente. reflejan una mayor finura o contenido informativo: una variable num´rie ca puede convertirse en ordinal fijando intervalos: por ejemplo. ıan perdi´ndose la informaci´n de que la segunda es superior a la primera. el suponer a n a una dependencia lineal del consumo sobre la renta ser´ en la mayor´ a ıa de los casos poco realista. en una o ıas. o a Las variables que hemos denominado num´ricas pueden en principio poe nerse en correspondencia con un intervalo de n´meros reales. No hab´ en cambio. En tal caso. a a f´cilmente interpretables. tambi´n al precio de sacrificar cierta informaci´n. “Superiores”. si examinamos la influencia de la renta sobre el consumo de un cierto bien en una muestra de familias. anterior una ordenaci´n natural entre las zonas geogr´ficas. los tres tipos de variables. La diferencia esencial con las variables nominales es que hay una ordenaci´n entre los distintos niveles: o cada una de las categor´ en el orden en que se hay escrito implica “m´s” ıas a estudios que la categor´ precedente. Por ejemplo. que no a a fuerza una relaci´n lineal entre renta y consumo. “Secundarios”. en el ejemplo ıa ıa.) . e o An´logamente.90 ´ CAP´ ITULO 7. variable como Nivel de estudios podr´ ıamos tener categor´ como: “Sin ıas estudios”. REGRESION CON R Una variable cualitativa ordinal se diferencia unicamente de una nominal ´ en que hay una ordenaci´n natural entre las categor´ Por ejemplo. tendr´ un valor muy peque˜ o. “Primarios”. (Adicionalmente.

una variable cualitativa se denomina factor.factor(Zona.2. R ofrece excelentes facilidades para tratar variables de diferentes tipos como regresores.1 a continuaci´n ilustra la manera de operar con ellos.. "America".2. para variables cualitativas ordinales. 91 7. y factores ordenados (ordered factors). "Asia") > Zona <. aune que uno es una cadena de caracteres y otro un factor. hay que especificarlo. FACTORES Y DATAFRAMES.c("Europa". La diferencia estriba en las comillas en el primer caso y la l´ ınea adicional especificando los niveles en el segundo.. "Asia".chr [1] "Europa" "Europa" "Asia" [5] "America" "Ocean´a" "Asia" ı > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Africa America Asia Europa Ocean´a ı Obs´rvese que Zona.as.chr) > Zona. Factores y dataframes. + "Africa". > str(Zona) "Africa" . Podemos preguntar la clase de objeto con la funci´n class o ver la structura con la funci´n str para ver la o o diferencia: > class(Zona. El Ejemplo 8. Hay factores ordinarios.chr y Zona se imprimen de manera similar.1 Para que una variable sea un factor.chr <. "Europa". "Oceanía".chr) [1] "character" > class(Zona) [1] "factor" > str(Zona.chr) chr [1:7] "Europa" "Europa" "Asia" .7. que permiten manejar variables cualitativas nominales. Observemos el siguiente fragmento de c´digo: o > Zona. En la jerga de R. o R: Ejemplo 7.

+ "Medios".chr) NULL > levels(Zona) [1] "Africa" "America" "Asia" [5] "Ocean´a" ı "Europa" Veamos ahora como definir un factor ordenado: > Estudios <. "Primarios"). en tanto una cadena de caracteres no: > levels(Zona.: 4 4 3 1 2 5 3 Un factor tiene definidos niveles.ordered(c("Superiores"..ordered(c("Superiores". el orden de los niveles se determina por el orden alfab´tico de sus denominaciones. + "Medios". podemos crear el objeto Estudios as´ ı: > Estudios <."America". < Superiores . lo que e es indeseable: > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos 4 Levels: Medios < Ningunos < . "Primarios". + "Medios". "Primarios".. + "Primarios".. levels = c("Ningunos". "Ningunos"... y ´ste a “Primarios”. "Medios". "Superiores")) > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Ningunos < Primarios < .. < Superiores Para especificar un orden.92 ´ CAP´ ITULO 7. REGRESION CON R Factor w/ 5 levels "Africa". Esto har´ que en Estudios e ıa el nivel “Medios” precediera a “Ningunos”. "Medios". "Medios". "Ningunos")) Si no se especifica lo contrario.

2 <. sin necesidad de enumerarlos.. levels = rev(levels(Estudios))) > Estudios. Si. Podemos de modo an´logo reordenar los niveles. ref = "Asia") > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Asia Africa America Europa Ocean´a ı Veremos en el Ejemplo 8. < Ningunos Una manipulaci´n que deseamos hacer de ordinario con factores no o ordenados es la de poner en primer lugar uno de los niveles.. levels = c("Superiores".relevel(Zona. Comprobemos a continuaci´n que obtenemos en ambos casos el mismo objeto con el orden o de los niveles deseado: > Estudios..1 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < .2 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < .2.1 <. "Ningunos")) o. FACTORES Y DATAFRAMES. mas simplemente podemos revertir el orden de los niveles mediante la funcion rev. "Primarios". el nivel de referencia.. podemos hacerlo as´ ı: 93 > Estudios.7.ordered(Estudios.ordered(Estudios. + "Medios". Definamos ahora dos variables num´ricas: e . quea remos revertir el orden. < Ningunos > Estudios.5 la utilidad de esto. por ejemplo. Podemos lograrlo c´modamente con la funci´n relevel o o > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Africa America Asia Europa Ocean´a ı > Zona <.

003 2 Europa Medios 12345 0.c(13456. 2300) > Mortalidad <.004 0.data.010 4 Africa Primarios 1234 0. 0.frame³: $ Zona : $ Estudios : $ Ingresos : $ Mortalidad: 7 obs. 4567.: 4 4 1 2 3 5 1 Ord. Ingresos.02 0.004 3 Asia Medios 3456 0. 0. o Podemos referirnos a sus t´rminos como a los elementos de una lista.005 0.02.006 6 Ocean´a ı Medios 4567 0."Africa".015 > str(Datos) ³data. + 0. REGRESION CON R > Ingresos <. num 0.: 4 3 3 2 1 3 2 num 13456 12345 3456 1234 6789 .004. Estudios.factor w/ 4 levels "Ningunos"<"Primarios"<.003.003 0.. 0.005 7 Asia Primarios 2300 0.01 0. of 4 variables: Factor w/ 5 levels "Asia". + 6789.015) Podemos reunir variables de diferentes tipos en una dataframe. 12345..006. e o proporcionando ´ ındices de fila y columna: > Datos$Ingresos [1] 13456 12345 > Datos[[3]] [1] 13456 12345 3456 1234 6789 4567 2300 3456 1234 6789 4567 2300 > Datos[. pero presenta la peculiaridad de que sus columnas pueden ser de diferentes tipos: > Datos <.c(0.006 0. 3456.94 ´ CAP´ ITULO 7.frame(Zona. "Ingresos"] [1] 13456 12345 3456 1234 6789 4567 2300 ..020 5 America Ningunos 6789 0.. es como una matriz. + Mortalidad) > Datos Zona Estudios Ingresos Mortalidad 1 Europa Superiores 13456 0.015 Una dataframe tiene la misma representaci´n interna que una lista.. A todos los efectos. 1234. 0.01.005. 0.

"b". No obstante. Muchas funciones en R o admiten un argumento data que permite especificar la dataframe en la que es preciso buscar las variables que se nombran. 2:3] 3 Estudios Ingresos Medios 3456 95 Fin del ejemplo Una dataframe provee un entorno de evaluaci´n. Estudios. FACTORES Y DATAFRAMES. El Ejemplo 8. Adicionalmente.2.c("a". > Datos[3. su valor oculta el de la columna del mismo nombre en una dataframe “attacheada”: > Zona <. "c") > attach(Datos) .7. tras invocar la funci´n attach sus columnas son o visibles como si variables en el espacio de trabajo se tratase: > attach(Datos) > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Asia Africa America Europa Ocean´a ı La funci´n detach revierte el efecto de attach: o > detach(Datos) Si un objeto existe en el espacio de trabajo. la instrucci´n attach hace que las columnas en una dataframe sean accesibles como o variables definidas en el espacio de trabajo.2. Mortalidad) Si ahora tecle´ramos el nombre de alguna de ellas obtendr´ a ıamos un error. lo ilustra. Ingresos. continuaci´n del o Ejemplo 8.1.2 Comencemos por eliminar del espacio de trabajo algunas variables: > rm(Zona. R: Ejemplo 7.

REGRESION CON R The following object(s) are masked _by_ .GlobalEnv : Zona > Zona [1] "a" "b" "c" Fin del ejemplo 7. una dataframe en la que los t´rminos de la f´rmula son evaluados. o La funci´n model. Por razones did´cticas.matrix.3 Supongamos que deseamos investigar la relaci´n entre la variable Mortalidad y la variable Ingresos.4). y a la derecha las variables regresores.96 ´ CAP´ ITULO 7. sin embargo. Una f´rmula puede proporcionarse como argumento directamente para o estimar un modelo de regresi´n lineal ordinaria (mediante la funci´n lm. exploraremos primero el a modo en que los diferentes tipos de variables son tratados en una f´rmula o por la funci´n model. e o Proporciona la matriz de dise˜o asociada al modelo que especificamos en la n f´rmula.matrix recibe como argumentos una f´rmula y. Permiten.3. un o o ejemplo en la Secci´n 8. regresi´n lineal generalizada (mediante la funci´n o o o glm) o regresi´n no lineal (mediante la funci´n nlme en el paquete del mismo o o nombre). F´rmulas o Bastantes funciones en R hacen uso de f´rmulas.model. Podemos o construir la matriz de dise˜ o as´ n ı: > X <. entre otras o cosas. simplemente nomo brando a la izquierda del s´ ımbolo ~ la variable respuesta. especificar de modo simple modelos de regresi´n. + data = Datos) > X 1 2 3 4 (Intercept) Ingresos 1 13456 1 12345 1 3456 1 1234 . opcioo o nalmente.matrix(Mortalidad ~ Ingresos. o R: Ejemplo 7.

model.model. + data = Datos) > X Ingresos 1 13456 2 12345 3 3456 4 1234 5 6789 6 4567 7 2300 attr(. > X <.3. data = Datos) > X (Intercept) Ingresos 1 1 13456 2 1 12345 3 1 3456 4 1 1234 5 1 6789 6 1 4567 7 1 2300 attr(. Si esto fuera indeseable por alg´ n motivo. FORMULAS 5 1 6 1 7 1 attr(. se ha a˜ adido autom´ticamente una columna de n a “unos”.matrix(Mortalidad ~ -1 + Ingresos. Podr´ o n ıamos omitirla y dar s´lo el o lado derecho de la f´rmula. podr´ u ıamos evitarlo incluyendo como regresor “-1”."assign") [1] 0 1 6789 4567 2300 97 Como podemos ver. as´ o ı: > X <."assign") [1] 0 1 .´ 7.matrix(~Ingresos."assign") [1] 1 Obs´rvese que la variable Mortalidad no juega ning´ n papel en la e u conformaci´n de la matriz de dise˜ o.

98 ´ CAP´ ITULO 7.5 -0.22361 -0.matrix as´ lo hace. Podemos construir su matriz de dise˜ o as´ n ı: > X <.67082 0 -0.67082 0.matrix(~Zona + Estudios + Ingresos.C ı 0 0.22361 0 0.22361 -0. y la funci´n model.22361 -0. cuando tenemos regresores cualitativos.5 0.4 Consideremos un modelo que tiene como regresores Zona. Requieren ser tratadas de manera especial.5 -0.67082 0 -0.Q Estudios. R: Ejemplo 7.22361 -0.L Estudios. + data = Datos) Las variables Zona y Estudios son cualitativas. Ingresos y Estudios.4 lo ilustra.model.22361 -0. Veamos la o ı matriz de dise˜ o que proporciona: n > X 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 (Intercept) ZonaAfrica ZonaAmerica ZonaEuropa 1 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 ZonaOcean´a Estudios.5 0.5 0.5 -0.67082 0 0. El Ejemplo 8.22361 1 0.67082 0 -0.67082 0. REGRESION CON R Fin del ejemplo La comodidad que proporciona la utilizaci´n de f´rmulas se hace m´s o o a evidente.5 -0.67082 Ingresos 13456 12345 3456 1234 6789 4567 2300 . sin embargo.

´ 7.3. FORMULAS
attr(,"assign") [1] 0 1 1 1 1 2 2 2 3 attr(,"contrasts") attr(,"contrasts")$Zona [1] "contr.treatment" attr(,"contrasts")$Estudios [1] "contr.poly"

99

La variable Ingresos (num´rica) ha sido dejada tal cual. La variable e Zona es cualitativa nominal, y requiere ser desglosada en tantas columnas como niveles tiene (as´ el β asociado a cada columna recoge el efecı, to del correspondiente nivel). Eso es lo que ha hecho model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido de otro modo. El nivel omitido (Asia) pasa as´ a formar parte del caso de referencia: la ı funci´n relevel (ver Ejemplo 8.1) permitir´ cambiar f´cilmente el o ıa a nivel que forma parte del caso de referencia. El tratamiento de las variables ordinales como Estudios es algo m´s elaborado. En una variable ordinal hay una noci´n natural de a o proximidad entre niveles: el nivel de estudios Medios est´ m´s cerca del a a nivel Superiores que el nivel Primarios. Lo que hace model.matrix es conceptualmente equivalente a hacer lo siguiente (detalles en la Observaci´n 8.2, p´g. 100): o a 1. Asignar a cada nivel de Estudios un valor entero, respetando el orden de la variable: “Ningunos”=1, “Primarios”=2, “Medios”=3 y “Superiores”=4. 2. Con la variable Estudios as´ codificada, crear tantas columı nas para la variable Estudios como niveles tenga, de la forma: (Estudios)0 , (Estudios)1 , (Estudios)2 , (Estudios)3 . La primera columna, que es constante, es autom´ticamente desechada a si en la matriz de dise˜ o existe columna de “unos”, para evitar la muln ticolinealidad. Las restantes son rotuladas con las letras “L” (Linear), “Q” (Quadratic), “C” (Cubic), y as´ sucesivamente. ı Si empleamos todas las columnas que model.matrix crea para una variable ordinal, obtenemos exactamente el mismo subespacio que habr´ ıamos obtenido con columnas de ceros y unos como las empleadas para una variable nominal: la ventaja de utilizar una base de dicho subespacio como la que model.matrix construye, es que permite en ocasiones realizar una modelizaci´n m´s simple: podemos, a voluntad, o a emplear en un modelo de regresi´n algunas, varias o todas las columnas o

100

´ CAP´ ITULO 7. REGRESION CON R
como regresores, para modelizar un efecto m´s o menos “suave” sobre a la variable respuesta. Fin del ejemplo

Observaci´n 7.2 Se indica en el Ejemplo 8.4 que el efecto de o
una variable ordinal se recoge de modo conceptualmente equivalente a construir potencias de orden creciente de la variable ordinal codificada por valores enteros que respetan el orden. Ayudar´ representar gr´ficaa a mente las columnas correspondientes de la matriz X frente a los enteros codificando los niveles de la variable Estudios. Para ello, eliminamos primero niveles duplicados y representaremos los restantes: > > > + + > > x <- as.numeric(Datos[, "Estudios"]) i <- !duplicated(x) plot(x[i], X[i, "Estudios.L"], type = "b", pch = "L", xaxp = c(1, 4, 3), xlab = "x", ylab = "Estudios.{L,Q,C}") points(x[i], X[i, "Estudios.Q"], pch = "Q") points(x[i], X[i, "Estudios.C"], pch = "C")

0.6

C Q

L Q

0.4

Estudios.{L,Q,C}

−0.2

0.0

0.2

L

C

C

L

−0.4

Q −0.6 L 1 2 x

Q C 3 4

´ 7.3. FORMULAS
Hemos dibujado una l´ ınea uniendo las “L” para destacar su crecimiento lineal. Las “Q” puede verse que se sit´ an sobre una par´bola y u a las “C” sobre una funci´n c´ bica. o u Un vistazo al gr´fico anterior muestra, sin embargo, que el t´rmino a e lineal, por ejemplo, no toma los valores 1, 2, 3 4, ni el cuadr´tico 1, 4, a 9, 16. En efecto, > X[i, 6:8] 1 2 4 5 Estudios.L Estudios.Q Estudios.C 0.67082 0.5 0.22361 0.22361 -0.5 -0.67082 -0.22361 -0.5 0.67082 -0.67082 0.5 -0.22361

101

En realidad se han rescalado las columnas y se han ortogonalizado: > round(crossprod(X[i, 6:8])) Estudios.L Estudios.Q Estudios.C Estudios.L Estudios.Q Estudios.C 1 0 0 0 1 0 0 0 1

Ello se hace por razones de conveniencia num´rica y de interpretaci´n. e o Aunque por razones did´cticas hemos construido primero la matriz a de dise˜ o y extraido luego un subconjunto de filas y columnas para n ver como se codificaba la variable Estudios, R proporciona un modo m´s simple de hacerlo: a > contrasts(Datos[, "Estudios"]) .L .Q .C Ningunos -0.67082 0.5 -0.22361 Primarios -0.22361 -0.5 0.67082 Medios 0.22361 -0.5 -0.67082 Superiores 0.67082 0.5 0.22361

Observaci´n 7.3 El anterior es el comportamiento “por omio
si´n” de la funci´n model.matrix. Podemos alterarlo especificando o o distintos modos de desdoblar los factores y factores ordenados. Ello se hace invocando la funci´n options de modo similar al siguiente: o

102

´ CAP´ ITULO 7. REGRESION CON R
options(contrasts=c("contr.treatment","contr.poly")) La primera opci´n en el argumento contrasts se aplica a los factoo res, la segunda a los factores ordenados. Por ejemplo, para los factores podemos especificar que se desdoblen en tantas columnas como niveles haya, sin incluir ning´ n nivel en el caso de referencia. Para ello, u deberemos proporcionar contr.sum como primer valor de contrasts: options(contrasts=c("contr.sum","contr.poly")) V´ase la documentaci´n de contrasts para m´s detalles. e o a Adicionalmente, podemos invocar directamente las funciones contr.sum, contr.treatment, contr.poly, contr.helmert para obtener informaci´n sobre el diferente modo en que quedar´ o ıa codificado un factor. Por ejemplo, > NivelEstudios <- levels(Datos[, "Estudios"]) > contr.sum(NivelEstudios) [,1] [,2] [,3] Ningunos 1 0 0 Primarios 0 1 0 Medios 0 0 1 Superiores -1 -1 -1 > contr.treatment(NivelEstudios) Ningunos Primarios Medios Superiores Primarios Medios Superiores 0 0 0 1 0 0 0 1 0 0 0 1

> contr.poly(NivelEstudios) .L .Q .C [1,] -0.67082 0.5 -0.22361 [2,] -0.22361 -0.5 0.67082 [3,] 0.22361 -0.5 -0.67082 [4,] 0.67082 0.5 0.22361 Obs´rvese que mientras contrasts se invoca tomando como argue mento un factor, las funciones contr.sum y similares toman como argumento el vector de niveles de un factor.

510 583 533 577 591 547 519 542 553 632 .... 950 1012 969 994 985 964 982 969 955 1029 .5 a continuaci´n proporciona o o o detalles. 394 557 318 673 578 689 620 472 421 526 . 1:5] M So Ed Po1 Po2 1 151 1 91 58 56 2 143 0 113 103 95 3 142 1 89 45 44 > str(UScrime) ³data..´ 7. R: Ejemplo 7.. 41 36 33 39 20 29 38 35 28 24 . Se trata de datos correspondientes a 47 estados en EE. o > library(MASS) > UScrime[1:3.. 108 96 94 102 91 84 97 79 81 100 . El Ejemplo 8..F : int $ Pop : int $ NW : int $ U1 : int $ U2 : int $ GDP : int 47 obs. podemos obtener o informaci´n detallada sobre los datos tecleando help(UScrime). LA FUNCION LM. data=datos) La funci´n lm construye entonces la matriz de dise˜o mediante la funci´n o n o model.... 56 95 44 141 101 115 79 109 62 68 . Puede utilizarse con tan solo dos argumentos: a o una f´rmula y una dataframe que suministra los valores para evaluar las o expresiones en dicha f´rmula. Por ejemplo.. 1 0 1 0 0 0 1 1 1 0 . suministrando un c´mulo de inu formaci´n sobre la estimaci´n.4. 33 13 18 157 18 25 4 50 39 7 ..UU.. y referidos al a˜ os 1960.. Tras hacerlo. o La funci´n lm es un instrumento potente y c´modo de utilizar para el o o an´lisis de regresi´n lineal. of 16 variables: 151 143 142 136 141 121 127 131 157 140 .matrix y estima el modelo deseado. as´ o ı: ajuste <lm(y ~ x1 + x2 + x4. 103 7. 91 113 89 121 121 110 111 109 90 118 .... La funci´n lm.frame³: $ M : int $ So : int $ Ed : int $ Po1 : int $ Po2 : int $ LF : int $ M....5 Veamos en primer lugar los datos que utilizaremos.. . 58 103 45 149 109 118 82 115 65 71 . 301 102 219 80 30 44 139 179 286 15 .4.. Forman parte del paquete MASS (soporte n del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instrucci´n library(MASS))...

proporcioo na un estadillo con informaci´n mucho m´s completa.8 -56. a o o .5 1057.58 Prob -8698.1 1 3Q Max 82.46 El objeto fit. El empleo de la funci´n summary.3 24. La funci´n str permite ver la estructura de cualquier objeto en R. Vemos tambi´n que tiene 47 filas (=observaciones) e y 16 columnas (=posibles regresores). algunas reales (num) y e otras enteras (int).36 So 242. o a > summary(fit) Call: lm(formula = y ~ Ineq + Prob + So. La variable y (tasa de o criminalidad) podemos relacionarla con la desigualdad(Ineq).lm(y ~ Ineq + Prob + So.8 -163.99 Ineq -1. Probemos ahora a hacer una regresi´n1 ..3 . 26.0846 0. 0..9 21..0834 0. REGRESION CON R 261 194 250 167 174 126 168 206 239 174 . sin embargo. proporciona una informaci´n muy suo maria: apenas la descripci´n del modelo ajustado y los coeficientes o estimados. En este caso.0158 0.0414 . El Cap´ o ıtulo 13 abordar´ la cuesti´n de c´mo seleccionar modelos.. todas las variables son num´ricas.104 $ $ $ $ Ineq: Prob: Time: y : int num num int ´ CAP´ ITULO 7.4 No se afirma que el modelo que ensayamos sea el mejor en ning´ n sentido: es s´lo una u o ilustraci´n.. probabilidad de ser encarcelado (Prob) y con un indicador de Estado sure˜ o n (So): > fit <. data = UScrime) > fit Call: lm(formula = y ~ Ineq + Prob + So.. 791 1635 578 1969 1234 682 963 1555 856 705 .3 29. data = UScrime) Coefficients: (Intercept) 1538..0296 0. al imprimirlo..2 25. Lo o que muestra en el fragmento anterior es que UScrime es una dataframe. data = UScrime) Residuals: Min 1Q Median -662.

166 F-statistic: 4. Coefficients: Estimate Std. en primer lugar. 50 % y 75 % de los residuos.48 1.05 ³.1 ³ ³ 1 Residual standard error: 353 on 43 degrees of freedom Multiple R-squared: 0. (43 degrees of freedom).³ 0. el segundo cuartil es la mediana). LA FUNCION LM. Su estad´ ıstico t.22) y R (Adjusted R-squared. Error t value Pr(>|t|) (Intercept) 1538. este ultimo estad´ ´ ıstico ser´ introducido en el a Cap´ ıtulo 13). Se imprime. teo nemos un estadillo proporcionando para cada regresor mencionado al margen: ˆ 1.4.0026 So 242. N −p (Residual standard error). A continuaci´n. es decir.22.001 ³**³ 0.´ 7. codes: 0 ³***³ 0.45 6e-05 Ineq -1.05 on 3 and 43 DF. La probabilidad bajo la hip´tesis nula H0 : βi = 0 de obtener un o valor del estad´ ıstico t tan o m´s alejado de cero que el obtenido a (bajo Pr(>|t|)).58 1.36 345.42 -3.4220 Prob -8698.84 4.0127 Desmenucemos la salida anterior. Finalmente. Su βi (bajo Estimate). 2. R2 (que toma el valor 0. el modelo ajustado y unos estad´ ısticos sobre los residuos (m´ ınimo. valores dejando a su izquierda el 25 %.43 0. Su σβi (bajo Std.46 2725. 4. ˆ βi σβ i ˆˆ (bajo t value). que estima σǫ . tenemos el estad´ ıstico Qh para contrastar . ˆˆ 3. Error).81 0.01 ³*³ 0.19 0.95 -0. p-value: 0. m´ximo a y cuartiles. A continuaci´n tenemos o SSE . los grados de libertad 2 N − p.1589 105 (Intercept) *** Ineq Prob ** So --Signif. Adjusted R-squared: 0.99 169.

lm(y ~ Prob. cuyos nombres son autoexplicativos: > attributes(fit) $names [1] "coefficients" [3] "effects" [5] "fitted.2 o o o (F-statistic). p´g.h <. Aqu´ toma el valor 4. Podemos contrastar la hip´tesis H0 : o β Ineq = β So = 0 del modo sugerido al final del Ejemplo 7.residual" "call" "model" . o > fit.0127. o o El objeto compuesto fit contiene la informaci´n que ha permitido o imprimir todos los anteriores resultados y mucha otra. 82: a ajustamos una segunda regresi´n eliminando los regresores Ineq y So.106 ´ CAP´ ITULO 7. Dicho valor deja a su derecha ı en una distribuci´n F3.2. SSE.h$residuals^2) y a continuaci´n el estad´ o ıstico Qh asociado a la hip´tesis y los grados o de libertad del mismo: "residuals" "rank" "assign" "df.43 una cola de probabilidad 0. como se indica en la Secci´n 7. que es el o nivel de significaci´n conjunto de la regresi´n ajustada.h <. REGRESION CON R significaci´n conjunta de la regresi´n. podr´ ıamos hacer: > SSE <.sum(fit. ıa en tanto los restantes no lo eran.sum(fit$residuals^2) > SSE [1] 5363970 El estadillo anterior suger´ que el regresor Prob era muy significativo.05. > SSE. para obtener la suma de cuadrados de los residuos.2. data = UScrime) calculamos la suma de cuadrados de sus residuos. Por ejemplo.values" [7] "qr" [9] "xlevels" [11] "terms" $class [1] "lm" Podemos referirnos a los componentes de fit y emplearlos en c´lculos a subsiguientes.

4 Qh <. > > > > > N <.pf(Qh.159 Residuals 43 5363970 124743 --Signif. codes: 0 ³***³ 0.´ 7.3616 lo que sugiere que podemos prescindir de dichos dos regresores.p)) Qh 107 [1] 1.nrow(UScrime) q <.2 p <.006 ** So 1 256417 256417 2. La instrucci´n anova proporciona una descomposici´n de la suma o o de cuadrados de los residuos correpondiente a cada regresor cuando se introducen en el orden dado.34 0.p) [1] 0. LA FUNCION LM.0417 del estad´ ıstico deja en la cola a su derecha es > 1 .4.³ 0.0028 ** . data = UScrime) > anova(fit2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Prob 1 1257075 1257075 10.SSE)/q)/(SSE/(N .0417 La probabilidad que el valor 1.05 ³.((SSE.01 ³*³ 0.001 ³**³ 0.191 Prob 1 1040010 1040010 8.06 0.08 0.lm(y ~ Prob + Ineq + So. Comp´rese por ejemplo. a > anova(fit) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Ineq 1 220530 220530 1.1 ³ ³ 1 con: > fit2 <. q.77 0. N .h .

8684 So 1 256417 256417 2. basta que reemplacemos la columna So de la dataframe del siguiente modo: > UScrime[.03 0.01 ³*³ 0. data = UScrime) Residuals: Min 1Q Median -641. + breaks = 3). + labels = c("Norte". "So"] <.³ 0.9 -195. y a continuaci´n definimos un factor ordenado con tres categor´ o ıas: > Temp <. "So"]. "Media".3 1059. dividiremos su recorrido en tres intervalos.ordered(cut(UScrime[.1589 Residuals 43 5363970 124743 --Signif.5) o > fit3 <.05 ³.lm(y ~ Prob + Ineq + So.Temp Podemos ahora repetir la estimaci´n anterior: o R: Ejemplo 7. labels = c("Baja". "Sur")) Para la segunda variable. Para lo primero. "Ineq"].factor(UScrime[.108 ´ CAP´ ITULO 7. tos puramente ilustrativos re-estimaremos la regresi´n anterior convirtiendo o previamente la variable indicadora So (Estado del Sur) en una variable nominal y la variable Ineq en una variable ordinal (o factor ordenado).6 (continuaci´n del Ejemplo 8.5 .001 ³**³ 0. + "Alta")) > UScrime[. data = UScrime) > summary(fit3) Call: lm(formula = y ~ Prob + Ineq + So.1 ³ ³ 1 Fin del ejemplo No hay ninguna necesidad ni aparente ventaja en hacerlo as´ pero a efecı. REGRESION CON R Ineq 1 3466 3466 0. codes: 0 ³***³ 0.4 3Q Max 124. "Ineq"] <.5 -55.06 0.

2 132.32 0.17 on 4 and 42 DF. lineal y cuadr´tico).3 1059.05 ³. Error t value Pr(>|t|) (Intercept) 1354.Q -10. p-value: 0.4e-11 Prob -9013.8 2717.8 2717.9238 SoSur 284. Error t value Pr(>|t|) (Intercept) 1212.sum".2866 Ineq.Q SoSur --Signif. Coefficients: Estimate Std.001 ³**³ 0.4 134.0019 Ineq.´ 7.8 184. La variable a nominal So se desglosa tambi´n en dos: el nivel “Norte” se integra en e el caso de referencia y el par´metro restante mide el efecto deferencial a del nivel “Sur” respecto al nivel “Norte”.7 -3. data = UScrime) > summary(fit4) Call: lm(formula = y ~ Prob + Ineq + So.5 -55.5 Coefficients: Estimate Std. LA FUNCION LM. data = UScrime) Residuals: Min 1Q Median -641.97 2.08 0.8 8. A t´ ıtulo ilustrativo.4 -0.3 1.55 0. Adjusted R-squared: 0.poly")) > fit4 <.159 F-statistic: 3.0019 .4.6 110.7 -1.L -143.lm(y ~ Prob + Ineq + So.232.1298 109 (Intercept) *** Prob ** Ineq.6e-11 Prob -9013.7 -3.0229 La variable ordinal Ineq da lugar a tres t´rminos (constante.9 -195.L Ineq. omitido e por colineal con la columna de unos.³ 0.0 8.99 2.10 0.1 ³ ³ 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0. "contr.7 151.01 ³*³ 0. podemos ajustar la anterior regresi´n empleando un diferente desdoblamiento o del regresor cualitativo So: > options(contrasts = c("contr.32 0. codes: 0 ³***³ 0.4 3Q Max 124.

Fin del ejemplo 7.) Vemos un s´lo regresor asociado a So1. o Sec.3.7 110. vemos que son id´nticos.1 -1.17 on 4 and 42 DF.4 92.sum fuerza los coeficientes asociados a un regresor nominal a sumar cero. mientras que en un Estado del Sur aumenta en 142.1 ³ ³ 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.8. respecto de la tasa prevalente en un Estado del Norte de an´logas caracter´ a ısticas.232. La parametrizaci´n en el model o fit4 expresa lo mismo de otro modo: en un Estado del Norte.05 ³. codes: 0 ³***³ 0.55 0.L Ineq. Exclusivamente orientado a modelos lineales es Faraway (2005).159 F-statistic: 3.0229 (V´ase la Observaci´n 8.110 Ineq.L Ineq.6 -142. el e o o primer nivel de So. Adjusted R-squared: 0.4. Si observamos los dos ajustes. REGRESION CON R 132.01 ³*³ 0. la criminalidad desciende en -142.2. ya que contr.2 -10.2866 0.4 sobre el nivel promedio de Norte y Sur. Sobre R. En fit3. La diferencia entre ambos niveles contin´ a siendo 284.08 -0.4 ´ CAP´ ITULO 7. 6. p-value: 0. Son ya bastantes las obras que es posible consultar sobre la utilizaci´n de R como herramienta para los c´lculos que requiere la regresi´n o a o lineal.³ 0. el asociado al segundo nivel es su opuesto.10 -1.9238 0.1298 (Intercept) *** Prob ** Ineq.8. el o a tratarse de un Estado del Sur ten´ como efecto incrementar la tasa ıa de criminalidad en 284. Lo unie ´ co que se altera es la interpretaci´n de los par´metros. .5. Lectura recomendada. u Puede encontrarse una discusi´n exhaustiva de las diferentes opo ciones de parametrizaci´n disponibles en Venables and Ripley (1999a).001 ³**³ 0.Q So1 --Signif.Q So1 -143. Una excelente referencia es Venables and Ripley (1999a).

Seleccionar un estad´ ıstico cuya distribuci´n sea conocida cuando H0 es o cierta y que se desv´ de modo predecible de dicha distribuci´n cuando ıa o H0 no es cierta.1.Cap´ ıtulo 8 Inferencia simult´nea. lo m´s plausible es que H0 no sea a cierta.2 veremos que el m´todo ha sido el habitual en Estad´ o e ıstica no bayesiana.1. Problemas que plantea el contrastar m´ lu tiples hip´tesis simult´neas o a Evidencia contra una hip´tesis o Si examinamos la teor´ sobre contrastes de hip´tesis presentada en la ıa o Secci´n 7.1. rechazar H0 . 8. Calcular el valor del estad´ ıstico en una determinada muestra. 4. Si el valor de dicho estad´ ıstico es an´malo respecto de lo que o esperar´ ıamos bajo H0 . 3. o a 2. Los pasos se pueden esquematizar as´ ı: 1. La l´gica subyacente es: “Como cuando H0 es cierta es dif´ que se de o ıcil un valor del estad´ ıstico como el observado. a 8. Fijar una hip´tesis H0 sobre los par´metros de un modelo.” 111 .

es muy frecuente realizar el contraste sin una regi´n cr´ o ıtica preespecificada y tomar el nivel de significaci´n emp´ o ırico como una medida del acuerdo (o desacuerdo) de la evidencia con la hip´tesis de inter´s.1. Niveles de significaci´n o e o emp´ ıricos muy peque˜os habr´ as´ de entenderse como evidencia contra la n ıan ı hip´tesis nula objeto de contraste.1 Llamamos nivel de significaci´n emp´ o o ırico asociado al valor observado de un estad´ ıstico a la probabilidad de obtener en el muestreo (bajo H0 ) valores tan o m´s raros que el obtenido. Consideraremos a ıas o estos ultimos “raros” y favoreciendo el rechazo de H0 . podemos ordenarlos de m´s a menos “raros” de acuerdo con su densidad a respectiva. todos los valores posibles tienen probabilidad cero.05. y s´lo raramente valores en las colas.112 ´ CAP´ ITULO 8. . Tienen densidad ´ menor que los cercanos a µ. e ima√ ginemos que obtenemos un valor de X de 0. todos los posibles valores del estad´ o ıstico X tienen probabilidad cero. σ 2 /n)— genera de modo frecuente observaciones en las cercan´ de µ. Sea una muestra con n = 100. El nivel de significaci´n emp´ o ırico (u observado) ser´ 0. a Ejemplo 8. . . la distribuci´n de dicho estad´ o ıstico —una N (µ. supongamos que H0 : µ = 0. No obstano te. INFERENCIA SIMULTANEA. Supongamos conocida σ 2 = 1. . en la literatura inglesa.196 (= 1.96 × 100−1 ). Fin del ejemplo Tendr´ inter´s en lo que sigue la noci´n de nivel de significaci´n emp´ a e o o ırico 1 .05 de observar valores de X igual o m´s a alejados de µ que el que se ha presentado.1 Para una muestra X1 . .2 En el Ejemplo 9. Fin del ejemplo Si en ocasiones al abordar un contraste de hip´tesis prefijamos de anteo mano el nivel de significaci´n que deseamos utilizar (y la regi´n cr´ o o ıtica). Ejemplo 8. No obstante. Definici´n 8. o 1 O p-value. Xn procedente de una distribuci´n N (µ. Cuando el estad´ ıstico que empleamos en el contraste tiene una distribuci´n continua. porque baıa jo H0 hay probabilidad 0. σ 2 ).

tal resultado es abo solutamente inveros´ ımil. Componer o o Hamlet totalmente al azar consistir´ en apretar la tecla correcta suıa cesivamente 635. entre tantos. nos topamos con que el mono n-´simo ¡ha compuesto Hamlet! ¿Lo separar´ e ıamos de sus cong´neres para homenajearlo como reencarnaci´n de Shakese o peare? Claramente no. no es extra˜ o que uno.000 digitaciones son equiprobables. ¿C´mo de “raro” ha de ser algo para ser realo mente “raro”? El siguiente ejemplo2 ilustra que un resultado aparentemente muy raro puede no serlo tanto. Imaginemos que tras un periodo de tiempo observamos el conjunto de folios tecleados por el mono y constatamos que ¡ha escrito sin una s´la falta de ortograf´ Hamlet! o ıa Bajo la hip´tesis nula H0 : “mono irracional”.8045 transcripciones exactas de Hamlet.2. Fin del ejemplo El ejemplo anterior. La probabilidad de que golpeando al azar el teclado un mono logre tal cosa es rid´ ıculamente baja. De hecho.´ ´ ´ 8. etc. n por puro azar. Lo observado no es raro en absoluto. Observar un mono tecleando Hamlet es rar´ ısimo.1. Supongamos que hay 26 letras m´s caracteres de a puntuaci´n. puede ser raro o no dependiendo del contexto. haci´ndoles teclear a su entero arbitrio 635. algo que. ilustra un punto importante. tendr´ probabilidad: o ıa p= 1 32 635000 ≈ 5. pero 2 Par´frasis de un c´lebre comentario de Bertrand Russell. Ejemplo 8. haya tecleado Hamlet.1) La observaci´n de un mono que teclea Hamlet ser´ pr´cticamente o ıa a imposible bajo H0 : habr´ ıamos de rechazar H0 y pensar en alguna alternativa (¿quiz´ Shakespeare reencarnado en un mono?) a Imaginemos ahora una multitud de monos a los que situamos frente a m´quinas de escribir.1. si todos los conjuntos de 635. aparentemente lo mismo. suponiendo las 32 posibilidades de digitaci´n equiprobables. deliberadamente extremo e inveros´ ımil.3 Consideremos un mono frente a una m´quina de a escribir. totalizando 32 posibilidades de digitaci´n.000 a e digitaciones. de 635000 digitaciones. (8. porque. Algo. a e . Supongamos que examinando el trabajo de cada uno de ellos. Espec´ ıficamente.000 veces. imaginemos 10955771 monos. entre blancos y caracteres. del trabajo de 10955771 monos esperar´ ıamos obtener en torno a 5. Supongamos que una obra como Hamlet requiriera. MULTIPLES HIPOTESIS SIMULTANEAS 113 8.804527 × 10−955771 .

An´lisis exploratorio e inferencia a Es importante entender lo que el Ejemplo 9. Ser´ incorrecto rechazar la hip´tesis H0 : “Los monos ıa o son irracionales. Por el contrario. hacer an´lisis exploratorio: examinar nuesa tros datos.114 ´ CAP´ ITULO 8. es seleccionar la evidencia e ignorar este hecho al producir afirmaciones o resultados de tipo inferencial como rechazar tal o cual hip´tesis con nivel de significaci´n p.804527). 8. .4 Regresemos al Ejemplo 9. bajo H0 .804525 × 10−955771 . la probabilidad de que ninguno de los monos hubiera tecleado Hamlet ser´ ıa: p0 = (1 − p)10 = 1− 955771 955770 635000 10 1 32 ≈ 0. De otro modo. INFERENCIA SIMULTANEA. la probabilidad de observar una o m´s transcripciones de Hamlet (un suceso tan raro o m´s raro que el a a observado.99. acontece con probabilidad mayor que 0. frecuente en el trabajo aplicado. ya no podemos juzgar el suceso observado del mismo modo.3 intenta transmitir.3.0030138. construir tal o cual intero o valo con confianza (1 − p).0030138 = 0.9969862! Dif´ ıcilmente considerar´ ıamos evidencia contra la hip´tesis nula algo o que. Fin del ejemplo Nada nos impide. estaremos prejuzgando el resultado. si seleccionamos el mono entre una mir´ ıada de ellos precisamente porque ha tecleado Hamlet. y seleccionar como interesante la evidencia que nos lo parezca. Es el valor de p que reportamos el que resulta completamente irreal a menos que corrijamos el efecto de la selecci´n. el ultimo valor calculado haciendo uso de una aproximaci´n de Poisson ´ o (con media λ = 5.3.1. bajo H0 ) ¡es tan grande como 1 − 0. Imaginemos la segunda situaci´n descrita en que uno entre los 10955771 monos examinados o compone Hamlet. Por tanto. hemos de tenerlo en cuenta al hacer inferencia. El error. o Ejemplo 8. no podemos extra˜arnos o n de que sea rara! Cuando seleccionamos la evidencia. ¡Hemos seleccionado la observaci´n por su rareza. sin embargo.” atribuyendo a esta decisi´n un nivel de significaci´n o o de 5.

Ejemplo 8. 84.6 Supongamos el modelo Y = β0 X 0 + β1 X 1 + . En ocasiones. Si quisi´ramos contrastar la hip´tesis H0 : βi = 0. Si alg´ n t-ratio excede tN −p . objeto de e e o nuestro estudio? Bastante. + β99 X 99 + ǫ . Ser´ incorrecto operar as´ ıa ı: 1. Podr´ o a ıamos ser m´s ambia ciosos e intentar al mismo tiempo ver cu´l o cuales βi son distintos de a cero. Cuando ello ocurre.2. influye sobre la respuesta. Si lo hacemos. .1. .1. El siguiente ejemplo lo aclara. ´ 115 Fin del ejemplo 8. . . 99.4. reportando un nivel de significaci´n α. Dicho modelo n tiene su origen en nuestra completa ignorancia acerca de cu´l de las a cien variables regresoras consideradas.3. . o α/2 . hay muchas hip´tesis que podea o mos plantearnos contrastar. MULTIPLES HIPOTESIS SIMULTANEAS Ejemplo 8. p´g. . o 2. rechazar la hip´tesis H0i . Ser´ del mayor inter´s que ese ıa e mono produjera a continuaci´n Macbeth. y por u consiguiente H0 . Contrastar las hip´tesis H0i : βi = 0 al nivel de significaci´n α o o α/2 comparando cada t-ratio en valor absoluto con tN −p . si es que alguna.5 De nuevo en el Ejemplo 9. normalidad de las perturbaciones y ortogonalidad de las columnas de la matriz de dise˜ o. i = 0. no hay nada reprobable en examinar el trabajo de cada uno de los monos y detenernos con toda atenci´n a examinar al animal que produce Hamlet. hemos de hacer uso de modelos con un n´mero u grande de par´metros. Supongamos.´ ´ ´ 8. Inferencia simult´nea y modelo de regresi´n lia o neal ordinario Pero ¿qu´ tiene ´sto que ver con el modelo de regresi´n lineal. o Lo que es reprobable es seleccionar el unico mono que teclea Hamlet ´ y reportar el hallazgo como si ese mono fuera el unico observado. Seguramente o le invitar´ ıamos a seguir escribiendo. hemos de ser conscientes de que algunas hip´tesis ser´n objeto de rechazo con una probabilidad mucho mayor o a que el nivel de significaci´n nominal empleado para contrastar cada una de o ellas. e o podr´ ıamos (si se verifican los supuestos necesarios) emplear el contraste presentado en la Secci´n 7. por simplicidad.2.

es f´cil que su trabajo pase por ciencia. escribe un art´ ıculo y lo publica. el que tenemos es o de 0. quiz´ estimando un a modelo restringido con muestra adicional. Lejos de tener un nivel de significaci´n de α = 0. todo lo que sus colegas o a podr´n hacer es reproducir sus resultados con la unica muestra a mano. hip´tesis que se veo o rifica por la normalidad de las perturbaciones y la ortogonalidad entre las columnas de la matriz de dise˜ o. Si nuestro prop´sito fuera puramente exploratorio. Bajo H0 hay probabilidad tan s´lo a e o α/2 α de que un t-ratio prefijado exceda en valor absoluto de tN −p . por ejemplo. Contrastar la hip´tesis H0 de este modo tiene una probao bilidad de falsa alarma de 0. quiz´ con car´cter exploratorio. Lo que es objetable es reportar dichas regresiones e como si fueran las unicas realizadas. A a ´ menos que el primer investigador tenga la decencia de se˜alar que el alto R2 n obtenido era el m´s alto entre miles de regresiones efectuadas (lo que permia tir´ calcular correctamente el nivel de significaci´n y apreciar de un modo ıa o realista su valor como evidencia). el resultado de estimar un modelo prefi´ jado de antemano. nada debe dio suadirnos de estimar el modelo con los cien regresores y examinar luego las variables asociadas a t-ratios mayores. u (8. La probabilidad de obtener alg´ n t-ratio fuera de l´ u ımites es 1 − 0. en que con o frecuencia una y s´lo una muestra est´ disponible. a cu´l m´s descabellada. Por puro azar. quiz´ a miles. Ciencias Sociales. Al o ´ rev´s.9940.2) α/2 mayor (en ocasiones mucho mayor ) que α. Pero la probabilidad de que alg´n t-ratio exceda de tN −p es3 u Prob(Alg´ n βi = 0) = 1 − (1 − α)p .05.9940. a De nuevo es preciso insistir: no hay nada objetable en la realizaci´n de o miles de regresiones.05. INFERENCIA SIMULTANEA. encuentra una pocas con R2 a a muy alto. al no lograrlo a —el R2 alto era casualidad—. Tampoco es objetable el a a concentrar la atenci´n en la unica (o las pocas) que parecen prometedoras.95100 = 0. Lo que es inadmisible es dar un nivel de significaci´n incorrectamente calculado. Si el experimento es reproducible. la supercher´ quedar´ al descubierto. Pero ıa a si la investigaci´n versa sobre. n 3 . dando la impresi´n de que la evidencia muestral sustenta o Bajo la hip´tesis de independencia entre los respectivos t-ratios.116 ´ CAP´ ITULO 8. Tomemos por ejemplo el caso examinado en que p = 100 y supongamos α = 0.9940. ello es muy sensato. Pensemos en el investigador que hace multitud de regresiones. cabe esperar que otros investigadores tratar´n de replicarlo y. o Fin del ejemplo El problema de inferencias distorsionadas es grave y muchas veces indetectable. Es f´cil ver por qu´ es incorrecto.

. que 1 − kψ = 1 − k( k ) = 1 − α. α/2 ˆ Ek : [(βk ± σ ˆ t ˆ ) βk N −p cubre β1 ] (8.3) Se conoce (9. Ei . i=1 Las implicaciones son importantes. · · · . .3). al coste de ensanchar el intervalo de confianza correspondiente a cada βi quiz´ m´s de a a lo necesario. Si regres´ramos Y sobre X0 . .6) Cada Ei por separado es un suceso cuya probabilidad es 1 − α. (i = 1. Haciendo ´sto.4) (8. Xp−1 a y quisi´ramos obtener intervalos de confianza simult´neos α para los par´e a a metros β0 .6). podr´ a ıamos construir intervalos para cada uno de los par´metros con un nivel de confianza a α ψ = k . βp−1.3) como desigualdad de Bonferroni de primer orden.05 = 0. i=1 Consideremos ahora el modelo Y = X β + ǫ y los siguientes sucesos: α/2 ˆ E1 : [(β1 ± σβ1 tN −p ) ˆˆ . ser´ mayor. ser´ claramente incorrecto emplear los que aparecen en ıa (9. .05.5) cubre βk ] (8. Designamos por E i el complementario del suceso Ei .95 = 1 − 0. el nivel de confianza conjunto no a ser´ el deseado de 1 − α. cada uno de ellos con probabilidad (1 − α). Es una igualdad si los Ei son disjuntos. 8.2. (i = 1.50. Si actu´semos de este modo. . sino que tan s´lo podr´ ıa o ıamos afirmar que es mayor que 1 − kα. Por ejemplo. . k) acaezcan simult´a neamente es: Prob{∩k Ei } = 1 − Prob{∩k Ei } = 1 − Prob{∪k Ei } ≥ 1 − kα i=1 i=1 i=1 (8. todo cuanto podemos asegurar acerca de Prob{∩k Ei } es que su probabilidad es superior a 1 − kα. .3). Ello se logra. Desigualdad de Bonferroni. DESIGUALDAD DE BONFERRONI. Si queremos intervalos de confianza simult´neos al nivel 1 − α. sin embargo. La probabilidad de que todos los sucesos Ei .8.2. De acuerdo con (9. En lo que sigue veremos procedimientos para lograr el mismo resultado con intervalos en general m´s estrechos. la desigualdad anterior solo permite garantizar que Prob{∩k Ei } ≥ 1 − 10 × 0. Consideremos k sucesos. tendr´ e ıamos que la probabilidad de que todos los βi fueran cubiertos por sus respectivos intervalos. Muestra que la probabilidad conjunta de varios sucesos puede. . sin embargo. 117 una hip´tesis o modelo pre-establecidos. . a . . si k = 10 y Prob{Ei } = 0. . en general. . cuando lo cierto es que la hip´tesis o o o modelo han sido escogidos a la vista de los resultados. k). . ser muy inferior a la de uno cualquiera de ellos. . de acuerdo con ıa α (9.4)–(9.

n mente con la misma probabilidad la totalidad de las variables aleatorias.. o ´sta no sea constante.n resulta superado con probabilidad α por m´x{|t1 |. . Sin embargo. es decir. . tendr´ ıamos que: k Prob i=1 ˆ ai ′ β ≤ uα k.ρ=0 (9.7) es mayor que 1 − α). .n. . 8. como el de ciertos dise˜os de n An´lisis de Varianza equilibrados: la correlaci´n ρ entre parejas de t-ratios a o es la misma. si nuestro objetivo es contrastar una hip´tesis n o del tipo h : Aβ = c con rango(A) > 1.n dado que si uα acota con probabilidad 1 − α al m´ximo. la distribuci´n aludida del m´ximo valor absoluto de k variables t de Student o a est´ tambi´n tabulada cuando dichas variables tienen correlaci´n ρ por pares. . tk con distribuci´n t-Student. k) fuera cierta. . . podemos emplear la expresi´n o (9. . . Sea uα el cuantil 1 − α de dicha distribuci´n. La vao u u riable aleatoria m´x{|t1 |. . . . . . . Es importante se˜alar que.n k. y f´cil de calcular. .7) conservadores (es decir. u o (9. k) fueran independientes. un valor que o k. k) con una tN −p supone σ ˆ variables aleatorias (ai β − ci )/ˆai ′ β 4 V´ase. . por ej. Supongamos que tenemos k variables aleatorias independientes. Seber (1977).) a A´n cuando la correlaci´n ρ por pares de t-ratios no sea siempre la misma. . . . k) no son independientes.n σai ′ β ˆ ˆ = 1−α (8. a Prob{∩k [|ti | ≤ uα ]} = 1 − α. Suministra intervalos simult´neos de confianza aproxia mada 1 − α. INFERENCIA SIMULTANEA. en caso de que no conozcamos ρ.7) con uα reemplazado por uα . Intervalos de confianza basados en la m´a xima t. lo que hace en general los intervalos calculados con ayuda de k. acota simult´neaa a k.n. y la hip´tesis nula o ′ h : ai β = 0 (i = 1.7) ˆ σ ˆ Es claro que ai ′ β/ˆai ′ β (i = 1. Entonces. . En caso de que conozcamos ρ.7) es de utilidad. |tk |} sigue una distribuci´n que se halla tabua o lada4 . . . El comparar cada una de las o a α/2 ′ˆ (i = 1. la probabilidad conjunta en el lado izquierdo de (9.3. a e o (Esto sucede en algunos casos particulares. extra´ ´ste ultimo de la tabla corresıdo e ´ k. Ap´ndice E. . ˆ σ ˆ Si ai ′ β/ˆai ′ β (i = 1. t1 .2. . podemos e utilizar uα . . p´g. . i=1 k. |tk |}.118 ´ CAP´ ITULO 8.ρ pondiente. tenemos que emplear un contraste como el descrito en la Secci´n 7. e e . 77. . y n´mero com´n n de grados de libertad.

11) −1 (8.10) entonces sustituyendo (9. Necesitaremos el siguiente a lema: Lema 8. podr´ e ıamos comparar α ′ˆ u o (ai β − ci )/ˆai ′ β (i = 1. N´σ ˆ tese que es perfectamente posible rechazar la hip´tesis conjunta y no poder o rechazar ninguna de las hip´tesis parciales correspondientes a las filas de A. Se verifica que: sup c=0 [c ′ b]2 c ′ Lc = b ′ L−1 b (8. v >2 u 2 v 2 ≤ 1 (8. M´todo S de Scheff´.n (k = n´mero de filas de A). e e Este m´todo permite la construcci´n de un n´mero arbitrario de intervalos e o u de confianza simult´neos.9) y (9. e b vectores k-dimensionales cualesquiera. k) con uk. < u. Como caso particular. .9) (8.11) obtenemos (9.1 Sea L una matriz sim´trica de orden k × k definida positiva. 119 emplear un nivel de significaci´n mayor que α. . en especial si p es grande. o 8.4. . Supongamos que tenemos k hip´tesis lineales a e e o .10) en (9.´ ´ 8. Si definimos: v = R ′c u = R b y tenemos en cuenta que por la desigualdad de Schwarz.4. Podemos ahora abordar la construcci´n de intervalos de confianza simulo t´neos por el m´todo de Scheff´.8). es o inadecuado contrastar la hip´tesis h : β1 = · · · = βp = 0 comparando cada o α/2 uno de los t-ratios con tN −p . . de manera muy simple. METODO S DE SCHEFFE.8) ´ Demostracion: Siendo L definida positiva. existe una matriz R cuadrada no singular tal que: L = RR′ . En el caso de que el contraste conjunto rechace h : Aβ = c y queramos saber qu´ filas de A son culpables del rechazo. tal contraste tendr´ un nivel de significaci´n ıa o sensiblemente superior a α. y c.

Teniendo en cuenta el Lema 9. si los rangos de las matrices as´ lo exigen. . cuantos intervalos para h ′ c construyamos de la forma: h ′c ± ˆ (h ′ Lh )(qˆ 2 Fq. Cuando h es cierta.18) h ′ Lh Por consiguiente.15) en que L = [A(X ′ X)−1 A′ ]. sabemos que: ˆ 1 − α = Prob (ˆ − c )′ [A(X ′ X)−1 A ′ ]−1 (ˆ − c ) ≤ qˆ 2 Fq.N −p ) σ α (8.16) (8.N −p qˆ 2 σ (8.17) La ecuaci´n (9.N −p (8. p).14) c c σ α = Prob (ˆ − c )′ L−1 (ˆ − c ) ≤ qˆ 2 Fq. o sabemos (Secci´n 7.N −p σ α   (8. Si denominamos:  a1 ′ a ′  A= 2  · · · ak ′   c1 c  c= 2 · · · ck  (8. . INFERENCIA SIMULTANEA. Bajo h. ı ˆ Llamemos c a Aβ. Las inversas pueden ser inversas generalizadas.1. k) cuyo contraste conjunto deseamos efectuar. hi : ai ′ β = ci (i = 1.13) siendo q = m´ ın(d.N −p c c σ α (8.19) .17) muestra que (qˆ 2 Fq. en que d = rango A y p = rango(X ′ X).120 ´ CAP´ ITULO 8.N −p )  σ  1   2  h =0 h ′ Lh 1 sup [h (ˆ − c )] c ′ ′ Lh 2 ≤ qˆ 2 Fq.2) que: o ˆ ˆ (Aβ − c)′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c) ∼ Fq. .N −p) 2 es un valor que acota con o σ α probabilidad 1 − α un n´mero arbitrariamente grande de cocientes como: u h ′ (ˆ − c ) c (8. obtenemos:   2 1 − α = Prob  h =0 h        1 c  h ′ (ˆ − c ) 2 α 2 = Prob ≤ (qˆ Fq. .12) dichas k hip´tesis se pueden escribir como h : Aβ = c.

matrix(c(rep(1. Xkl fuera “uno” cuando la k-´sima parcela se siembra e con la variedad l-´sima de semilla y la variable respuesta recogiera las e cosechas obtenidas en las diferentes parcelas. los par´metros βi ser´ a ıan interpretables como la productividad de las diferentes variedades de semilla (suponemos que no hay otros factores en juego. sino cu´les son. de lo estrica tamente necesario). 121 tendr´n confianza simult´nea 1 − α. Aquellas parejas para o las que no se rechazase corresponder´ a variedades de semilla no ıan significativamente diferentes. R: Ejemplo 8. Cuando el conjunto de hip´tesis o a a o simult´neas que se contrastan configure una matriz A de rango q < p. los intervalos de e confianza en (9.19) se reducen a: ˆ h ′β ± σ α (h ′ (X ′ X)−1 h )(pˆ 2 Fp. en el caso particular en que A = Ip×p . .1 (uso del m´todo de Scheff´) e e El siguiente c´digo implementa el m´todo de Scheff´ para contraso e e tar la igualdad entre todas las parejas de par´metros intervinientes a en un modelo.N −p) (8. n Si. 25)). hay bastantes parejas que podemos formar y el realizar m´ ltiples contrastes como hij : βi − βj = 0 requerir´ el uso de u a m´todos de inferencia simult´nea. F´cilmente se ve que el contraste de todas las hip´tesis de inter´s a o e agrupadas (h : Aβ = c ) no es de gran inter´s: no nos interesa sae ber si hay algunas variedades de semilla diferentes. ck —. por ejemplo. las parcelas son todas homog´neas). Obs´rvese que.4. incluso para un n´ mero moderado de a e u variedades de semilla. . El m´todo de Scheff´ proporciona a e e intervalos de confianza conservadores (m´s amplios. . rep(0. a a Esto es m´s de lo que necesitamos —pues s´lo quer´ a o ıamos intervalos de confianza simult´neos para c1 . 5) > X . e a Comencemos por construir una matriz de dise˜ o y generar artifin cialmente las observaciones: > X <.´ ´ 8. ser´ a a sin embargo conveniente tener en cuenta este hecho. . e En una situaci´n como la descrita tendr´ inter´s contrastar too ıa e das las hip´tesis del tipo: hij : βi − βj = 0. La matriz de dise˜ o es una matriz de ceros y unos. METODO S DE SCHEFFE. ya que obtendremos intervalos menos amplios. a F´cilmente se ve tambi´n que. en general. + 25. 5).20) expresi´n que ser´ frecuente en la pr´ctica.

5) > y <.] [4.] [7.] [17.] [3.] > b <. INFERENCIA SIMULTANEA.] [15.3] [.] [12.5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 [1.] [25. p .cbind(1.1)) A [.] [3.] [24.] [10.4] [.] [13.122 ´ CAP´ ITULO 8. [.] [4.] [5.4] [.nrow(A) .1] [.c(3.] [11.] [22.1] [.] > q <.3] [.] [21.] [14.1) Construyamos la matriz definiendo la hip´tesis conjunta Aβ = c : o > > > > p <. sd = 0.] [8.] [18.] [9. 5.ncol(X) N <. diag(-1.] [2.] [19.2] [.5] 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 [1. 4. 4.] [23.] [20.X %*% b + rnorm(25.] [6.nrow(X) A <.] [2.] [16.2] [.

(p .] [8.] [3. Aunque por motivos did´cticos hemos constru´ A del modo que a ıdo se ha visto. Construimos una matriz cada una de cuyas filas corresponde a una comparaci´n: o > > > + + + + > H <.] [2.] [2. p * (p .] [4.5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 0 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 0 1 -1 0 0 0 1 0 -1 0 0 0 1 -1 [1.cbind(1. habr´ un total de p(p−1) compaa 2 raciones a efectuar.j + i } H [. i)) j <.3] [.] [5.matrix(0.1] [.t(contrasts(as.2] [.] [7. hay funciones standard que permiten hacerlo con mayor comodidad.] [6.] [9. METODO S DE SCHEFFE.4. > A <.´ ´ 8.20) y los imprime: .] [10.i):p] <. Habiendo p betas a comparar.] [3.1):1)) { H[(j + 1):(j + i). p) j <.factor(1:5))) > A [1.] 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 5 -1 -1 -1 -1 123 que es equivalente a la A precedente. diag(-1.4] [.1)/2.0 for (i in ((p .] El siguiente fragmento de c´digo construye ahora todos los intero valos de la forma dada por (9.] [4.

1 1 1 1 0 0 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 1 -1 0 0 1 0 -1 0 1 0 0 -1 0 1 -1 0 0 1 0 -1 0 0 1 -1 es: es: es: es: es: es: es: es: es: es: ( ( ( ( ( ( ( ( ( ( -1.035591 ) -1.0732 . ". ]) %*% betas cat(" es: (".9837 ) * -2.z.lsfit(X. ]) z <.96834 ) * -1.073979 ) Vemos que la mayor´ de intervalos de confianza simult´neos no cubren ıa a el cero.0886 . 0.p) xxi <. -1.030881 . " . d .p) qsf <. comp.05.069268 . -1. comp. comp.9622 ) * -0.94141 ) * -1. -0. ]) %*% xxi %*% H[i. ya que en ambas parejas los par´metros han sido fijados a a al mismo valor.sqrt(t(H[i.0670 . comp.0947 . Fin del ejemplo . ] * qsf) d <. d + z.q * s2 * qf(0. ".fit$coefficients s2 <.z < 0) && (d + z > 0)) cat("\n") else cat(" * \n") } Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo comp. -0. H[i. q. comp. intercept = FALSE) betas <.0564 .95825 ) * -2. comp.0631 . comp.0463 . -0. N . comp.sum(fit$residuals^2)/(N .solve(t(X) %*% X) for (i in 1:nrow(H)) { cat("Intervalo comp. -0. 0. ")") if ((d . INFERENCIA SIMULTANEA. y. fit <.97305 ) * -1.98989 ) * -1.124 > > > > > > + + + + + + + + + + ´ CAP´ ITULO 8.9515 ) * -0. -0. -0. Los correspondientes a β2 − β3 y β4 − β5 si lo hacen. comp.t(H[i.0779 . como esper´bamos.

y por cualquier a motivo. pero tiene la ventaja o de arrojar luz sobre cuales de las “subhip´tesis” ai ′ β = ci son respono sables del rechazo. Empleo de m´todos de inferencia simule t´nea.7). Emplearemos inferencia simult´nea cuando a priori. o Esta situaci´n se presenta con relativa rareza en la pr´ctica estad´ o a ıstica. . seleccionar aquel βi con el m´ximo t-ratio. M´s importante. Ser´ incorrecto.N Por ultimo. estimar una ecuaci´n con ıa o ˆ veinte regresores. Esta informaci´n queda o sumergida al emplear Qh . e o 7. conviene resaltar la diferencia entre el contraste de varias ´ hip´tesis simult´neas ai ′ β = ci agrupadas en Aβ = c mediante Qh o a (Secci´n 7. el segundo ser´. en general. estemos interesados en m´ltiples contrastes (o intervalos de u confianza) y queramos que el nivel de significaci´n conjunto sea 1 − α. e hemos de comparar ´ste con los cuantiles de la distribuci´n del m´ximo e o a de k (k = 20 en este caso) variables aleatorias con distribuci´n t de o Student (uα −20 ). emplearemos los m´todos anteriores cuando la elecci´n a e o de hip´tesis o par´metros objeto de contraste o estimaci´n se haga a o a o la vista de los resultados. conservador —menos rechazos de a los que sugiere el nivel de significaci´n nominal—. y comparar a dicho t-ratio con una t de Student con grados de libertad adecuados.2) y el que hace uso de (9. El primero es perfectamente o utilizable. 5 Puede consultarse tambi´n Troc´niz (1987a) Cap. Las notas siguientes esbozan o 5 algunas ideas sobre el particular . 125 8. EMPLEO DE METODOS DE INFERENCIA SIMULTANEA. puede no ser obvio. a Si el desarrollo anterior es formalmente simple.4.5. Esta situaci´n es muy frecuente en el an´lisis o a exploratorio. Sec. caso de que se produzca.5. en que situaciones es de aplicaci´n. en cambio. ˆ Dado que hemos seleccionado el βi de inter´s como el de mayor t-ratio.´ ´ 8. 5 y Cox and Hinkley (1974). 20. por ejemplo.

. Tras estimar los 201 par´metros del mismo. acono tecer´ por azar con probabilidad 0. .0003”.0003.α/2 . Cree razonable proponer como modelo explicativo.500−201. ˆ ˆ Calcular el estad´ ıstico Qh para la hip´tesis H0 : β1 . . . . de acuerdo con los c´lculos a realizados por nuestro pol´ ıtico. un pol´ ıa o n ıtico solicita un listado completo de las 15320 escuelas del pa´ a menos de 500 metros de una ıs antena. Aparece un caso llamativo: en la escuela X con 650 ni˜ os hay tres n que han contraido la enfermedad. + β200 X200 + ǫ. 8. . Comenta. lo que. . . Realiza un completo estudio en que para N = 500 sujetos mide la concentraci´n de dicha toxina y las cantidades consumidas o de 200 diferentes tipos de alimento. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia que se han registrado en dichas escuelas. = β200 y considera las siguientes posibio lidades: ˆ σ Comparar cada uno de los t-ratios βi /ˆ ˆ con el cuantil tN −p . . se plantea contrastar la a hip´tesis como H0 : β1 = . asistido por un epidemi´logo. Y = β0 + β1 X1 + . INFERENCIA SIMULTANEA.126 ´ CAP´ ITULO 8.1 Un investigador sospecha que la concentraci´n de una toxio na en la sangre puede estar relacionada con la ingesta de alg´ n tipo de u alimento. Complementos y ejercicios 8.α . βi Idem con el cuantil correspondiente de una distribuci´n del m´o a ximo de k variables t de Student. β200 = 0 o y comparar con F200. con grados de libertad apropiados. Juzga los diferentes procedimientos.2 Preocupado por el posible impacto de las antenas de telefon´ m´vil sobre la salud de los ni˜ os. Un evento o como el registrado en la escuela X s´lo se presentar´ por azar con o ıa probabilidad 0. e indica con cu´l (o cu´les) de a a ellos tendr´ ıamos garantizada una probabilidad de error de tipo I no superior al α prefijado. Al d´ siguiente acude al ıa ıa Parlamento y pide la dimisi´n del Ministro de Sanidad: “Hay —dice– o evidencia concluyente de que las antenas de telefon´ m´vil influyen ıa o en la prevalencia de la leucemia entre la poblaci´n infantil.

como caso particular. Dec´ ´ ´ o ıamos entonces que el vector de par´metros no estaba identificado. 9. a 1 Basado en Silvey (1969). N´tese que cuando c es un vector de ceros con un 1 en una o unica posici´n.1. la proyecci´n de y sobre M = n o R(X) sigue siendo unica. Si c ′ β es estimable. ¿Como escoger la matriz de dise˜o X —u observaciones adicionales a la n misma— si el objetivo es estimar determinadas combinaciones lineales c ′ β con varianza m´ ınima? Responder a la primera requiere que caractericemos las formas lineales estimables. pero no hay una unica estimaci´n de β . ¿De qu´ a o e depende la precisi´n con que pueden estimarse distintas combinaciones o lineales de los par´metros? a 3. En particular. o Hemos visto (Cap´ ıtulo 4) que. la de si un ´ o o par´metro concreto es estimable. la primera cuesti´n incluye.Cap´ ıtulo 9 Multicolinealidad. o aborda las siguientes cuestiones: 1. ¿Es estimable una cierta combinaci´n lineal c ′ β de los par´metros? o a 2. Introducci´n. en presencia de multicolinealidad exacta entre las columnas de la matriz de dise˜o X. a 1 Este Cap´ ıtulo analiza esta cuesti´n con mayor detalle. 127 . ¿cu´l es la varianza de la estimaci´n?.

Cuando esto ocurra. En el panel superior. o a Mientras que desde un punto de vista formal la matriz de dise˜o es de rango n deficiente o no lo es.95 X1 = 1.3). Realizaremos un an´lisis formal de la multicolinealidad en las Seccioa nes 10.5 × X1 . o La tercera cuesti´n hace referencia a un tema de gran inter´s. Admitido que algunas formas lineales quiz´ s´lo pueden ser estimadas o a o con gran varianza ¿c´mo habr´ que escoger o ampliar X en los casos en que o ıa somos libres de ampliar la muestra? El principal hallazgo al responder a las dos primeras cuestiones ser´ que a combinaciones lineales c ′ β con c aproximadamente colineal a un vector propio de (X ′ X) de valor propio asociado “peque˜o”. Una aproximaci´n intuitiva o La Figura 10. o 9. los estimadores MCO de los par´metros β0 y β1 no est´n a a un´ ıvocamente determinados. en la pr´ctica interesa distinguir aqu´llas situaciones en a e que la matriz de dise˜o es de rango “casi” deficiente.2) . Previamente ser´ de inter´s abordar la cuesti´n desde a e o una perspectiva informal (en la Secci´n 10. si c ′ β es una forma lineal de inter´s.128 CAP´ ITULO 9. Esta n cuesti´n se estudia en el Cap´ o ıtulo 11. PM y = 5.65 0. Conıa secuentemente.4 y siguientes.325 0. La consecuencia ser´ que haremos lo posible en nuestros dia a e se˜os experimentales para que.2) y examinar los s´ o ıntomas que evidencian problemas de multicolinealidad en una matriz de dise˜o (Secn ci´n 10. MULTICOLINEALIDAD. Puede comprobarse que ˆ ˆ PM y = β0 X0 + β1 X1 (9. el de dise˜o o e n ´ptimo.1) Puede comprobarse que X0 = 0. pero algunas formas a a lineales c ′ β lo son con gran imprecisi´n: la varianza de su mejor estimador o lineal insesgado depende de la direcci´n del vector c en R(X ′ X). o a procedimientos ad-hoc de manipulaci´n de dichos o valores propios peque˜os para obtener estimadores diferentes del MCO. Recurriremos para ello a ampliar la muestra. por lo que la matriz de dise˜o n que tuviera a ambos vectores por columnas ser´ de rango deficiente.9 X0 = 2. todo es estimable. La segunda cuesti´n introducir´ la idea de multicolinealidad aproximada. son las de estimaci´n n o m´s imprecisa. no n ′ haya vectores propios de (X X) con valor propio peque˜o aproximadamente n en la misma direcci´n de c .2.1 recoge sendas situaciones de multicolinealidad exacta (en el panel superior) y multicolinealidad aproximada (en el inferior).3 1.475 (9. o si podemos hacerlo. en n un sentido que se aclarar´ m´s abajo.

y X0 X1 PM y y X0 X1 PM y .2. UNA APROXIMACION INTUITIVA 129 Figura 9.1: Multicolinealidad exacta (panel superior) y aproximada (panel inferior).´ 9.

Si. Si examinamos el panel inferior de la Figura 10.75 X1 = 1.675 (9. podemos entender f´cila mente lo que sucede: los regresores son linealmente independientes y generan el plano horizontal.75 0.9544X0 + 1. a o Tenemos as´ que si en situaciones de multicolinealidad exacta los par´ı a metros (o algunos de entre ellos) son radicalmente inestimables.75 0.525 . De hecho. o ˆ ˆ ˆ ˆ cualesquiera β0 . con los mismos regresores.1. La Secci´n que sigue detalla algunos s´ o ıntomas que permiten percibir su existencia.2632X1 . pero algunas de sus columnas son acusadamente colineales. a medio o a camino entre la multicolinealidad exacta y la ortogonalidad entre los regresores.7544X1 .263X0 + 1.130 CAP´ ITULO 9. una matriz de dise˜o pon bre. o En el panel inferior de la Figura 10. que no permite deslindar con precisi´n el efecto de cada regresor sobre o la variable respuesta. Una o ´ ıa peque˜a perturbaci´n en PM y ha originado un cambio dr´stico en los valores n o a de los estimadores.1. PM y = 5.3) puede comprobarse que ahora PM y = 0.3. 9.4 1.9 X0 = 2.4) tendr´ ıamos que la soluci´n unica ser´ PM y = 1. . Es una situaci´n muy frecuente en la pr´ctica. en esencia. ˆ ˆ ˆ ˆ se verifica con β0 = 2 y β1 = 0 ´ con β0 = 0 y β1 = 4. pero imprecisa.2). MULTICOLINEALIDAD. pero tienen una colinealidad acusada. no obstante.675 (9.75 X1 = 1. y provoca una dr´stica modificaci´n en los valores de β0 y β1 . por ejemplo. β1 verificando β0 + 2β1 = 2 son una soluci´n de (10. cuando el rango de la matrix X es completo. Detecci´n de la multicolinealidad aproo ximada Hay algunos indicios y estad´ ısticos que pueden ayudar en el diagn´stico o de multicolinealidad.8 X0 = 2. Un leve cambio en la posici´n de PM y hace que sea mucho m´s colineal con un regresor que con o a ˆ ˆ otro. o La multicolinealidad aproximada es. PM y fuera ligeramente diferente. Decimos que o estamos ante una situaci´n de multicolinealidad aproximada. PM y = 5.3 1.525 0. la estimaci´n es posible. 0.

aparentemente parad´jica. La existencia u o de relaciones lineales aproximadas entre las columnas de X se traduce en relaciones lineales aproximadas entre las columnas de (X ′ X) (ver nota al pie de la p´gina 127). (9. n´meros de condici´n “grandes” evidencian gran disparidad u o entre el mayor y menor valor propio. que se trata de un indicador relativo. como consecuencia. o Valores propios y “n´mero de condici´n” de (X ′ X). A menudo se calcula el “n´mero de condici´n” de la matriz (X ′ X). Factores de incremento de varianza (VIF). Se define el factor de incremento de varianza (variance inflation factor) VIF(i) as´ ı: 1 def VIF(i) = . Supongamos que X tiene sus o .´ 9. definiu o do como λ1 /λp . son de ordinario no significativos y frecuentemente toman signos contrarios a los previstos. depende de la escala en que se miden las respectivas columnas de la matriz X —algo perfectamente arbitrario—. en que todos e o los par´metros en β son no significativos y sin embargo R2 es muy elevado.1 El nombre de “factores de incremento de vao rianza” tiene la siguiente motivaci´n.3. En particular. Una situaci´n t´ o ıpica es aqu´lla. en particular. a ¡Parece que ning´n regresor ayuda a ajustar el regresando. y sin embargo u todos en conjunto lo hacen muy bien! Ello se debe a que la multicolinealidad no permite deslindar la contribuci´n de cada regresor. Hay que notar. sin embargo. DETECCION DE LA MULTICOLINEALIDAD APROXIMADA 131 Elevado R2 y todos los par´metros no significativos. Otra pr´ctica muy usual a consiste en regresar cada columna de X sobre las restantes.90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las restantes columnas de X. uno o mas valores propios muy peque˜os (cero. que. Observaci´n 9. Los m´todos usuales para examinar el condicionamiento de a e una matriz en an´lisis num´rico son por tanto de aplicaci´n. Llamemos R2 (i) al R2 resultante de regresar X i sobre las restantes columnas de X. en caso de multicolinealidad perfecta) n son indicativos de multicolinealidad aproximada. La multicolia nealidad aproximada se pone de manifiesto en elevadas varianzas de los par´a metros estimados que. y consiguientemente multicolinealidad aproximada. a e o puede recurrirse a calcular los valores propios de la matriz (X ′ X).5) 1 − R2 (i) valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0. un R2 muy elevado en una o m´s de dichas regresiones evidencia una relaci´n lineal aproximaa o da entre la variable tomada como regresando y las tomadas como regresores.

siendo d = Xa.9) (9.12) siendo v1 . La siguiente cadena de implicaciones.132 CAP´ ITULO 9. La Es inmediato ver que R(X ′ X) ⊆ R(X ′ ).10) (9.1. (X ′ X) (y por tanto (X ′ X)−1 ) ˆ ser´ matrices unidad y Var(βi ) = σ 2 .6) (9. . . o ′ ii denota el elemento en la fila y columna i de la matriz en que (X X) (X ′ X)−1 . por tanto. Si X tuviera sus columnas ortogonales. 9. pues ambos tienen la misma dimensi´n. ´ Demostracion: Observemos que el enunciado no es sino una par´frasis del Teorema 4. La varianza de βi es σ 2 (X ′ X)ii . 2 . Por otra parte.10) a (10. El paso de (10.1 La forma lineal c ′ β es estimable si. Para verlo. . X ′ X b = 0 ⇒ b′ X ′ X b = d′ d = 0 ⇒ d = 0 ⇒ X b = 0. Se puede demostrar que (X ′ X)ii = (1 − R2 (i))−1 . (X ′ X)ii recoge el ıan ˆ factor en que se modifica en general Var(βi ) respecto de la situaci´n o de m´ ınima multicolinealidad (= regresores ortogonales). columnas normalizadas de modo que (X ′ X) es una matriz de correlaˆ ci´n (elementos diagonales unitarios). a p´g. En efecto. 47. Teorema 9. . establece la demostraci´n. R(X ′ X) no es subespacio propio de R(X ′ ). o c ′ β estimable ⇐⇒ ∃d : c ′ β = E[d ′ Y ] ⇐⇒ c ′ β = d ′ X β ⇐⇒ c = d X ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ c=Xd c ∈ R(X ′ ) c ∈ R(X ′ X) c = α1 v1 + · · · + αp−j vp−j ′ ′ ′ (9.7) (9. lo que muestra que se trata precisamente del VIF(i). Caracterizaci´n de formas lineales estio mables. y solo si.4.8) (9. basta comprobar que toda dependencia o lineal entre las columnas de X ′ X es una dependencia lineal entre las columnas de X. pues si v ∈ R(X ′ X) ⇒ ∃a : v = X ′ Xa = X ′ d. MULTICOLINEALIDAD.11) (9. vp−j los vectores propios de (X ′ X) asociados a valores propios no nulos. c es una combinaci´n lineal de los vectores propios de X ′ X asociados a valores propios no o nulos.11) hace uso del hecho de que tanto las columnas de X ′ como las de X ′ X generan el mismo subespacio2 de Rp . que puede recorrerse en ambas a direcciones.

como V V ′ = I tenemos que: X β = XV V ′ β = Zγ (9.11) y (10. y los restantes j son cero: λp = λp−1 = · · · = λp−j+1 = 0.. Por consiguiente. que β = V γ . . Observemos que de (10. .  . 0 0 (9. .16) siendo Λ una matriz cuya diagonal principal contiene los valores propios de X ′ X. . . . . 0 (9. . . Sin p´rdida de generalidad los supondremos ordenados de forma que e los p − j primeros λ′ s son no nulos. es equivalente el problema de estimar β al de estimar γ . . CARACTERIZACION DE FORMAS LINEALES ESTIMABLES. . que resulta interesante en s´ misma y util para lo que sigue.18) . .14) Entonces. . λp−j ....15) y por consiguiente el modelo Y = X β + ǫ se transforma en: Y = Zγ + ǫ .  0 0  0 0 . 0 γ = Z ′ y ˆ  . pues el conocimiento de un vector permite con facilidad recuperar el otro. . Hay una forma alternativa de llegar al resultado anterior. . . 0 . .. dado que V es ortogonal. y definamos: Z = XV γ = V β ′ (9. .. . El cambio de variables y par´metros ha convertido la matriz de dise˜o en a n una matriz de columnas ortogonales: Z ′ Z = (XV )′ (XV ) = V ′ X ′ XV = Λ (9. . 0 . 0 . . . .. .´ 9.13) (9. . Las ecuaciones normales al estimar γ son: (Z ′ Z)ˆ = Λˆ = Z ′ y γ γ o en forma desarrollada:  λ1 0  0 λ2 . 133 equivalencia entre (10. ..12) hace uso del hecho de que los vectores propios de R(X ′ X) asociados a valores propios no nulos generan R(X ′ X). .4.. . .. .. . . . ..  . Sea V la matriz diagonalizadora ı ´ de X ′ X.14) se deduce. 0 .17) ... 0  . . 0 0 . .

La Secci´n o que sigue formaliza esta intuici´n. . p − j). Recapitulemos: una forma lineal c ′ β es estimable si c = α1 v1 + · · · + αp−j vp−j . es decir. resultado al que hab´ ıamos llegado. en situaciones de multicolinealidad aproximada. .21) (9.23) o Para que c ′ β sea estimable.2.23): c = α1 v1 +· · ·+αp−j vp−j .19) ˆ y consiguientemente una estimaci´n de c ′ β vendr´ dada por (V ′ c )′ γ .18 ) se deduce que var(ˆi ) e e a γ ∝ 1/λi . .20)–(10. Tenemos que: c ′ β = c ′ V V ′ β = (c ′ V )γ = (V ′ c )′ γ (9. Por o a ˆ ′ ˆ tanto. no depende de vectores propios de (X ′ X) asociados a valores propios nulos. o si c ′ β depende s´lo de aquellos a ˆ o γ ′ s que pueden ser estimados. MULTICOLINEALIDAD. Tal como suger´ la Secci´n 10.134 CAP´ ITULO 9. . . Es decir. la forma lineal c ′ β ser´ estimable a s´lo con gran varianza.22) (9.24) . Consideremos una forma lineal cualquiera c ′ β . c ⊥ vp−j+1 (9. lo que a su vez implica: ´ c ⊥ vp c ⊥ vp−1 .18). podemos sin embargo ıa o esperar que formas lineales que son estrictamente estimables lo sean muy imprecisamente. en el caso de rango (p − j) corresponˆ diente a las ecuaciones normales (10. Toda forma estimable debe por tanto ser expresable as´ ı: c ′ β = (α1 v1 + · · · + αp−j vp−j )′ β . o (9. mostrando que si c depende de vectores o propios de valor propio cercano a cero. . c ′ β podr´ estimarse si (V ′ c)′ tiene a nulas sus ultimas j coordenadas. c β ser´ estimable si γ es estimable.18) es indeterminado.20) (9. (i = 1. solo los (p − j) primeros γ ′ s pueden ˆ obtenerse de ´l. El sistema (10. c debe poder escribirse como combinaci´n lineal de los vectores propios de (X ′ X) que no figuran en (10. Obs´rvese adem´s que de (10.

26) var(vi ′ X ′ Y ) vi ′ X ′ σ 2 IXvi vi ′ X ′ Xvi σ 2 λi σ 2 (9. ˆ Si premultiplicamos ambos lados de las ecuaciones normales (X ′ X)β = ′ X Y por vi .´ 9. . (i = 1.25) (9. y haciendo uso de (10. teniendo en cuenta que puede escribirse como en (10. . para cualquier i = j se tiene: a ˆ ˆ cov(vi ′ β.25) se deduce que: ˆ var(vi ′ β) = Adem´s.27) La varianza de cualquier forma estimable c ′ β .5. vj ′ β) = vi ′ Σβ vj ˆ = = = = vi ′ (X ′ X)−1 vj σ 2 vi ′ λj −1 vj σ 2 σ 2 λj −1 vi ′ vj 0 σ2 λi (9. .27). tenemos: ˆ vi ′ (X ′ X)β = vi ′ X ′ Y ˆ λi vi ′ β = vi ′ X ′ Y y tomando varianzas a ambos lados: ˆ λ2 var(vi ′ β) = i = = = De la igualdad (10. ser´: a ˆ ˆ var(c ′ β) = var[(α1 v1 + · · · + αp−j vp−j )′ β] ˆ ˆ = α2 var(v1 ′ β) + · · · + α2 var(vp−j ′ β) 1 p−j 2 = α1 = σ2 σ σ2 2 + · · · + αp−j λ1 λp−j 2 2 αp−j α1 +···+ λ1 λp−j 2 (9.26) y (10. 135 9. p − j). Varianza en la estimaci´n de una forma o lineal.24).5. . VARIANZA EN LA ESTIMACION DE UNA FORMA LINEAL.28) .

la varianza en la estimaci´n de una forma lineal c ′ β depeno de.28). La expresi´n (10. 4 Los resultados se pueden generalizar al caso en que (X ′ X) es de rango deficiente. o debemos actuar sobre los valores propios m´s peque˜os de (X ′ X). a o a Supongamos que tenemos un conjunto de N observaciones (y | X). la varianza en la estimaci´n de c ′ β deo o 2 pender´ de la varianza de la perturbaci´n σ y de la direcci´n de c. con varianza: a ˆ ˆ var(c ′ β) = var[(α1 v1 + · · · + αp−j vp−j )′ β] ˆ ˆ = α2 var(v1 ′ β) + · · · + α2 var(vp ′ β) 1 p 2 = α1 2 σ 2 σ + · · · + αp λ1 λp 2 2 αp α1 +···+ λ1 λp 2 (9. MULTICOLINEALIDAD. todas las formas lineales ser´n estimables. o Supondremos tambi´n en lo que sigue (X ′ X) de rango completo. o o La expresi´n (10. incremena n 3 t´ndolos . Elecci´n ´ptima de observaciones. Emplearemos los sub´ a ındices N + 1 y N para designar estimaciones respectivamente con y sin esta observaci´n o O suprimi´ndolos.6. y nos planteamos ampliar X con una fila adicional xN +1 ′ (e y con el correspondiente valor observado de Y ) de modo que se reduzca al m´ximo la varianza en la a ′ estimaci´n de una determinada forma lineal c β en que estamos interesados. de cu´n colineal es c con vectores propios de reducido a valor propio. o 3 .28) y comentario posterior muestran que. Es claro que si todos los valores propios son mayores que cero. Si c = α1 v1 + · · · + αp−j vp−j y los α′ s multiplicando a vectores propios con reducido valor propio son sustanciales. para guareo cernos de varianzas muy grandes en la estimaci´n de algunas formas lineales. examinamos esta cuesti´n con m´s detalle. Hemos razonado en esta Secci´n y la precedente en el caso de que j valores o propios de X ′ X son exactamente cero.28) es reveladora. y s´lo mediante la nueva fila xN +1 ′ se hace c ′ β estimable.29) = σ2 (9.136 CAP´ ITULO 9. Los m´todos de regresi´n sesgada del Cap´ e e o ıtulo 11 hacen expl´ ıcita esta idea. a o En definitiva. fundamentalmente. los correspondientes sumandos tender´n a dominar la expresi´n (10. Si c no a o o puede expresarse como combinaci´n lineal de los vectores propios con valor o propio no nulo. aunque e quiz´ con acusada multicolinealidad4 . En lo que sigue. c ′ β no es estimable.30) 9.

adicional. 230): e a (D + z z ′ )−1 = D −1 − Sustituyendo (10.39): 2 2 σc ′ βN − σc ′ βN+1 = σ 2 a ′ ˆ ˆ D −1 z z ′ D −1 1 + z ′ D −1 z (9. pues la expresi´n equivalente (10. 2 2 σc ′ β − σc ′ β ˆ ˆ N N+1 = σ 2 c ′ [(X ′ X)−1 − (X ′ X + xN +1 xN +1 ′ )−1 ]c (9. Denominemos: a = V ′c z = V ′ xN +1 D = V ′ (X ′ X)V Entonces.33) (9.40) en (10.36) (9.39) Pero (v´ase Teorema A.38) = σ 2 c ′ V V ′ [(X ′ X)−1 − (X ′ X + xN +1 xN +1 ′ )−1 ]V V ′ c = σ 2 a ′ [D −1 − V ′ (X ′ X + xN +1 xN +1 ′ )−1 V ]a = σ 2 a ′ [D −1 − (V ′ (X ′ X + xN +1 xN +1 ′ )V )−1 ]a = σ 2 a ′ [D −1 − (D + z z ′ )−1 ]a (9.35) puede transformarse as´ ı: 2 2 σc ′ β − σc ′ β ˆ ˆ N N+1 (9. p´g. ELECCION OPTIMA DE OBSERVACIONES. Tenemos entonces que: ΣβN = σ 2 (X ′ X)−1 ˆ ΣβN+1 = σ 2 (X ′ X + xN +1 xN +1 ′ )−1 ˆ 2 σc ′ β ˆ N 137 (9.31) (9.´ ´ 9.42) 1+ i Obs´rvese que el problema de maximizar (10.6.40) D −1 z z ′ D −1 a 1 + z ′ D −1 z 2 (9. Sea V la matriz o que diagonaliza a (X ′ X).37) (9.2.41) = σ2 i ai zi λi 2 zi λi (9.35) y el problema es encontrar xN +1 maximizando esta expresi´n.34) = σ 2 c ′ (X ′ X)−1 c 2 σc ′ βN+1 = σ 2 c ′ (X ′ X + xN +1 xN +1 ′ )−1 c ˆ Entonces.35) carece de sentido si no e imponemos restricciones. (10.32) (9.42) es mon´tona o o .

´ 2 Φ(z ) = σ 2 i ai zi λi 2 zi i −µ i 2 zi − K 2 (9. . y el cociente en consecuencia aumenta. . . p) (i = 1.48) (i = 1.43) 1+ λi y derivando respecto a zi . . . .47) se obtiene: µ= ai A zi A2 A2 − − 2 2 zi = 0 λi B λi B 2 K B zi 5 (9. . Formando entonces el lagrangiano. (i = 1. . .49) (9.50) 1 1 + 2 λi K = B ai A λi Observemos que al multiplicar z por k el numerador queda multiplicado por k 2 . .46) B = 1+ i las p igualdades anteriores toman la forma: ai A zi A2 µzi − − 2 =0 (9. creciente al multiplicar z por una constante k mayor que la unidad5 . . Es pues claro que el numerador crece m´s o a que el denominador. p) (9. obtenemos p igualdades de la forma: ai zi λi ai 1 + λi 1+ i 2 zi λi 2 zi λi 2 − i 2 σ2 i i ai zi λi zi λi − µzi = 0 (9.45) (9. en tanto s´lo una parte del denominador lo hace.47) λi B λi B 2 σ Multiplicando por zi cada una de las anteriores igualdades y sum´ndolas.44) Denominando: A = i ai zi λi 2 zi λi (9. MULTICOLINEALIDAD. a puede despejarse: A2 2 σ K 2B2 y por consiguiente de (10.138 CAP´ ITULO 9. . . Necesi2 tamos una restricci´n del tipo z ′ z = i zi = K 2 para obtener una soluci´n o o unica. p).

si el moo delo intenta ajustar una constante biol´gica como funci´n lineal de ciertos o o tipos de nutrientes.´ ´ 9. . sin embargo. hay un l´ a ımite al valor de |mi |.52)) ∝ = (por (10. la fila a a˜adir a X para mejorar al m´ximo la estimaci´n de c ′ β n a o ser´: a xN +1 = (por (10. Si σ 2 es fija. Es decir. .6.53) incrementar el m´dulo de xN +1 equivale a incrementar |mi |. . ELECCION OPTIMA DE OBSERVACIONES. Las anteriores p igualdades pueden expresarse en notaci´n o matricial as´ ı: z ∝ (I + K −2 D)−1 a (9. En definitiva. El primero. que ´ o es l´gico que as´ sea. es claro que siempre preferiremos filas de o ı m´dulo muy grande. el desarrollo anterior suministra la direcci´n en que debe o tomarse una observaci´n adicional para mejorar al m´ximo la varianza en o a .52) Por tanto. Cabe hacer dos comentarios sobre esta ultima afirmaci´n. hay un l´ ımite pr´ctico a los valores que pueden tomar los a regresores: el impuesto por las cantidades que los sujetos bajo estudio pueden ingerir. p.42) hace evidente que una norma tan grande como sea posible es lo deseable. cuyo crecimiento desaforado podr´ llevarnos a regiones en las que las Yi dejan de ser ıa una funci´n aproximadamente lineal de los regresores. pero no su norma.36)) = = = Vz V (I + K −2 D)−1 a V (I + K −2 D)−1 V ′ V a V (I + K −2 D)−1 V ′ c [V (I + K −2 D)V ′ ]−1 c [I + K −2 (X ′ X)]−1 c Recordemos que hemos obtenido una soluci´n unica para z (y en cono ´ secuencia xN +1 ) s´lo mediante la imposici´n de una restricci´n de escala o o o 2 2 o i zi = K . podemos determinar la direcci´n de z . pues si: o Yi = mi + ǫi = β0 + · · · + βp−1 xi. o sea: zi ∝ ai λi 1 + 1 λi K2 = ai λ 1 + Ki 2 139 (9. y haciendo o |mi | ≫ ǫi podemos reducir en t´rminos relativos el peso de ǫi en yi .51) para i = 1. . e En la pr´ctica. El examen de (10. Por ejemplo.p−1 + ǫi (9.

Si no tuvi´ramos una forma estimable unica como objetivo. e ıa n o . una monograf´ que trata el tema de dise˜ o ´ptimo. Podr´ ıamos tambi´n aceptar como criterio el de maximizar el determinante de (X ′ X). la estimaci´n de c ′ β .140 CAP´ ITULO 9. MULTICOLINEALIDAD. e Este criterio se conoce como de D-optimalidad6. Tomaremos xN +1 tan grande como sea posible en o dicha direcci´n. 6 V´ase Silvey (1980). o e ´ una estrategia sensata consistir´ en tomar observaciones de forma que se ıa incrementasen los menores valores propios de la matriz (X ′ X).

podr´ o ıamos preferir el estimador resultante que.1) podemos plantearnos la siguiente pregunta: ¿Es posible reducir el ECM en la estimaci´n tolerando un sesgo? Si la respuesta fuera afirmativa. y reparamos en que: a c E[ˆ − c]2 = E [ˆ − E[ˆ] + E[ˆ] − c]2 c c c c 2 = E [ˆ − E[ˆ]] + E [E[ˆ] − c]2 + 2 E [ˆ − E[ˆ]] [E[ˆ] − c] c c c c c c =0 = var(ˆ) + (sesgo c) c ˆ 2 (10. Cualesquiera otros que consideremos. a 141 . ıa producido por una disminuci´n en la varianza capaz de compensar el segundo o sumando en (11. a los estimadores m´ ınimo cuadr´ticos ordinarios (MCO) son los de varianza a m´ ınima en la clase de los estimadores lineales insesgados.1. El Cap´ ıtulo 10 pon´ de manifiesto que vectores propios de (X ′ X) con ıa valor propio asociado nulo o muy peque˜o eran responsables de la inestimabin lidad (en el caso extremo de valores propios exactamente cero) o estimaci´n o ′ muy imprecisa de formas lineales c β en los par´metros. Analizaremos ahora a las implicaciones del an´lisis realizado. si son lineales y de varianza menor. ECM = E[ˆ − c]2 . a Si consideramos adecuado como criterio en la elecci´n de un estimador c o ˆ def su error cuadr´tico medio.2. o 10. 21). aunque sesgado. o De acuerdo con el teorema de Gauss-Markov (Teorema 3. p´g.1). habr´n de ser sesgados. tendr´ un ECM menor. Introducci´n.Cap´ ıtulo 10 Regresi´n sesgada.

p´g. p´g. Observaci´n 10. la reducci´n de varianza que se obtiene compensa la o introducci´n de sesgo. Denominaciones alternativas son regresi´n o o regularizada o m´todos de estimaci´n por encogimiento (“shrinkage e o estimators”). 2 una de cada poblaci´n. X2 . para lo que contamos con dos observaciones.1. Una aproximaci´n intuitiva.2. seg´n se indic´ en u o la Secci´n 10. ´ Ejemplo 10. Nuesu tro objetivo es estimar µ. en presencia de multicolinealidad acusada. es mucho mayor que σ1 Es claro que 1 µ = (X1 + X2 ) ˆ (10. a a es util ver sobre un ejemplo simple las ideas que explotan. Prescindir. Incrementarlos mediante observaciones adicionales. Si los valores propios peque˜os son causantes de elevada varianza en las n estimaciones. 3.1 Consideremos la siguiente situaci´n. o a 2. de ellos (regresi´n en componentes principales o y regresi´n en ra´ latentes). Tenemos dos o 2 2 poblaciones con media com´ n µ y varianzas respectivas σ1 .1 De ah´ la denominaci´n colectiva de m´too ı o e dos de regresi´n sesgada.2) 2 . o ıces Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para reducir la varianza de los estimadores. REGRESION SESGADA. Si se utilizan. a 10.6.142 ´ CAP´ ITULO 10. σ2 . su aplicaci´n pr´ctica est´ limitada por el hecho de o a a que no es inmediato saber cu´l precisamente es este estimador. caben varias soluciones: 1. simplemente. De acuerdo con los comentarios anteriores. Incrementarlos mediante procedimientos “ad-hoc”. Existe incluso un resultado (Teorema 11. 147) o a que demuestra la existencia de un estimador sesgado que domina (en t´rmie nos de ECM) al MCO. o Antes de introducir los estimadores sesgados m´s utilizados en la pr´ctica. est´ ultima abarcando un conjunto de estimadores mua´ cho m´s amplio que el considerado aqu´ a ı. es con la fundada creencia de que. Sean ´stas X1 . 136. que no requieren la toma de observaciones adicionales (ridge regression). los procedimientos que dise˜emos habr´n perdido la condici´n de n a o insesgados. Sabemos adem´s que σ2 o e a 2.

UNA APROXIMACION INTUITIVA. µ∗∗ . por ejemplo. el ˆ ıa segundo. La segunda conclusi´n a que llegamos a a o es que cuando tengamos observaciones con grado de precisi´n muy o variable. se nos hace evidente a que podemos hacerlo mejor: si nos limitamos a estimadores lineales —por simplicidad— cualquier estimador insesgado ser´ de la forma a ∗∗ µˆ = δ1 X1 + δ2 X2 143 con δ1 + δ2 = 1 (pues de otro modo al tomar valor medio en (11. 2 + σ 2 )/4 = (1 + 99)/4 = 25. ˆ ıa o e Se ha razonado sobre estimadores a los que hemos impuesto la condici´n o de ser insesgados. El primer estimador construido. 2 2 es un estimador insesgado de µ.3). ejemplo. pero esta condici´n es o . De (11. se serv´ de dicha observaci´n pero haci´ndole poco caso. por ˆ Var(ˆ ) = (σ1 µ 1 2 ˆ∗ ) = 1. a µ ¿Es de m´ ınima varianza? No. Si examinamos el ejemplo con m´s cuidado. µ∗∗ = ˆ 100 100 El resultado parece l´gico. Su varianza ser´ Var(ˆ ) = σ1 /4+σ2 /4. convendr´ ponderarlas de forma inversamente proporcional a a sus respectivas varianzas. que se resumen en uno: es mejor prescindir de informaci´n imprecisa que hacerle demasiado o caso. mientras que µ∗ = X . y en general puede ser sumamente 2 2 ineficiente. no obtendr´ ıamos µ.3) deducimos que 2 2 2 2 Var(ˆ∗∗ ) = δ1 σ1 + δ2 σ2 µ 2 = δ1 · 1 + (1 − δ1 )2 · 99 2 = 99 − 198δ1 + 100δ1 Derivando respecto a δ1 e igualando a cero obtenemos δ1 = 99/100 y consecuentemente δ2 = 1/100. ser´ tambi´n insesgado con Var(µ ıa e La conclusi´n a la que llegamos es que es mejor prescindir de la o observaci´n X2 —dando muy imprecisa informaci´n acerca del valor o o de µ— que utilizarla en pie de igualdad con X1 . F´cilmente se comprueba que se traa ta de un m´ ınimo. o Podemos a continuaci´n plantearnos cu´les son δ1 y δ2 = 1 − δ1 o a o ´ptimos. prescind´ directamente de X2 . Imaginemos. El estimador insesgado de varianza m´ ınima es por tanto: 1 99 X1 + X2 .2. Fin del ejemplo El ejemplo anterior pretende ilustrar dos principios. entonces. µ∗ . que σ1 = 1 y σ2 = 99.´ 10. como requiere la condici´n de insesgadez). por mantener el ejemplo simple. debemos ponderar las dos observaciones o dando m´s peso a la m´s fiable.

. Supondremos (X ′ X) de rango total. Adem´s. el estimador ridge de la Secci´n 11. 10. inesencial. REGRESION SESGADA. p´g. n Los estimadores que se presentan a continuaci´n hacen precisamente esto. Como E[β] = β 1 Independientes. o u Volveremos de nuevo sobre la cuesti´n en la Secci´n 11. (10. si sus varianzas son muy grandes.26).3. p son variables aleatorias incorreladas con varianzas ˆ respectivas Var(vi ′ β) = σ 2 /λi .1 al estimar µ. v ′2 β. . a Tenemos pues c ′ β puede escribirse como combinaci´n lineal de “observao ′ˆ ciones” v i β con varianzas muy diferentes. ello acontecer´ o a cuando los valores propios λi sean muy peque˜os. p´g. . como veremos a continuaci´n. (De hecho. podemos tener inter´s en prescindir de algunas de estas “observae ′ˆ ciones” v i β. y por ′ −1 ˆ tanto que (X X) existe (este supuesto se puede relajar). de c β ) en un modelo lineal? Recordemos la discusi´n en la Secci´n 10. . 136.3 aten´a las v ′i β m´s inestables. seg´n muestra (10. en genee o ′ ral.5.144 ´ CAP´ ITULO 10. .3) que podemos ver tambi´n como el valor medio del cuadrado de la distancia e ˆ eucl´ ıdea ordinaria entre β y β . 135. Al igual que en el Ejemplo 11. definiremos como ECM del a estimador MCO: ′ ˆ ˆ ˆ ECM(β) = E[(β − β ) (β − β )] (10. v ′p β. .) ˆ e ¿Qu´ implicaciones tiene lo anterior sobre la estimaci´n de β (o.29). o u a a ′ˆ 1 v i β para i = 1. .4. Regresi´n ridge. 158.1. o Error cuadr´tico medio del estimador m´ a ınimo cuadr´tico ordinario a Dado que hay varios par´metros a estimar. o El estimador en componentes principales de la Secci´n 11. todav´ ser´ posible o ıa ıa ∗∗ mejorar µ en t´rminos de ECM si tolerasemos un sesgo.3. . ´ atenuarlas.4 prescinde de alguo ′ˆ ˆ a nas v i β. .3. o o ′ El estimador de cualquier forma lineal c β puede escribirse como combinaˆ ˆ ˆ ci´n lineal de v ′1 β. o o a 10. si se verifica el supuesto de normalidad. p´g.

´ 10. tenemos que: ˆ ′ ˆ ˆ ˆ ECM(β) = E[traza (β − β ) (β − β )] ′ ˆ ˆ = E[traza (β − β )(β − β ) ] 145 = σ 2 traza (X ′ X)−1 = σ 2 traza (X ′ X)−1 V V ′ = σ 2 traza V ′ (X ′ X)−1 V p (V = diagonalizadora de (X ′ X)−1 ) = σ 2 i=1 1 .7) . es consecuencia del Lema 11. que muestra la superioridad del estimador ridge sobre el MCO para alg´n valor de k.1 a continuaci´n. La e relaci´n entre ambos para un valor arbitrario de k queda de manifiesto en la o siguiente cadena de igualdades: ˆ β (k) = (X ′ X + kI)−1 (X ′ X)(X ′ X)−1 X ′ Y ˆ = (X ′ X + kI)−1 (X ′ X)β −1 ˆ = (X ′ X)−1 (X ′ X + kI) β = I + k(X ′ X)−1 ˆ = Zβ −1 −1 ˆ β (10.1.2.3.6) siendo Z = [I + k(X ′ X)−1 ] . El Teorema 11. y los valores propios de una los inversos de los de la otra.1 Definiremos el estimador ridge de par´metro k as´ o a ı: siendo k una constante positiva a determinar.4) en que los λi son los valores propios de la matriz (X ′ X). (Recu´rdese que e ′ ′ −1 los vectores propios de las matrices (X X) y (X X) son los mismos. λi (10.5) Definici´n 10. y Σβ = σ 2 (X ′ X)−1 .) 10. REGRESION RIDGE. u o Lema 10.1 El error cuadr´tico medio del estimador ridge de par´metro k a a viene dado por la expresi´n o p def ECM[β ˆ(k) ] = σ 2 i=1 λi + (λi + k)2 p i=1 2 k 2 αi (λi + k)2 (10. El estimador ridge es id´ntico al MCO en el caso particular en que k = 0.3. Clase de estimadores ridge ˆ β (k) = (X ′ X + kI)−1 X ′ Y (10.

(λi + k)2 = σ2 i=1 La obtenci´n de la expresi´n (11. REGRESION SESGADA. siendo V una matriz cuyas columnas son vectores propios de (X ′ X).12) = σ 2 traza V ′ [(X ′ X) + 2kI + k 2 (X ′ X)−1 ]−1 V = σ2 i=1 p 1 λi + 2k + λ−1 k 2 i λi .9) I + k(X ′ X)−1 −1 −1 = σ 2 traza (X ′ X) + kI + kI + k 2 (X ′ X)−1 = σ 2 traza p (X ′ X) + 2kI + k 2 (X ′ X)−1 −1 VV′ (10. Examinemos por separado los dos sumandos de la expresi´n anterior: o ˆ ˆ (a) = E[(β − β )′ Z ′ Z(β − β )] ˆ ˆ = E[traza{(β − β )′ Z ′ Z(β − β )}] ˆ ˆ = E[traza{(β − β )(β − β )′ Z ′ Z}] ˆ ˆ = traza{E(β − β )(β − β )′ Z ′ Z} = σ 2 traza [(X ′ X)−1 Z ′ Z] = σ 2 traza (X ′ X)−1 I + k(X ′ X)−1 −1 (10.9) hace uso de el habitual intercambio de o o ˆ los operadores de traza y valor medio. mientras que (b) es la suma de los sesgos al cuadrado de dichos elede β mentos.4) es: ˆ ˆ ˆ ECM[β (k) ] = E[(β (k) − β )′ (β (k) − β )] ˆ ˆ (por (11. En el paso de (11.6)) = E[(Z β − β )′ (Z β − β )] ˆ ˆ = E[(Z β − Z β + Z β − β )′ (Z β − Z β + Z β − β )] ˆ ˆ = E[(Z β − Z β )′ (Z β − Z β )] + (Z β − β )′ (Z β − β ) (a) (b) (10.11) se ha empleado el a hecho de que si V diagonaliza a (X ′ X) diagonaliza tambi´n a cada una de las e .10) a (11. en que los λi son los valores propios de la matrix (X ′ X) y α = V ′ β . as´ como del hecho de que si β es el esı ′ 2 ˆ ˆ timador MCO y X X es de rango completo. ´ Demostracion: El ECM del estimador ridge que habremos de comparar con (11. p´g.146 ´ CAP´ ITULO 10. 21).2.8) Obs´rvese que el primer t´rmino (a) es la suma de varianzas de los elementos e e ˆ(k) .10) (10.11) (10. E[(β − β )(β − β )] = σ (X ′ X)−1 (Teorema 3.

para k = 0 la expresi´n (11.7) debe o coincidir con (11.3.13) = k 2 α′ (Λ + kI)−2 α = traza k 2 α′ (Λ + kI)−2 α p = i=1 2 k 2 αi (λi + k)2 (10. e (b) = (Z β − β )′ (Z β − β ) = β ′ (Z − I)′ (Z − I)β = β′ I + k(X ′ X)−1 −1 ′ −I I + k(X ′ X)−1 −1 −I β (10. valores medios respectivamente de o ˆ − β )′ (β − β ) y (β (k) − β )′ (β (k) − β ).7) El Teorema 11. Tomando ahora el segundo t´rmino de (11. claramente negativa. el estimador ridge β (k) coina cide con el MCO.8).14) El paso a (11.4) y (11.4) puede hacerse ˆ ˆ ˆ (β arbitrariamente grande si λi ≈ 0 para alg´n i. Derivando (??) respecto de k.12) est´ a u o a . y por consiguiente a la matriz inversa de la contenida en el corchete.4). o Sustituyendo (11. 147 matrices en el corchete.´ 10.4). La expresi´n (11.8). Por consiguiente.13) desde la expresi´n anterior hace uso de que α = V ′ β . siempre podremos (incrementando ligeramente k) lograr que: ˆ ˆ ˆ ECM[β (k) ] < ECM[β (0) ] = ECM[β] lo que demuestra el teorema. como en efecto puede comprobarse que sucede. Se observa que (11. es f´cil comprobar que la derivada en k = 0 existe y a p −2 2 es −2σ i=1 λi . REGRESION RIDGE. ˆ Teorema 10.12) y (11. (10. Por consiguiente.1 Hay alg´n valor de k > 0 para el ECM[β (k) ] dado por (11.7) u es estrictamente menor que el ECM del estimador MCO dado por (11.14) en (11. ´ Demostracion: ˆ Hemos visto m´s arriba que cuando k = 0.1 se sigue casi inmediatamente del resultado anterior.15) Una percepci´n intuitiva del resultado anterior la proporciona la compao raci´n de las expresiones (11.8) se obtiene (11.

. Como t´rmino de come ˆ paraci´n se ha representado mediante una l´ o ınea horizontal la varianza del β MCO (igual a su varianza.00 0. REGRESION SESGADA. Las l´ ıneas ˆ de trazos y puntos representa respectivamente la varianza y (sesgo)2 de β (k) ˆ en funci´n de k. hay valores de k en que el ECM(β (k) ) desˆ ocurre para valores de k menores que 0.25 ECM MCO Sesgo ridge (b) 0. Puede verse que.08 0. La curva s´lida representa ECM[β (k) ].20 0. pues ninguno de los sumandos puede crecer por encima de λi /k 2 .1: Componentes del ECM(β (k) ) en el estimador ridge. La Figura 11.30 ECM ridge (a) + (b) ECM.04 k 0.05 0.35 0.10 cobijo de tal eventualidad. y su suma. ˆ Figura 10.1 muestra en un caso concreto c´mo var´ en funci´n de o ıan o k los componentes (a) y (b) de (11.039 ciende por debajo del ECM(β).8). puesto que es insesgado).1 establece.15 Var ridge (a) 0. tal ˆ como el Teorema 11.10 0.02 0.06 0.148 ´ CAP´ ITULO 10. varianza y (sesgo)2 0.00 0. aproximadamente. La l´ o o ınea horizontal ˆ es la varianza (y ECM) del estimador β MCO. 0.

Se prueban diversos valores de k represent´ndose a las diferentes estimaciones del vector β (trazas ridge). Elecci´n de k o Sabemos que existe un k (de hecho. Elecci´n de k por validaci´n cruzada generalizada (GCV). La idea es tambi´n muy simple.k )2 . REGRESION RIDGE. el c´lculo puede agilizarse de modo cono a a siderable. ˆ . En la pr´ctica. En la pr´ctica. o Elecci´n de k por validaci´n cruzada. En principio. no obstante. se recurre a alguna o varias a a de las siguientes soluciones: Uso de trazas ridge. ˆ es decir.´ 10. pero nada en la discusi´n anterior nos o permite decidir cu´l es su valor. ın k y la idea es emplear este valor kCV .k la predicci´n que haceˆ o mos de la observaci´n yi cuando empleamos el estimador ridge de par´metro o a k obtenido con una muestra de la que excluimos la observaci´n i-´sima. Es un o o criterio estrechamente emparentado con el anterior.3. se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. un intervalo de valores de k) mejorando el ECM del estimador MCO. calcular CV (k) para un valor de k requerir´ llevar a cabo N regresiones. Sean A(k) = X((X ′ X) + kI)−1 X ′ ˆ y = X β (k) = A(k)y . Entonces.3. Incrementaremos k por tanto hasta que parezca que su influencia u sobre β se aten´a —hasta que las trazas ridge sean casi horizontales. a kCV = arg m´ CV (k). El u decidir d´nde ocurre esto es.3. o o e aunque computacionalmente algo laboriosa. excluyendo cada vez una ıa observaci´n distinta. bastante subjetivo. al coste de introducir a alg´n sesgo. La idea es intuitivamente atrayente: peque˜os incrementos de k partiendo n de cero tienen habitualmente un efecto dr´stico sobre β . Sea y(i). 149 10. CV (k) es la suma de cuadrados de los residuos obtenidos al ajustar cada observaci´n con una regresi´n que la ha dejado fuera al estimar los o o par´metros. Deo e finamos N CV (k) = i=1 (yi − y(i).

63. o El criterio (11. [traza(I − A(k))]2 (10.150 entonces. r < p. p´g. a 10. Baste decir que la ı expresi´n que se minimiza en (11. puede sustituirse ´ste por p tomando como β el ese timador m´ ınimo cuadr´tico de m´ a ınima longitud. REGRESION SESGADA. El criterio (11. ver detalles en Brown (1993).16) Sobre la justificaci´n de dicha elecci´n puede verse Eubank (1988) o Brown o o (1993). En caso de que (X ′ X) sea de rango deficiente r. Para otros valores o o de k el numerador de (11.17) ′ ˆ ˆ kLW = (p − 2)ˆ 2 traza(X ′ X)/(pβ (X ′ X)β) σ kM U R = arg m´ σ 2 ın ˆ k i (10. Comentarios adicionales Es evidente que la forma del ECM propuesto pondera por igual las discrepancias en la estimaci´n de un βi cuyo valor real es muy grande que o aqu´llas en la estimaci´n de uno cuyo valor real es muy peque˜o.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimaci´n.2 En las ecuaciones (11.17)–(11. Nos limitamos a mencionarlos. = arg m´ ın k ||(I − A(k))y ||2 . e o n es aconsejable antes de emplear el procedimiento normalizar los regresores. por ejemplo. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes.18) fue propuesto en Lawless and Wang (1976).19). una expresi´n cuya minimizaci´n parece razonable. Otros criterios. Por ello.16) contin´a siendo una suma de cuadrados de u los residuos y el denominador el cuadrado del n´mero de grados de libertad u equivalentes. elegimos kGCV ´ CAP´ ITULO 10.17) fue propuesto por Hoerl et al.4.18) (10.16) se reduce a SSE/(N −p)2 cuando k = 0 o (m´ ınimos cuadrados ordinarios). ′ kHKB = (p − 2)ˆ 2 /β β σ ˆ ˆ (10.19) λi − k + k2 λi (λi + k) i αi ˆ2 (λi + k)2 El criterio (11.3. (1975) y tiene una justificaci´n bayesiana. no podemos entrar aqu´ en detalles. p es el oro den y rango de la matrix (X ′ X). como resulta inmediato de la definici´n de o A(k). o Observaci´n 10. Alternativamente podr´ reproducirse el desarrollo anterior empleando como ıa .

3. 61.5 259. es de inter´s se˜alar que el estimador ridge puede verse dese n de distintos puntos de vista. siendo M una matriz definida o ˆ positiva adecuada2 “tipificando” los (β − β ). El primero es pr´cticamente id´ntico a ıan a e kGCV y no se ha representado en la Figura 11.8 > longley. se ha trazado una recta vertical al nivel de kGCV ."y" longley[1:3. Los valores de kHKB y kLW son tambi´n output de la funci´n lm.Forces 235.2. 151 ˆ ˆ ECM una expresi´n del tipo: (β− β )′ M(β − β ). ıa o 2 . ] Unemployed Armed. Uno de ellos lo interpreta como un estimador bayesiano. en la l´ ınea esbozada en los Ejercicios 5.32 1948 61.2 muestra las trazas ridge de los seis par´metros estimados y el valor del criterio GCV a para distintos valores de k.6 368.6 y 5.4 1949 88.7.12 1949 60. En ambas gr´ficas.17 y GNP 1947 83. el segundo s´ ı.. El par´metro β0 se sustrae as´ al proceso de estimaci´n ridge.2 258.6 159.´ 10.6 Year Employed 1947 60. p´g. Es habitual no s´lo normalizar sino tambi´n centrar tanto las columnas o e de X como y . > > > > > > options(digits = 4) options(columns = 40) library(MASS) data(longley) names(longley)[1] <. que comparten la escaa la de abscisas.mco) Call: lm(formula = y ~ .0 232. La Figura 11. M = (X ′ X) ser´ una elecci´n natural. longley) > summary(longley. a Finalmente.ridge e o y podr´ haberse utilizado.5 145.mco <. empleando una m´trica distinta de la eucl´ e ıdea ordinaria para medir la disˆ crepancia entre β y β .6 1949 109. a R: Ejemplo 10.1 Population 1947 107.3 1948 88. a ı o restaur´ndolo al final. REGRESION RIDGE.6 1948 108..0 234.2 161. data = longley) Residuals: Es decir.lm(y ~ .1 (ejemplo de regresi´n ridge) o El siguiente c´digo muestra el uso de regresi´n ridge sobre un cono o junto de datos acusadamente colineal.

120 0.08 0.2: Trazas ridge y GVC para los datos longley Trazas ridge kGCV 20 βi −10 0.08 0.02 0.02 0. REGRESION SESGADA.06 0.10 Criterio GCV kGCV kLW GCV 0.04 k 0. Figura 10.04 k 0.130 0.00 0.140 0.152 ´ CAP´ ITULO 10.06 0.00 0 10 0.10 .

01 ³*³ 0. 0.rr) Length coef 606 scales 6 Inter 1 lambda 101 Class -none-none-none-noneMode numeric numeric numeric numeric .641 Employed 0.113 Coefficients: 3Q 0.038 * Unemployed 0. p-value: 4.001)) > summary(longley.614 GNP 0. deben coincidir las estimaciones con las obtenidas por MCO.1082 2. Error t value (Intercept) 2946.1 variando de mil´sima en mil´sima.1. Min 1Q Median -2.52 GNP 0.lm.05 ³.0112 0.44 Unemployed 0. + lambda = seq(0.6738 -2..18 Pr(>|t|) (Intercept) 0. Probemos ahora regresi´n ridge con valores de k (= o lambda) entre 0 y 0. Imprimiremos e e a continuaci´n las estimaciones correspondientes a los tres primeros o valores de k ensayados.9446 -0.rr <. Cuando k = 0.423 Max 1.993.2635 0.7370 0.030 * Year 0. longley.ridge(y ~ . REGRESION RIDGE.43e-09 N´tese la fuerte multicolinealidad.3039 0.863 --Signif.0155 0.988 F-statistic: 203 on 6 and 9 DF. 0.Forces 0.58 Year -1.515 0. Adjusted R-squared: 0.4188 2.001 ³**³ 0.0365 0.488 Population 0. codes: 0 ³***³ 0.8564 5647. aparente en los reducidos t-ratios o y elevada R2 .Forces 0.³ 0.´ 10.009 -0. > longley.19 on 9 degrees of freedom Multiple R-squared: 0.9766 0.0302 1.48 Employed 0.2313 1.21 Armed.1 ³ ³ 1 Residual standard error: 1.550 153 Estimate Std.258 Armed.3.72 Population -1.

154
ym xm GCV kHKB kLW 1 6 101 1 1 -none-none-none-none-none-

´ CAP´ ITULO 10. REGRESION SESGADA.
numeric numeric numeric numeric numeric

> coef(longley.rr)[1:3, ] GNP Unemployed Armed.Forces 0.000 2947 0.2635 0.03648 0.011161 0.001 1896 0.2392 0.03101 0.009372 0.002 1166 0.2210 0.02719 0.008243 Population Year Employed 0.000 -1.737 -1.4188 0.23129 0.001 -1.644 -0.8766 0.10561 0.002 -1.565 -0.5011 0.03029

La funci´n select aplicada al objeto que devuelve lm.ridge devuelve o los valores ´ptimos de tres de los criterios mencionados m˜ as arriba. o n > select(longley.rr) modified HKB estimator is 0.006837 modified L-W estimator is 0.05267 smallest value of GCV at 0.006

Podemos seleccionar el k ´ptimo de acuerdo, por ejemplo, al criterio o GCV, y hacer regresi´n ridge con ´l: o e > nGCV <- which.min(longley.rr$GCV) > lGCV <- longley.rr$lambda[nGCV] > lm.ridge(y ~ ., longley, lambda = lGCV) GNP 1.765e-01 Population -1.328e+00 Unemployed 1.937e-02 Year 2.556e-01

-3.144e+02 Armed.Forces 6.565e-03 Employed -5.812e-02

El c´digo a continuaci´n genera las gr´ficas en la Figura 11.2. o o a

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.
> > + + > > > > + + > > > >

155

par(mfrow = c(2, 1)) matplot(longley.rr$lambda, t(longley.rr$coef), type = "l", xlab = expression(k), ylab = expression(beta[i])) abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) title(main = "Trazas ridge") plot(longley.rr$lambda, longley.rr$GCV, type = "l", xlab = expression(k), ylab = "GCV", main = "Criterio GCV") abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) abline(v = longley.rr$kLW) mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)

Fin del ejemplo

10.4.
10.4.1.

Regresi´n en componentes principales. o
Descripci´n del estimador o

Consideraremos, por conveniencia notacional, el modelo habitual en que la columna de “unos”, si existe, ha sido segregada, y los restantes regresores han sido centrados y normalizados. Esto tiene por unico efecto multiplicar ´ los par´metros —y sus estimadores— por constantes respectivamente iguales a a la norma de las columnas de X afectadas. Con este convenio, el modelo de regresion lineal que consideramos se puede escribir as´ ı: y = 1β0 + W β ∗ + ǫ (10.20)

Supondremos, consistentemente con la notaci´n anterior, que β ∗ es un o vector (p − 1) × 1, y W una matriz N × (p − 1). La matriz W ′ W es una matriz con “unos” en la diagonal principal, sim´trica, y definida no negativa. e Existe siempre una diagonalizadora ortogonal V tal que: V ′ (W ′ W )V = Λ (⇐⇒ W ′W = V ΛV ′ ) (10.21)

156

´ CAP´ ITULO 10. REGRESION SESGADA.

Sean v1 , . . . , vp−1 los vectores columna de V . Llamaremos componentes principales de W a los vectores u1 , . . . , up−1 definidos as´ ı: u1 u2 up−1 o abreviadamente: U = WV (10.23) = W v1 = W v2 . . . = W vp−1 (10.22)

La matriz U es N × (p − 1), con columnas combinaci´n lineal de las de o W . Es adem´s aparente que las columnas de U son ortogonales: U ′ U = a V ′ (W ′W )V = Λ, y que generan el mismo subespacio de RN que las de W . Siendo V ortogonal, (11.20) puede transformarse as´ ı: y = 1β0 + W β ∗ + ǫ = 1β0 + W V V β + ǫ = 1β0 + Uγ ∗ + ǫ
′ ∗

(10.24) (10.25) (10.26)

Teniendo en cuenta (ver Problema 11.2) que 1 ⊥ ui , (i = 1, . . . , p − 1), el vector de estimadores puede escribirse as´ ı: ˆ β0 γ∗ ˆ = y (U ′ U)−1 U ′ y = y Λ−1 U ′ y (10.27)

Todo lo que hemos hecho hasta el momento es tomar una diferente base del espacio de proyecci´n —la formada por las columnas de U en lugar de o la formada por las columnas de W —. Llegados a este punto, tenemos que recuperar los estimadores de los par´metros originales β ∗ a partir de γ ∗ . Si a ˆ lo hacemos mediante ˆ β∗ = V γ∗ ˆ estaremos obteniendo exactamente los estimadores MCO. La idea del estimaˆ∗ dor en componentes principales βCP es emplear s´lo algunos de los t´rminos o e ∗ en γ : ˆ ˆ∗ βCP = V γ(q) ˆ∗ . 0 (10.28)

Necesitamos por tanto criterios para escoger los estimadores γi que incluimos ˆ ∗ en γ(q) y los que reemplazamos por cero en (11.28). ˆ

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.

157

10.4.2.

Estrategias de selecci´n de componentes prino cipales

Hay varias estrategias. Una discusi´n m´s pormenorizada que el resumen o a a continuaci´n puede encontrarse en Brown (1993) o en Jolliffe (1986). o Elecci´n basada en λi . Como quiera que la varianza de γi∗ es σ 2 λ−1 (v´ase o ˆ e i ∗ (10.26), p´g. 135), una estrategia consistir´ en tomar los γi asociados a λi a ıa ˆ m´s grande (es decir, con menos varianza), despreciando los restantes. El a n´mero de componentes principales a retener (= el n´mero de λi ’s “grandes”) u u es en buena medida subjetivo. N´tese que puede ocurrir que componentes asociadas a par´metros γi∗ con o a ˆ mucha varianza —y por tanto desechados— tengan no obstante gran poder predictivo de y . En este caso, podr´ ser preferible emplear la estrategia a ıa continuaci´n. o Elecci´n basada en el contraste de nulidad de los γi∗ . Se procede as´ o ˆ ı: 1. Se calcula PU y
2

= U γ∗ ˆ

2

= γ1 u1 ˆ ∗2

2

+ · · · + γp−1 up−1 ˆ ∗2

2

,

(10.29)

la ultima igualdad haciendo uso de la ortogonalidad entre las columnas ´ de U. Entonces, SSR = PU y 2 , y SSE = y − y 2 − U γ ∗ 2 . ˆ 2. Se contrasta la hip´tesis de nulidad para cada uno de los par´metros, o a (Hi : γi∗ = 0, i = 1, . . . , p − 1), mediante el estad´ ˆ ıstico: Qi = ˆ N − p γi∗2 ui × 1 SSE
2

∼ F1,N −p

(10.30)

que sigue la distribuci´n indicada bajo los supuestos habituales m´s o a normalidad cuando Hi es cierta. Obs´rvese que, gracias a ser ortogonales las columnas de U, la fracci´n e o de SSR atribuible a cada regresor es independiente de los que pueda haber ya incluidos en la ecuaci´n de regresi´n; por tanto, la diferencia o o de suma de cuadrados explicada con y sin el regresor ui es precisamente γi∗2 ui 2 . ˆ 3. Se introducen todos los regresores cuyo estad´ ıstico Qi supere un nivel prefijado. Sin p´rdida de generalidad, supondremos que ´stos son los q e e ∗ primeros, formando el vector γ(q) . ˆ

158

´ CAP´ ITULO 10. REGRESION SESGADA.

ˆ∗ 4. Los βCP se obtienen mediante la transformaci´n (11.28). o N´tese que mientras que la estrategia precedente consist´ en desechar o ıa componentes principales asociadas a reducido λi , la presente propone desechar las asociadas a reducido Qi ; frecuentemente, no suele haber conflicto entre ambos objetivos: ui 2 = λi ≈ 0 ⇒ Qi ≈ 0 a menos que simult´neaa mente γi∗ ≫ 0. Puede ocurrir, sin embargo, que una componente principal ˆ asociada a un λi muy peque˜o tenga apreciable valor predictivo (si γi∗ es n ˆ grande). Proceder´ incluir dicha componente principal como predictor si el ıa valor de Qi lo justifica y la predicci´n es el objetivo del an´lisis3 . o a Estrategia mixta. Propuesta por Jolliffe (1986), ordena los γi∗ de menor ˆ a mayor λi y realiza en este orden un contraste como el del apartado anterior sobre cada uno de ellos. Cuando se encuentra el primer γi∗ significativo, se ˆ retiene junto a todos los que le siguen (con λi mayor, por tanto). Todos los γi∗ retenidos componen el vector γ(q) . ˆ ˆ∗ Validaci´n cruzada. Computacionalmente muy laboriosa. Puede ocurrir o que al omitir distintas observaciones, dos componentes principales permuten su orden. V´anse detalles en Brown (1993). e

10.4.3.

Propiedades del estimador en componentes principales

ˆ∗ El sesgo de βCP es: ˆ∗ E[βCP − β ∗ ] = E V y su matriz de covarianzas: Σβ ∗ ˆ
CP

γ(q) ˆ∗ γi∗ vi ˆ −Vγ∗ =− 0 i=q+1

p−1

(10.31)

= V = σ
2

σ2
q

I 0 Iq 0 Λ−1 q 0 0 0 0 λ−1 vi vi ′ i

V′

(10.32) (10.33) (10.34) (10.35)

i=1 p−1

≤ σ2
i=1 2 ′

λ−1 vi vi ′ i

= σ (W W )−1
3

Pero este criterio no es un´nimemente compartido. V´ase Hocking (1976). a e

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.

159

en que el s´ ımbolo ≤ indica elementos no mayores en la diagonal principal. La diferencia entre la matriz de covarianzas de los estimadores MCO y la de los estimadores en componentes principales es:
p−1

σ

2 i=q+1

λ−1 vi vi ′ i

(10.36)

y ser´ importante si entre las componentes principales exclu´ a ıdas como regresores hay alguna asociada a un λi muy peque˜o. n Las expresiones (11.31) y (11.32)–(11.35) muestran el conflicto varianzasesgo en el caso de la regresi´n en componentes principales. De (11.31) se o deduce la siguiente expresi´n para la suma de los sesgos al cuadrado: o
p−1 ′ ˆ∗ ˆ∗ [E(βCP ) − β ∗ ] [E(βCP ) − β ∗ ] =

(ˆi∗ )2 γ
i=q+1

(10.37)

Es interesante comparar el estimador en componentes principales con el proporcionado por el estimador ridge, y examinarlo a la luz del an´lisis a efectuado en el Cap´ ıtulo 10. En realidad, todo cuanto hace el estimador en componentes principales es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores de los par´metros originales despreciando informaa ∗ ci´n (algunos γi ) de gran varianza (si se sigue el criterio de despreciar sin o ˆ m´s componentes principales con peque˜o λi ) o de reducido Qi ∝ (ˆi∗ )2 λi ; a n γ este ultimo estad´ ´ ıstico puede contemplarse como relaci´n se˜al/ruido. o n El estimador ridge no hace una elecci´n tan dr´stica sino que, mediante o a la introducci´n del par´metro k, aten´a las componentes principales reso a u ˆ ponsables en mayor medida de la varianza de β. Esto se hace evidente si comparamos la siguiente expresi´n: o ˆ∗ βCP = V Iq 0 ∗ γ =V ˆ 0 0 Iq 0 Λ−1 U ′ y 0 0 (10.38)

con la del estimador ridge equiparable4 : ˆ β (k) = (W ′W + kI)−1 W ′ y = V V ′ (W ′ W + kI)−1 V V ′ W ′ y = V (Λ + kI)−1 U ′ y (10.39) (10.40) (10.41)

En (11.38) s´lo q columnas de U ′ y se utilizan; en (11.41), todas, si bien las o que corresponden a componentes principales con λi m´s peque˜o reciben una a n
Es decir, tras haber centrado y normado los regresores y segregado la columna de “unos”.
4

160

´ CAP´ ITULO 10. REGRESION SESGADA.

ponderaci´n menor, al ser divididas por λi +k en lugar de por λi . Por ejemplo, o si λ1 = 5, λ4 = ,002 y k = 0,01, la primera columna de U ′ y ser´ dividida ıa por 5,01 ≈ 5, mientras que la cuarta resultar´ dividida por 0,012 ≫ 0,002, ıa es decir, su ponderaci´n se reducir´ a la sexta parte de la original. o ıa R: Ejemplo 10.2 (regresi´n en componentes principales) o
La funci´n regCP que sigue traduce directamente de la teor´ exo ıa puesta el m´todo para llevar a cabo estimaci´n en componentes prine o cipales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos: tomar: Vector de ´ ındices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar´ las tres primeras. ıa sig: Nivel de significaci´n de las componentes principales a reo tener. Se toman todas aqu´llas –sea cual fuere su valor propio e asociado– significativas al nivel sig. La funci´n es ineficiente, no hace comprobaci´n de errores y tiene s´lo o o o inter´s did´ctico. e a > regCP <- function(X, y, tomar = NULL, + sig = 0.05) { + X.c <- scale(X, scale = FALSE) + y.c <- scale(y, scale = FALSE) + W <- scale(X.c, center = FALSE)/sqrt(nrow(X) + 1) + WW <- crossprod(W) + factores.escala <- X.c[1, ]/W[1, ] + N <- nrow(X) + p <- ncol(X) + res <- eigen(WW) + V <- res$vectors + landas <- res$values + U <- W %*% V + gamas <- (1/landas) * t(U) %*% y.c + if (is.null(tomar)) { + fit <- lsfit(X.c, y.c, intercept = FALSE) + SSE <- sum(fit$residuals^2) + qi <- (N - p) * (gamas * landas)^2/SSE + tomar <- (1:p)[sig > (1 - pf(qi, + 1, N - p))] + } + betasCPstar <- V[, tomar] %*% gamas[tomar] + betasCP <- betasCPstar/factores.escala

239e-01 $landas [1] 4. betasCP) names(betasCP) <.as.553e-02 Employed 7.mean(y) beta0 <. y.0003126 $CP. CP.usadas [1] 1 2 3 Una comprobaci´n util consiste en ver que el estimador en CP. y.26353 Unemployed 0.c("Intercept".1858692 0. con los datos longley.03648 . dimnames(X)[[2]]) return(list(betasCP = betasCP.Y . Ve´moslo: a > regCP(X. frecuentemente empleados como banco de pruebas por su muy acusada multicolinealidad: > > > > > library(MASS) data(longley) y <.731e+02 Armed.´ 10.391e-01 Unemployed 9.c(beta0. REGRESION EN COMPONENTES PRINCIPALES.matrix(longley[.953e-03 Year 4.85636 GNP 0. landas = landas.0018422 0. -1]) regCP(X.m. 1] X <. mean) m. tomar = 1:ncol(X)) $betasCP Intercept 2946.X * betasCP) betasCP <. + + + + + + + + } 161 m.2517070 0. coincide con el estimador MCO.apply(X.sum(m.5478430 1.usadas = tomar)) Veamos el modo de emplearla.Forces 1.967e-01 $betasCP Intercept -9. tomar = 1:3) GNP 2.X <. 2.459e-02 Population 3.0124261 [5] 0.4. cuando o ´ se utilizan todas las componente principales.Y <.longley[.

23129 ´ CAP´ ITULO 10. y.01991 Employed 0.Forces 0.01116 Employed 0.1858692 0.usadas [1] 1 2 3 4 5 6 > lsfit(X.2517070 0.Forces 0.85636 Armed.0003126 $CP.1) $betasCP Intercept -961.1858692 0.03648 Year -1.Forces 0.01116 Employed 0.0018422 0.66205 GNP 0.0018422 0.26353 Population -1.5478430 1.162 Armed. sig = 0. Population -1.41880 $landas [1] 4.23129 GNP 0.usadas [1] 1 2 Fin del ejemplo .02372 Population 0.37468 Armed.2517070 0.0003126 $CP.73703 Year -1.5478430 1.41880 Para que la funci´n seleccione aquellas componentes principales con o un nivel de significaci´n de sus par´metros asociados prefijado.0124261 [5] 0.49223 $landas [1] 4.73703 Unemployed 0.01373 Year 0. REGRESION SESGADA. y)$coefficients Intercept 2946.33197 Unemployed 0.0124261 [5] 0. la ino a vocamos as´ ı: > regCP(X.

Es decir.47) en que vkj es la k-´sima coordenada de vj .44).44) tenemos que la matriz (A′ A) es una matriz de correlaci´n (tiene “unos” en la o diagonal principal. Como por otra parte e Avj 2 = vj ′ (A′ A)vj = λj .5.43) en que tanto los regresores como la variable respuesta y ∗ han sido normalizados y centrados. es sim´trica y semidefinida positiva). y ∗ = η −1 (y − y) siendo η 2 = N (yi − y)2 . REGRESION EN RA´ ICES LATENTES 163 10.45) (j = 1. Regresi´n en ra´ o ıces latentes y = 1β0 + W β ∗ + ǫ (10.46).48) .42) Consideramos el modelo: o alternativamente: y∗ = Wβ ∗ + ǫ (10. p) (10.46) es vj desprovisto de su primer elemento: vj = v0j (0) . . (10. tenemos Avj = v0j y ∗ + W vj . Si i=1 constru´ ımos la matriz N × p siguiente: A = [y ∗ | W ] (10. Sea V = (v1 | · · · | e vp ) la matriz que la diagonaliza: V ′ (A′ A)V = Λ ⇐⇒ V ΛV ′ = A′ A Entonces. utilizando (11.5.´ 10. . vj Tomando norma al cuadrado de (11. d´nde vj o (0) (0) (10. . Avj 2 = = v0j yi∗ + W vj N (0) 2 p−1 2 yi∗ v0j + i=1 (0) k=1 Wik vkj (10. .

48) deducimos que si λj ≈ 0 p−1 ∗ yi v0j ≈− k=1 Wik vkj ∀i ∈ [1. .52). de (11.50) y (11.50) Como y ∗ = η −1 (y − y). p).49) Si. la de que λj es aproximadamente cero para un determinado j.52) η2 2 v0j (10.164 ´ CAP´ ITULO 10.42) tenemos ˆ ˆ β0 1 + W β ∗ . podemos escribir: a −1 y ∗ ≈ −v0j W vj (0) def = y(j) ˆ∗ (10. REGRESION SESGADA. debidamente o ˆ ponderadas por coeficientes di a determinar: p y = ˆ i=1 p di y(i) ˆ di y + W (−v0i −1 vi η) i=1 p p (0) [usando (11. .51) N´tese que la aproximaci´n de y ∗ en (11. N] (10. .47) y (11. Podemos pensar en hacer uso de toda la informaci´n disponible aproximano do y mediante una combinaci´n lineal de y(i) (i = 1. igualando (11. .51)] = = i=1 di y + W − i=1 di v0i −1 vi η (0) Por otro lado. . v0j = 0. . hacen uso exclusivamente de una parte de la informaci´n o disponible. . . adem´s.50) y suma de cuadrados de los o o residuos en (11. y = y + ηy ∗ y denominando y(j) = y + ηˆ(j) ˆ y∗ tenemos: (y − y(j) ) ′ (y − y(j) ) = η 2 (y ∗ − y(j) ) ′ (y ∗ − y(j) ) ˆ ˆ ˆ∗ ˆ∗ = (v0j y ∗ − v0j y(j) ) ′ (v0j y ∗ − v0j y(j) ) ˆ∗ ˆ∗ = (Avj ) ′ (Avj ) = λj η 2 2 v0j η2 2 v0j (10.

(11.53). Φ(d ) = η cuyas derivadas 2 i=1 λi d 2 i v0i 2 p −µ i=1 di − 1 (10.55) sujeta a que o El lagrangiano es: p di = 1. Haciendo uso de (11. p) (10. REGRESION EN RA´ ICES LATENTES que junto con la igualdad precedente proporciona: p 165 ˆ β0 = y i=1 p di di v0i −1 vi i=1 (0) (10. y (11.54) ˆ β ∗ = −η ˆ Como los regresores W est´n centrados.57) permiten (multiplicando cada igualdad en (11.5.´ 10.52). . y por tanto a p de (11. .56) ∂Φ(d ) = 2η 2 ∂di d i λi v0i 2 −µ=0 (i = 1.53) (10. Podemos ahora minimizar la expresi´n (11.58) .54) obtenemos la suma de cuadrados de los residuos: (y − y ) ′ (y − y ) = η 2 (y ∗ − y ∗) ′ (y ∗ − y ∗ ) ˆ ˆ ˆ ˆ p ′ p = η 2 y +W i=1 p ∗ di v0i −1 (0) vi y +W i=1 ′ (0) ∗ di v0i −1 vi (0) = η2 i=1 p di v0i di v0i di v0i λi d 2 i v0i 2 (y ∗ v0i + W vi ) (y ∗ v0i + W vi ) ′ p (0) × i=1 p = η 2 i=1 p Avi i=1 di v0i Avi (10. . es claro que β0 = y. .53) se deduce i=1 di = 1.57) por v0i 2 λ−1 y sumando) i obtener: p µ = 2η 2 i=1 2 v0i λi −1 (10.55) p i=1 = η2 i=1 .

si adem´s vi a “se aproxima” a un vector propio de W ′ W .62) reciba n gran ponderaci´n.10 y v0i < 0.59) i=1 (10.62) t´rminos muy inestables. Es lo sensato: lo primero. p). lo segundo. en tanto las segundas son o multicolinealidades fundamentalmente entre los regresores. se suele o (0) desechar una multicolinealidad cuando λi < 0.54): ˆ β0 = y β ˆ∗ = −η p i=1 (10. Pero podea mos eliminar en (11. las primeras permiten despejar y ∗ .60) a (11.62) Podr´ ıamos detenernos aqu´ pero hay m´s. REGRESION SESGADA. La relaci´n (11. . .166 ´ CAP´ ITULO 10. a multicolinealidades entre las columnas de la matriz [y ∗ | W ]. Llevando (11. .60) i=1 Los estimadores deseados se obtienen llevando (11. (0) El estimador anterior pondera cada vi en proporci´n directa a v0i e o inversa a λi . cuando v0i y λi son ambos e muy peque˜os.61) v0i v (0) i λi 2 v0i p i=1 λ i (10.63) siendo P un subconjunto de (1. . La determinaci´n de P es una tarea eminentemente subjetiva. si parece evidente que se trata de una multicolinealidad o no predictiva. para evitar que el sumando correspondiente en (11. prima las multicolinealidades predictivas sobre las que lo son menos.57) obtenemos: λi 2η 2di 2 = µ = 2η 2 v0i y por tanto: v2 di = 0i λi p 2 v0i λi −1 p 2 v0i λi −1 (10.58) a (11.53)–(11. Cabe distinguir dos tipos de ı. aqu´llas en e que v0i ≫ 0 que llamaremos (multicolinealidades predictivas).49) es m´s ajustada).62) se transformar´ entonces en: o a ˆ∗ i∈P β = −η v0i v (0) i λi 2 v0i i∈P λi (10. y son aprovechables para la predicci´n. a las multicolinealidades m´s a fuertes (en que la igualdad aproximada (11. y aqu´llas en e que v0i ≈ 0 (multicolinealidades no predictivas). .10.

estudiaremos en e el Cap´ ıtulo 13 estimadores como el LASSO y garrote no negativo que pueden tambi´n verse como m´todos de regresi´n sesgada. Sec. Cap. (1975)).) o Gunst and Mason (1980). Hay tambi´n descripciones completas del m´todo en manuales e e como Troc´niz (1987a) (p´g.10. De hecho. el trabajo original es Hoerl and Kennard (1970) (ver o tambi´n Hoerl et al.6. que relaciona el o o n estimador ridge con un estimador bayesiano. 3. (1974). Los m´todos de regresi´n sesgada se contemplan a veces como alternativas e o a los m´todos de selecci´n de variables en situaciones de acusada multicolie o nealidad: v´ase por ejemplo Miller (2002). 10. Lectura recomendada Sobre regresi´n ridge. Troc´niz (1987a) Cap. Pueden verse por ejemplo Brown (1993). Hay una enorme literatura sobre los estimadores e ridge y en componentes principales. Cap. 247 y ss. 8.4.6. e e o El trabajo original regresi´n en ra´ o ıces latentes puede verse en Webster et al.3.2. 4. LECTURA RECOMENDADA 167 10. o a . 10 ´ Pe˜a (2002) Sec.

. . La variable Y es peso. para alo e g´ n c. Este ser´ de ordio a nario el m´todo a utilizar cuando hayamos de probar muchos valores e diferentes de k y dispongamos de un programa para hacer regresi´n o m´ ınimo cuadr´tica ponderada. .5 Supongamos una muestra formada por pares de valores (yi . la variable X es edad. ıa o que hace estimaci´n ridge de modo m´s c´modo para el usuario.3 Sea una muestra formada por n observaciones. se vee rifica que 1 ⊥ ui . La alteraci´n de los pesos es habitualmente m´s c´moda o a o que la creaci´n de una nueva matriz de regresores. D´se una justificaci´n para esta elecci´n de M . .ridge. Demu´strese que. u a ECM) que X. y la matriz X con p filas adicionay ˜ ˜ les: las de la matriz kIp×p . La librer´ MASS contiene no obstante la funci´n lm. se puede formar X a˜ adiendo a X las filas de una matriz unidad. . generadas por una distribuci´n con media.3 se propon´ emplear un criterio o ıa del tipo ˆ ˆ (β − β )′ M (β − β ) con M = (X ′ X).66) (10. Xn . e o o 10. . Al hacer regresi´n ordinaria de y soı o ˜ ˜ bre X obtenemos: ˆ ˜′˜ ˜ ′˜ β = (X X)−1 X y = (X X + kI) = (X X + kI) ˆ = β (k) ′ ′ −1 (X y + X y ′ ′ √ (10. . cX es mejor estimador (en terminos de error medio cuadr´tico. Basta a prolongar el vector √ con p ceros.67) −1 ˜ n Alternativamente. i = 1. ¿Es esto un caso particular de alguno de los procedimientos de estimaci´n examinados en este cap´ o ıtulo? 10.65) (10. 10. Complementos y ejercicios 10. . Las funciones lsfit y lm (disponibles a en R) admiten ambas el uso de pesos y por tanto se prestan al uso descrito.168 ´ CAP´ ITULO 10. xi ).64) kI 0 ) (10.22). Llamamos X e y a la matriz de regresores y vector respuesta as´ ampliados. o a o 10. REGRESION SESGADA.4 Es f´cil realizar regresi´n ridge incluso con programas pena o sados s´lo para hacer regresi´n m´ o o ınimo cuadr´tica ordinaria.1 Al final de la Secci´n 11.2 Demu´strese que si ui es definida como en (11. N . y realizar regresi´n ponderada (dando a cada obsero vaci´n “normal” peso unitario y a las p seudo-observaciones a˜ adidas o√ n peso k). . X1 .

5) ¿Por qu´. . n 169 10. .   . . x2  2 2  p−1  3 2 (10. . = βp−1 = 0 o (tendencia no m´s que lineal).68) X =  1 x3 x3 x3 .6. para la finalidad perseguida en el Ejere cicio 11. . sean cuales fueren los valores x1 . Dahlquist and Bj¨rck (1974). . . . .6 (↑ 11. Los nuevos vectores columna generan el misn mo espacio y el contraste puede hacerse del mismo modo que con los originales. .5. Otra posibilidad es sustituir las potencias creciente de xi en las columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977). . . no ser´ de utilidad hacer regresi´n en componentes princiıa o pales? .  . etc. . como es f´cil a a a comprobar. . Sucede sin embargo. que una matriz como la anterior adolece de una acusada multicolinealidad. a e Ambos procedimientos tienen por finalidad encontrar una base ortogonal o aproximadamente ortogonal generando el mismo espacio que los vectores columna originales de la matriz de dise˜ o. H0 : β3 = . x3    . xN . . 1 xN x2 N x3 N . LECTURA RECOMENDADA y las observaciones corresponden a N diferentes sujetos. . para obtener una nueva matriz de dise˜ o. = βp−1 = 0 (tendena cia no m´s que cuadr´tica).  . Estamos interesados en especificar la evoluci´n del peso con la edad. pero sin problemas de multicolinealidad. o o cualquier texto de An´lisis Num´rico). Podr´ o ıamos construir la matrix de dise˜ o n   1 x1 x2 x3 . Podr´ ıamos ortogonalizar los vectores columna de la matriz de dise˜ o (por ejemplo mediante el procedimiendo de Gram-Schmidt: v´ase n e Grafe (1985) o cualquier libro de Algebra Lineal). . . .10. . xp−1 1 1 1  p−1   1 x2 x2 x3 . . xp−1 N y contrastar hip´tesis tales como H0 : β2 = β3 = .

REGRESION SESGADA.170 ´ CAP´ ITULO 10. .

Todos los modelos que ajustemos son en alguna medida provisionales. y su adecuaci´n o a los datos debe ser objeto de an´lisis. como R . (1980). Myers (1990) y Troc´niz (1987a). como se ha indicado ya en el Cap´ ıtulo 13. Barnett and Lewis (1978). El desarrollo que se hace a continuaa ci´n sigue principalmente a Cook and Weisberg (1982). Otras referencias de o utilidad son Hawkins (1980). no conocemos la forma en que se generan los valores de la variable respuesta Y . Belsley et al. o 11. En lo que sigue abordaremos esta cuesti´n. Examinaremos tambi´n la cuesti´n ´ e o ıntimamente relacionada de cu´ndo una oba servaci´n (o varias) son muy influyentes. An´lisis de residuos. en el sentido de condicionar de modo o importante la estimaci´n del modelo. a En general.Cap´ ıtulo 11 Evaluaci´n del ajuste.1. o Diagn´sticos. pero se trata de estad´ 2 idea global del ajuste. o Ya hemos visto en lo que precede estad´ ısticos para evaluar la bondad de 2 ısticos que dan una ajuste de un modelo. o 171 . considerando instrumentos o para examinar el ajuste localmente (para observaciones individuales). Puede ocurrir que un R encubra el hecho de que localmente —para unas ciertas observaciones— el ajuste es muy deficiente.

De la e e igualdad (12. En particular. ˆ a Los valores pij dependen s´lo de la matrix de dise˜o y son del mayor o n inter´s. ´ Demostracion: Σǫ = E[(ˆ − E(ˆ))(ˆ − E(ˆ))′ ] ǫ ǫ ǫ ǫ ˆ Como E(ˆ) = 0. Dependiendo de los valores que tomen estos coeficientes. DIAGNOSTICOS. Los residuos no son. Veremos sin o embargo que.1) se deduce: ǫi = (1 − pii )ǫi − ˆ i=j pij ǫj (11.172 ´ ´ CAP´ ITULO 11.7) Por tanto. Sea. La forma m´s natural de examinar el ajuste consiste en considerar los a residuos ˆ ǫ = y − X β = (I − X(X ′ X)−1 X ′ )y = (I − X(X ′ X)−1 X ′ )ǫ ˆ (11. EVALUACION DEL AJUSTE.2) se reduce a: ǫ Eˆˆ ′ = E[(I − X(X ′ X)−1 X ′ )yy ′ (I − X(X ′ X)−1 X ′ ) ] ǫǫ = (I − X(X ′ X)−1 X ′ )σ 2 I = σ 2 (I − P ). ′ (11. incluso cuando las a perturbaciones lo son.1 Bajo los supuestos habituales se verifica que: 1.5). incluso cuando las perturbaciones lo son. el residuo i-´simo es un promedio ponderado de la perturbaci´n e o correspondiente a dicha observaci´n y las de todas las dem´s observaciones.5) que en general no tiene elementos iguales a lo largo de la diagonal principal. o a con ponderaciones (1 − pii ) y (−pij ). Teorema 11.1) Podemos contemplar los ǫi como “estimaciones” de las perturbaciones ǫi ˆ (inobservables) que han intervenido en la generaci´n de las Yi . (12.3) (11. 2. en general. dado que (I −P ) es una matriz no diagonal.4) (11. pij = xi ′ (X ′ X)−1 xj (11. e a . incorrelados. Los residuos no son.2) (11. El apartado 2) del enunciado es inmediato a partir de (12. como veremos m´s abajo. ǫi recoger´ con desigual fidelidad el valor de ǫi . homosced´sticos. s´lo vagamente reproduce ǫ el comportamiento de o ˆ ǫ. en general. en general.6) un elemento gen´rico de la matriz P (xi ′ denota la i-´sima fila de X).

9) son formalmente id´nticos a los ri . a pesar de su denominaci´n. por causa de su heterocedasticidad. Por tanto. Se llama studentizaci´n a u o la eliminaci´n del efecto de un par´metro de escala (aqu´ σ 2 ) mediante divio a ı si´n por una estimaci´n adecuada. pues numerador y denominador no son independientes o (ˆi ha intervenido en el c´mputo de σ 2 ). con la unica salvedad de haberse tomado e ´ 2 en el denominador un estimador σ (i) de σ 2 que no hace uso de ǫi . Esto permite. Es de notar que. . a 1 2 ri /(N − p) sigue una distribuci´n beta B( 2 . sin embargo. . De (12.´ 11.1. .3. ANALISIS DE RESIDUOS. . Tomaremos. hacer uso de la distribuci´n del m´ximo de k variables t de Student o a con correlaci´n por pares ρ (v´ase Secci´n 9. Se denomina internamente studentizados o o a los residuos definidos en (12. Mediante ˆ ˆ una elecci´n adecuada de σ 2 (i) puede lograrse que ti siga una distribuci´n o ˆ o t de Student con (N − p − 1) grados de libertad. 118) para contrastar la o e o a presencia de outliers. que ǫ o ˆ a bajo los supuestos habituales m´s el de normalidad en las perturbaciones. Los residuos MCO definidos en (12.1. 1 (N − p − 1)). 173 11. p´g. Residuos internamente studentizados. Es f´cil demostrar.1) son.8) para i = 1.2. ˆ ˆ ri = ǫi ˆ + σ 2 (1 ˆ − pii ) (11. entre otras cosas. o 2 Al tener los ri la misma varianza. σ 2 (i) = ˆ ǫ′ ˆ − ˆi (1 − pii )−1 ǫi ˆǫ ǫ ˆ (N − p − 1) (11. a o 11.1. . desaconsejables para la detecci´n de observaciones anormales o o diagn´stico de modelos de regresi´n.8). N son residuos de varianza com´n.5) se deduce que una estimaci´n de la varianza de o ǫi viene dada por σ 2 (1 − pii ). los ri no siguen una distrio buci´n t de Student. Es sin embargo f´cil corregir dicha heo o a terocedasticidad.10) lo que permite probar el siguiente. Residuos externamente studentizados. se prestan mejor a ser examinados gr´ficamente para identificar posibles observaciones an´malas o outliers. ǫi ˆ + σ 2 (i)(1 − pii ) ˆ Definidos por: ti = (11.1.

11) = ǫ Bǫ ′ (11. p´g. Supondremos que son incorrelados. Por otra parte.174 ´ ´ CAP´ ITULO 11. lo que demuestra el Teorema. p´g. podemos comparar el mayor residuo internamente studentizado con los valores cr´ ıticos en las tablas de Lund (1975). de (12. EVALUACION DEL AJUSTE. El texto Seber (1977) reproduce en su Ap´ndice E a e tablas adecuadas. con rango (= traza) (N − p − 1).9) (externamente studentizados) siguen una distribuci´n t de Student o con (N − p − 1) grados de libertad.13) (11. ´ Demostracion: Podemos escribir ǫi = G′i (I − P )ǫ siendo G′i de dimensi´n 1 × N. .3. podemos comparar o el mayor de los residuos externamente studentizados con el cuantil apropiado de la distribuci´n del m´ximo valor absoluto de k variables aleatorias t de o a Student (Secci´n 9. Llamando ´ o e a A = G′i (I − P ) tenemos que: ǫ ˆi = Aǫ Por otra parte. Teorema 11.10). ǫi ˆ σ 2 (i)(1 − pii ) ˆ = = ǫi / σ 2 (1 − pii ) ˆ σ 2 (i)/σ 2 ˆ ǫi / σ 2 (1 − pii ) ˆ ǫ ′ Bǫ /(N − p − 1)σ 2 (11. DIAGNOSTICOS. 1) y una χ2 dividida entre sus grados de libertad. es tambi´n f´cil comprobar que B es idempoa e a tente. 71).2 Con σ 2 (i) definido como en (12. Para contrastar la hip´tesis de presencia de outliers. Por consiguiente. 118). Alternativamente.3.14) Pero en el numerador y denominador de (12. bajo los supuestos haˆ bituales m´s el de normalidad en las perturbaciones.10) deducimos: (N − p − 1)ˆ 2 (i) = ǫ ′ [I − Gi [G′i (I − P )Gi ]−1 G′i ]ˆ σ ˆ ǫ ′ ′ = ǫ (I − P )[I − Gi [Gi (I − P )Gi ]−1 G′i ](I − P ) ǫ B (11.14) hay respectivamente una variable aleatoria N(0. ambas independientes.12) Es f´cil comprobar que AB = 0. con ˆ o un unico “uno” en posici´n i-´sima y ceros en los dem´s lugares. los residuos ti definidos a en (12. o emplear la desigualdad de Bonferroni. luego ǫi y σ 2 (i) son independientes (Lema a ˆ ˆ 7. como sucede a menudo a o en An´lisis de Varianza. salvo que o a podamos calcular f´cilmente su correlaci´n por pares.

1. homosced´sticos.1. obtener (N − p) residuos incorrelados. Cap. Su distribuci´n en n o N R es degenerada. etc. 202 y ss. Un tratamiento detallado puede encontrarse en Theil (1971). 2 1 . a dependiendo del subconjunto de (N − p) residuos que escojamos. Ninguna transformaci´n ortogonal puede convertir tal o matriz en diagonal de rango N. Residuos borrados. Sea β o e a ˆ(i) = (X ′ X(i) )−1 X ′ Y (i) . 175 11. son de utilidad para contrastar homoscedasticidad (suministrando una alternativa al conocido m´toe do de Goldfeld-Quandt). denominados BLUS (o ELIO).3. y su matriz de covarianzas de rango (N − p) (supuesta X de rango completo). 5. β o (i) (i) residuos borrados (deleted residuals) a los di definidos as´2 : ı ˆ di = yi − xi ′ β(i) (11. e a Una denominaci´n alternativa frecuente en la literatura es la de residuos PRESS (preo dictive sum of squares residuals).´ 11. Se llama obtenido sin dicha observaci´n. Si es posible. No es posible obtener un o vector de N residuos incorrelados y ortogonales a las columnas de X. hay multitud de maneras de hacerlo1 . pero a ˆ constre˜ido a yacer en un subespacio (N − p) dimensional. Tales residuos. y de media 0.1. normalidad. La studentizaci´n. Lo contrario es cierto si di es muy grande. La raz´n o se ve f´cilmente: ǫ ⊥ R(X) es un vector aleatorio de N coordenadas.4. Residuos BLUS. pero no la mutua correlaci´n. Hay una relaci´n muy simple que permite calcular los di sin necesidad de o realizar N regresiones diferentes sobre todos los conjuntos posibles de N − 1 V´ase Theil (1971). de hecho. 11. es decir. ANALISIS DE RESIDUOS. Sean X(i) e Y (i) la matriz de dise˜o y vector respuesta desprovistos de n ˆ(i) el vector de estimadores de los par´metros la observaci´n i-´sima.15) Un di muy peque˜o o nulo indicar´ que la observaci´n i-´sima no se n ıa o e separa en su comportamiento del recogido por la regresi´n sobre las restantes o N − 1 observaciones. elimina la heterocedastio cidad de los residuos. p´g. sin embargo. tanto interna como externa.

En todo caso.17) hace uso del Teorema A. el punto a tiene una notable influencia en la estimaci´n de o la pendiente de la recta.2. pero s´lo en parte: puede haber observaciones extraordinariao mente influyentes que resulten muy bien ajustadas por la regresi´n.18) (11.1 pone de manifiesto. es necesario saber hasta que punto observaciones aisladas influencian las estimaciones de los par´metros para obrar en consecuencia.16) a (12. An´lisis de influencia. de manera que o su eliminaci´n conduzca a resultados completamente diferentes. hasta el punto de que su omisi´n dar´ lugar a un o ıa . o cuando esto ocurre.15) se deduce que: ′ ′ di = yi − xi ′ (X(i) X(i) )−1 X(i) Y (i) ′ X(i) Y (i) ′ = yi − xi ′ [(X ′ X) − xi xi ] = yi − xi ′ (X ′ X)−1 + ′ −1 ′ (11.17) ′ (X ′ X)−1 x 1 − xi i (1 − pii )(X ′ X)−1 + (X ′ X)−1 xi xi ′ (X ′ X)−1 ′ = yi − xi ′ X(i) Y (i) 1 − pii (1 − pii )xi ′ (X ′ X)−1 + pii xi ′ (X ′ X)−1 ′ X(i) Y (i) = yi − 1 − pii 1 − pii (1 − pii )yi − xi ′ (X ′ X)−1 (X ′ Y − xi yi ) = 1 − pii ′ ′ −1 ′ yi − xi (X X) X Y = 1 − pii ǫi ˆ = 1 − pii = yi − ′ xi ′ (X ′ X)−1 X(i) Y (i) (11.16) (X X)−1 xi xi ′ (X X)−1 ′ X(i) Y (i) (11. 12.19) en que el paso de (12. En general. como el o ejemplo de la Fig. o Ello es verdad. p´g. EVALUACION DEL AJUSTE. DIAGNOSTICOS. brutos o studentizados. 230. En efecto. a Veremos en lo que sigue que di est´ relacionado con la influencia que la a observaci´n i-´sima tiene sobre la estimaci´n de los par´metros. es necesario particionar la muestra o replantear el modelo. Claramente.176 ´ ´ CAP´ ITULO 11. a Es en general indeseable que la estimaci´n de un par´metro dependa de o a modo casi exclusivo de una sola observaci´n o de unas pocas. de (12.2. a Puede parecer que para determinar qu´ observaciones influyen m´s en el e a resultado de la estimaci´n basta mirar los residuos. o e o a 11. observaciones.

en particular. Pero todav´ es posible un ıa ıa an´lisis m´s sofisticado. (11. El examen de los residuos borrados detectar´ una situaci´n como la menıa o cionada: a tendr´ un residuo borrado grande. ANALISIS DE INFLUENCIA. Abordamos este an´lisis a o a continuaci´n. 177 Figura 11.1: Una observaci´n como a tiene residuo borrado muy grande. La curva de influencia muestral. Sin embargo. En consecuencia. que tenga en cuenta.2. los par´metros a a a sobre los que una observaci´n es muy influyente.´ 11. o a y 5 0 10 15 20 25 30 10 20 x 30 40 resultado completamente diferente (la recta dibujada con trazo discontinuo).2. y o gran influencia en la pendiente de la recta de regresi´n.1. La forma obvia de examinar la influencia de la observaci´n i-´sima cono e siste en comparar los vectores de estimadores obtenidos con y sin dicha observaci´n: β y β(i) respectivamente. definimos la curva de o ˆ ˆ influencia muestral (SIC) as´ ı: ˆ ˆ SICi = (N − 1)(β − β(i) ). su residuo MCO es muy peque˜o.20) . o 11. un ex´men de los residuos n a MCO —o incluso de los residuos studentizados— dif´ ıcilmente delatar´ ninıa guna anormalidad.

debidamente amplificadas o por (N − 1). o e a Podemos relacionar (12.21) (X ′ X)−1 xi xi ′ (X ′ X)−1 (X ′ Y − xi yi ) 1 − x′i (X ′ X)−1 xi (X ′ X)−1 xi xi ′ (X ′ X)−1 X ′ Y = (X X) xi yi − 1 − pii ′ ′ −1 ′ (X X) xi xi (X X)−1 xi yi + 1 − pii ′ −1 (X X) xi ˆ (1 − pii )yi − xi ′ β + pii yi = 1 − pii ǫi ˆ = (X ′ X)−1 xi 1 − pii En consecuencia. EVALUACION DEL AJUSTE. DIAGNOSTICOS.20) es vector-valorada: recoge. (1 − pii ) ´ Demostracion: ˆ ˆ (β − β(i) ) = (X ′ X)−1 X ′ Y − ((X ′ X) − xi xi ′ )−1 (X ′ Y − xi yi ) = (X ′ X)−1 X ′ Y − (X ′ X)−1 + ′ −1 (11. Lema 11. o o Diferentes versiones de la curva de influencia disponibles en regresi´n o lineal puede encontrarse en Cook and Weisberg (1982) y Belsley et al. (1980). las diferencias que introduce la inclusi´n o o de la observaci´n i-´sima sobre cada uno de los p par´metros estimados. por la raz´n apuntada. difieren de la curva de influencia muestral presentada en el grado en que se corrige ǫi (en ˆ 2 la EIC se divide entre (1 − pii ) .1 Se verifica que (X ′ X)−1 xi ǫi ˆ ˆ ˆ (β − β(i) ) = = (X ′ X)−1 xi di .22).178 ´ ´ CAP´ ITULO 11. . en lugar de entre (1 − pii ) como en (12. Alternativas como la curva de influencia emp´ ırica EIC y otras.20) con el residuo borrado i-´simo haciendo uso del e siguiente lema. una observaci´n altera la estimaci´n tanto a o o menos cuanto m´s grande sea la muestra. ˆ ˆ SICi = (N − 1)(β − β(i) ) = (N − 1)(X ′ X)−1 xi ǫi ˆ 1 − pii y el c´lculo de la curva de influencia muestral SICi correspondiente a la a observaci´n i no requiere realizar una regresi´n para cada i. El factor (N − 1) tiene por misi´n corregir el efecto del tama˜o muestral: o n en igualdad de todo lo dem´s. a La expresi´n (12. todos los c´lculos o o a se se pueden hacer con ayuda de los residuos ordinarios y diagonal de la matriz de proyecci´n correspondientes a la matriz de proyecci´n X(X ′ X)−1 X ′ .

en general. la expresi´n σ o o (12.2. y β el computado con la muestra completa. s´lo de matiz3 .25) Se suele considerar observaciones inusuales a aqu´llas con e |DFFITi | > 2 3 p N (11. un vector p×1 (p = n´mero de par´metros). u a La coordenada k-´sima de SICi proporciona informaci´n sobre la influencia e o ˆk . Hay otras posibles elecciones de S y c con o diferencias. o . en nuestro caso. o Haciendo uso del Lema 12. p. e 11.26) Una relaci´n de las mismas puede verse en Cook and Weisberg (1982).24) siendo ri el i-´simo residuo internamente studentizado. 179 11.22) se denomina distancia de Cook y es una medida global de la influencia de la observaci´n (xi . Distancia de Cook. Tal y como se indica m´s arriba. DFFITS. Puesto ˆ que β ∼ (β .22) siendo S una matriz definida no negativa y c una constante positiva. 124.3.23) (11.2. Con esta elecci´n. Una posibilidad es o e ponderar las discrepancias en una unica expresi´n como: ´ o Di = ˆ ˆ ˆ ˆ (β − β(i) )′ S(β − β(i) ) c (11.1 tenemos que la distancia de Cook puede escribirse as´ ı: Di ǫi xi ′ (X ′ X)−1 (X ′ X)(X ′ X)−1 xi ǫi ˆ ˆ = 2 (1 − p )2 pˆ σ ii 1 2 pii = r p i 1 − pii (11.22) es: S = (X ′ X) y c = pˆ 2 . ANALISIS DE INFLUENCIA.´ 11. en ocasiones queremos una unica medida resumen de ´ ´ la influencia de una observaci´n.2. Aunque esta informaci´n de la observaci´n i-´sima en la estimaci´n de β o e o o pormenorizada sea util.2. σ 2 (X ′ X)−1 ). o ˆ(i) el vector de estimadores obtenido sin hacer uso de la observaSea β ˆ ci´n i-´sima. una elecci´n posible que aproximadamente “noro maliza” (12. pii 1 − pii Se definen as´ ı: DFFITi = ti (11. la curva de influencia en cualquiera de a sus versiones es. yi).

la desviaci´n t´ o ıpica de β √ a El criterio que se sigue es el de comparar |DFBETAij | con 2/ N. es decir.(i) (X ′ . DFBETAS. o etc. . con frecuencia ser´ conveniente construir algunos gr´ficos.3. la informaci´n que cabe obtener de ellos. En cierto modo desglosan la informaci´n e a e o que la distancia de Cook resume en un unico estad´ ´ ıstico por observaci´n. o 11.1.27) X)−1 jj Los estad´ ısticos DFBETA permiten evaluar la influencia de la observaci´n o i-´sima sobre el par´metro j-´simo. Ryan (1997) o Atkinson (1985). ˆi) o ǫ Frecuentemente. 11. En ocasiones podemos ver tambi´n en un gr´fico de ese a ta naturaleza pautas como agrupamiento de residuos.2. otros aparecer´n en contexto en los cap´ a a ıtulos dedicados a selecci´n de modelos (Cap´ o ıtulo 13) y transformaciones de las variables (cap´ ıtulo 14). Es mucha. por ejemplo. Myers (1990). Se definen por: DFBETAij = σ ˆ ˆ ˆ βj − βj. Pueden emplearse residuos ordinarios o studentizados en cualquiera de sus variedades. contrastar hip´tesis de presencia de outliers.3. las o observaciones han sido tomadas secuencialmente una despues de otra. Referencias utiles para ampliar lo que se expone a continuaci´n ´ o incluyen Troc´niz (1987a).27) es clara: la diferencia entre la estimaci´n o o o de βj -´simo con y sin la observaci´n i-´sima se divide por una estimaci´n de e o e o ˆj . 11. Presentamos a continuaci´n o o algunos de estos gr´ficos.4. An´lisis gr´fico de residuos a a Al margen del uso que pueda hacerse de los residuos en cualquiera de sus variedades para.. una brusca disminuci´n del tama˜o de los residuos a partir o n de un cierto i—.180 ´ ´ CAP´ ITULO 11. en a a efecto. (1980). que puede convenir investigar. La o motivaci´n de la expresi´n (12. el ´ ındice de cada observaci´n es el tiempo. El representar ǫ i frente a i nos podr´ poner de manifiesto rupturas temporales ıa —por ejemplo. (11. DIAGNOSTICOS. EVALUACION DEL AJUSTE. M´s detalles en Belsley et al. Gr´ficos de residuos frente a ´ a ındice de observaci´n (i.

Los residuos de ambas a regresiones recogen. o 11. Gr´ficos de residuos frente a variables excluia das (x∗ . un gr´fico de esta naturaleza puede aportar infora maci´n acerca del modo en que un regresor interviene en la generaci´n de la o o respuesta: por ejemplo. podr´ a ıamos interpretarla como relaci´n entre Y y Xj eliminado en ambas el efecto de las restantes variables. Gr´ficos de normalidad de residuos a Aunque.1 y siguiente). tendr´ ıamos pistas acerca de si dicha variable x ∗ ha de incluirse tal cual o tras alguna j transformaci´n funcional.2. 255) es de o e o a uso general con muestras grandes y distribuciones continuas —lo que incluye . ˆi) ij ǫ La idea es similar a la del apartado precedente.´ ´ 11. ˆXj |X−j ) a n ǫ La idea es similar a la del apartado anterior. Si hubiera alguna pauta en dicha gr´fica.3. dependiendo de la pauta que dibujaran los residuos.4. como se ha visto (Secci´n 12.3. indica que suele bastar o a N > 20) la aproximaci´n a la normalidad es muy buena. Se dibujan los residuos de la regresi´n de Y sobre todas las variables menos Xj sobre los residuos o de regresar dicha variable sobre todas las dem´s. las partes de Y y Xj ortogonales al subespacio generado por las restantes variables. Hay multitud de pruebas utilizables para contrastar ajuste a una distribuci´n. o 11. Gr´ficos de residuos frente a variables incluidas a (xij . ANALISIS GRAFICO DE RESIDUOS 181 11.5.3. ˆ e a entrar como funci´n exponencial. los residuos studeno tizados no siguen una distribuci´n normal. o 11. p´g. ǫ Gr´ficos de variable a˜ adida (ˆY |X−j . etc. ˆi) ǫ Los residuos ordinarios son por construcci´n ortogonales a cualquiera de o los regresores. No obstante. pero x∗ son ahora los ij valores de una variable no incluida (y candidato a serlo) en la regresi´n.3. podr´ ıamos ver una pauta de relaci´n no lineal entre o ǫi y xij .1. 174. o En su caso. si las perturbaciones o son a su vez normales. La de Kolmogorov-Smirnov (v´ase Troc´niz (1987b). p´g.3. respectivamente.3. sugiriendo que xij debe suplementarse con un t´rmino cuadr´tico. a efectos pr´cticos y para tama˜os o a n muestrales moderados (Troc´niz (1987a). o Un gr´fico de esta naturaleza permitir´ ver si la parte no explicada de la a ıa respuesta (los residuos) tiene alguna relaci´n evidente con la nueva variable.

Φ−1 (F∗ (xi ))). studentiza qqnorm(studres(modelo). sino tambi´n de o e qu´ naturaleza son y a qu´ puntos afectan. El principio es muy simple: dada una muestra {xi }N . V´ase por ejemplo Troc´niz (1987b). main = "Q_Q Plot residuos\n ext. main = "Q_Q Plot residuos\n int.). o Tan util como pueda ser una prueba estadistica convencional de normali´ dad. puede verse la llamativa desviaci´n de la normalidad en este o ultimo caso. 270. EVALUACION DEL AJUSTE. a En cualquiera de los casos se cuenta con un instrumento que permite no s´lo apreciar si hay desviaciones respecto de la normalidad.rf(200. Los dos primeros paneles recogen sendos gr´ficos o a de normalidad para una muestra normal y una muestra procedente de una F1. data = UScrime) qqnorm(stdres(modelo).rnorm(200) qqnorm(muestra. p´g. en que F∗ (xi ) es la funci´n o o de distribuci´n emp´ o ırica de la muestra. ´ > > > > > > > > > + + > > par(mfrow = c(2. 2)) muestra <. N(0.1 (gr´ficos para contraste de normalidad de rea siduos) La Figura 12. 1. en ocasiones es util un instrumento que permita visualizar la naturaleza ´ y alcance de la desviaci´n respecto a la normalidad. si existe. Hay contrastes como el de Shapiro-Wilk descrito en Shapiro and Wilk (1965) y Shapiro and Francia (1972). e e R: Ejemplo 11. studentiz . main = "Q_Q Plot de\n 200 obs.182 ´ ´ CAP´ ITULO 11. e o a El gr´fico puede hacerse manualmente sobre papel especial (“papel nora mal”) en que la escala vertical absorbe la transformaci´n Φ−1 (. 2) qqnorm(muestra.2 g. deben estar aproximdamente alineados. main = "Q-Q Plot de\n 200 obs. F con 1. Los gr´ficos en o a papel normal cumplen esta finalidad.lm(y ~ M + Ed + Po1 + M.") rm(muestra) library(MASS) data(UScrime) modelo <.F + U1 + U2 + Prob + Ineq.1)") muestra <.2 . DIAGNOSTICOS. o puede o hacerse mediante ordenador en cuyo caso basta facilitar los datos y verificar la linealidad del gr´fico resultante.l. si procede de una i=1 distribuci´n normal los puntos (xi .2 se genera mediante el fragmento de c´digo reproduo cido a continuaci´n. especializados en el contraste de la hip´tesis de normalidad. a la normal—.

3.2: Gr´ficos para contraste de normalidad a Q_Q Plot de 200 obs.2 g.´ ´ 11. studentizados −2 −1 0 1 2 Theoretical Quantiles Theoretical Quantiles . studentizados Sample Quantiles Sample Quantiles 2 2 −2 0 1 3 −2 0 1 −2 −1 0 1 2 Q_Q Plot residuos ext. ANALISIS GRAFICO DE RESIDUOS 183 Figura 11. F con 1. −3 −3 −1 1 −1 0 1 2 3 −1 0 1 2 3 Theoretical Quantiles Theoretical Quantiles Q_Q Plot residuos int.1) 3 Sample Quantiles Sample Quantiles 2 250 0 50 −3 150 Q−Q Plot de 200 obs.l. N(0.

3. deber´ ıamos observar puntos aproximadamente sobre la bisectriz: di ≈ ǫi . Gr´ficos de residuos ordinarios frente a resia duos borrados (di. o Fin del ejemplo 11.6. ˆi) ǫ Un residuo borrado no necesariamente es indicativo de que una observaci´n sea muy influyente. En general. o e Por ello se propone como gr´fico util en el diagn´stico de un modelo el de a ´ o ǫ ˆi frente a di . Puntos muy separados de la bisectriz corresponder´ a ˆ ıan observaciones que alteran sustancialmente la regresi´n.184 ´ ´ CAP´ ITULO 11. pues ello indica que al omitir la observaci´n correspondiente los resultados var´ mucho. EVALUACION DEL AJUSTE. Lo realmente sintom´tico es una gran divergencia o a entre el residuo ordinario y el residuo borrado. Puede constatarse que son casi id´nticos y que e sugieren un buen ajuste de la muestra a la hip´tesis de normalidad. o . DIAGNOSTICOS. X11cairo 2 Los siguientes dos paneles muestran los gr´ficos de normalidad a correspondientes a los residuos interna y externamente studentizados de un mismo modelo. al menos en el o ıan ajuste de la observaci´n i-´sima.

sigue una distribuci´n beta.3. 1 (N − p − 1)). B( 1 .1 Demu´strese que ri /(N −p). ANALISIS GRAFICO DE RESIDUOS Complementos y ejercicios m´s normalidad. bajo los supuestos habituales e 185 .´ ´ 11. a o 2 2 2 11.

.186 ´ ´ CAP´ ITULO 11. DIAGNOSTICOS. EVALUACION DEL AJUSTE.

o a pues. ajustamos un modelo de regresi´n teniendo una idea clara o de las variables que debemos incluir como regresores. Por otra. y debemos decidir con criterio estad´ ıstico qu´ e regresores deben ser incluidos. 1 187 . Es m´s frecuente. o 12. capaces de permitirnos comparar distintos modelos ajustados a una misma muestra. reducir´ SSE. Para enfrentar este tipo de situaciones necesitamos.1. a Las unicas excepciones son aquellas variables correspondientes a columnas de la matriz ´ de dise˜ o X ortogonales a y. el caso en que s´lo tenemos una idea aproximada de la forma adeo cuada para nuestro modelo. por una parte. o En ocasiones. o que son combinaci´n lineal exacta de columnas corresponn o dientes a variables ya presentes entre los regresores. o Es claro que no podemos preferir un modelo a otro simplemente porque su SSE es menor. Tenemos. dado que toda1 variable que incluyamos en la regresi´n. criterios de bondad de ajuste. sin a embargo. Examinaremos en esta Secci´n el primer punto. que buscar criterios m´s elaborados. necesitamos estrategias de selecci´n de variables que construyan de manera autom´tica o semi-autom´tica o a a subconjuntos de todos los modelos posibles susceptibles de incluir el “mejor”.Cap´ ıtulo 12 Selecci´n de modelos. Criterios para la comparaci´n. tenga o mucha o poca relaci´n con la variable respuesta.

son ubicuas en la literatura estad´ ıstica. 77): o a Qh = SSEp − SSEp+1 N − p − 1 × SSEp+1 1 (12. o a Teorema 12.2. o N −1 N −p 2 Se define el coeficiente de determinaci´n corregido as´ o ı: 2 Rp = 1 − [1 − Rp ] × 2 (12.1 El estad´ ıstico Rp crece con la introducci´n de un par´metro en la ecuaci´n de regresi´n si el estad´ o o ıstico Qh asociado al contraste de significaci´n de dicho par´metro verifica Qh > 1. el segundo es mon´tono creciente. el o 2 producto de ambos puede crecer o decrecer al crecer p. 2 ´ Es frecuente por ello utilizar Rp como criterio de ajuste. . 12. a o 3 Sigue a Haitovsky (1969).1) en la forma: o 2 1 − Rp = [1 − Rp ] × 2 N −1 N −p SSEp N − 1 = × SST N −p (12. Si reescribimos la ecuaci´n (13.3) vemos que mientras que el primer t´rmino de la derecha de (13. veremos sin embargo que debe complementarse con otros criterios.188 ´ CAP´ ITULO 12.5) 2 2 2 (Rp+1 − Rp ) N − p − 1 = × 2 1 − Rp+1 1 2 Expresiones como la anterior con un t´rmino funci´n de la suma de cuadrados de e o los residuos y otro interpretable como “penalizaci´n” por la introducci´n de par´metros o o a adicionales. como muchos criterios de ajuste utilizados sobre todo en el an´lisis de series temporales: Criterio de Informaci´n de Akaike (AIC). Maximizaci´n de Rp . o a ´ Demostracion:3 Para contrastar la significaci´n del (p + 1)-´simo par´metro. BIC.1) haciendo referencia el sub´ ındice p al n´mero de regresores presentes en el u modelo.4) (12. FPE.1.3) es mon´tono e o no creciente con p.2) (12. Su exclusiva aplicaci´n da lugar con gran probabilidad a modelos sobreparametrizados. etc.1. Por consiguiente. Aunque util. o como pone de manifiesto el siguiente teorema. empleamos o e a (Secci´n 7. La Cp de Mallows que se examina m´s a abajo tiene la misma forma. SELECCION DE MODELOS. p´g.

de donde: 2 2 2 (1 − Rp+1 )Qh = (Rp+1 − Rp )(N − p − 1) 189 (12.10) llegamos a: o Rp+1 = 1 − 2 2 [1 − Rp ] N −p−1+Qh N −p−1 × N −1 N −p−1 (12.13) (12.7) 2 2 Qh + (N − p − 1)Rp = Rp+1 [(N − p − 1) + Qh ] 2 Despejando Rp+1 tenemos: 2 Qh + (N − p − 1)Rp (N − p − 1) + Qh 1 2 Q + Rp N −p−1 h 1 1 + N −p−1 Qh 2 2 Rp+1 = (12.10) = De (13.12) (12.14) que Rp+1 ≥ Rp si Qh > 1. Si Qh > 1. el resultado es mayor que Rp .11) Sustituyendo en esta expresi´n (13.14) fuera la unidad —lo que acontece cuando e e 2 Qh = 1—.14) N −1 N − p − 1 + Qh N −p 2 N −1 = 1 − [1 − Rp ] N − p N − p − 1 + Qh 2 = 1 − [1 − Rp ] Rp 2 2 2 t Es evidente de (13. CRITERIOS PARA LA COMPARACION.50 incluso cuando h : βi = 0 es cierta. Obs´rvese que si el t´rmino t en (13.8) 2 2 2 Qh − Qh Rp+1 = (N − p − 1)Rp+1 − (N − p − 1)Rp (12.14). Maximizar o o Rp implica introducir en la ecuaci´n de regresi´n todos aquellos regresores cuyo estad´ ıstico Qh sea superior a la unidad.9) (12. Consecuentemente.´ 12. como s´lo ıa o multiplica al sustraendo en (13.1. y viceversa4 . el lado derecho ser´ precisamente Rp . 2 4 2 . t es menor que 1 y. el emplear este criterio en exclusiva conducir´ con gran probabilidad al ajuste de modelos ıa sobreparametrizados.10) y de la definici´n de Rp+1 se deduce que: o 2 Rp+1 = 1 − [1 − Rp+1 ] × 2 N −1 (N − p − 1) (12.6) (12. pero esto ocurre con probabilidad ≈ 0.

p Falta el t´rmino de sesgo. dicho modelo a ˆ (p) . Criterio Cp de Mallows. Una vez estimado. no obstante lo cual ajustamos el modelo ˜˜ equivocado Y = X β + ǫ con p par´metros. ˜ ˜′˜ ˜′ E ǫ ′ (I − X(X X)−1 X )ǫ .19) ′ ˜ ˜′˜ ˜′ ˜ ˜′˜ ˜′ ˆ ˆ E[(Y − Y (p) ) (Y − Y (p) )] = E (X β − X(X X)−1 X X β ) (X β − X(X X)−1 X X β ) SSE (Sesgo)2 ′ + Por consiguiente.1. N (12.17) (12.190 ´ CAP´ ITULO 12. Como e ˆ ˜ ˜′˜ ˜′ ˜ ˜′˜ ˜′ Y (p) = X(X X)−1 X Y = X(X X)−1 X (X β + ǫ ). 12. El primer t´rmino no ofrece dificultad. Observemos que e (12.2.18) ′ ˆ ˆ ˆ ˆ ˜ ˜′˜ ˜′˜ ˜′˜ ˜′ ((Y (p) − E(Y (p) )) ((Y (p) − E(Y (p) )) = ǫ X(X X)−1 X X(X X)−1 X ǫ ˜ ˜′˜ ˜′ = ǫ X(X X)−1 X ǫ ∼ σ 2 χ2 . (Sesgo)2 = E[SSE] − E[σ 2 χ2 −p ]. SELECCION DE MODELOS. Un criterio para evaluar la adecuaci´n del suministra las predicciones Y o modelo estimado al real.15) ˆ que sumando y restando E(Y (p) ) dentro de cada par´ntesis podemos descome poner as´ ı: ′ ˆ ˆ ˆ ˆ ECM = E (Y (p) − E(Y (p) )) (Y (p) − E(Y (p) )) ˆ ˆ +E (E(Y (p) ) − X β ) (E(Y (p) ) − X β ) ˆ = Var(Y (p) ) + (Sesgo)2 . tenemos que ˆ ˜ ˜′˜ ˜′ E[Y (p) ] = X(X X)−1 X X β y ′ (12.20) . Supongamos que la variable aleatoria Y se genera realmente como prescribe el modelo Y = X β + ǫ .16) (12. ser´ el error cuadr´tico medio ıa a ′ ˆ ˆ ECM = E(Y (p) − X β ) (Y (p) − X β ) (12.

1. al menos.24) ya que N es constante.22) (12. y por consiguiente: ECM SSE =E − N + 2p.2). Incluso aunque entre dichos (p + k) regresores haya algunos innecesarios. La maximizaci´n de R2 .17) tenemos entonces que ECM = E SSE − σ 2 χ2 −p + E σ 2 χ2 N p = E[SSE] − σ (N − p) + σ p.´ 12. todo lo que podemos hacer es reemplazar (13. El criterio Cp de Mallows ˆ es m´s restrictivo5 . e o De acuerdo con el criterio de Mallows. ´ o Para que se verifique la aproximaci´n en (13. o o introduciremos un nuevo regresor si ´ste puede “pagar” su inclusi´n e o 2 .25) es otro ejemplo de criterio de ajuste con o penalizaci´n. t´ ıpicamente. estando entre los (p + k) regresores inclu´ ıdos los p necesarios. o dada una ecuaci´n de regresi´n con unos ciertos regresores presentes. ajustando el modelo m´s parametrizado (esto minimiza el riesgo de a 5 . o a Cp = SSE + 2p. o a a pero esta reducci´n tiene un precio: el incremento del segundo sumando de o (13. σ2 2 2 191 (12. a La comparaci´n es aproximada tan s´lo. La expresi´n (13. 2 σ σ2 Minimizar esta ultima expresi´n es lo mismo que minimizar ´ o E SSE + 2p.21) (12.25) en 2. Como quiera que el valor medio en la expresi´n o anterior no puede ser calculado y σ es desconocida. reduce quiz´ SSE. σ 2 es insesgado. CRITERIOS PARA LA COMPARACION. Sustituyendo en (13. el precio que se paga por emplear m´s par´metros ˆ a a de los debidos en la estimaci´n de σ 2 es una reducci´n en el n´mero de grados o o u de libertad (v´ase Secci´n 6. lo que se consigue si la muestra es lo suficientemente grande y σ 2 = ˆ (N −p−k) SSE /(N − p − k).25) A esta ultima expresi´n se la conoce como Cp de Mallows. El efecto neto indica si el nuevo regresor es o no deseable. reduciendo SSE en. El valor de σ 2 que se emplea en el criterio Cp o o ˆ se obtiene. σ2 ˆ (12.25) es preciso que σ 2 ≈ o ˆ 2 σ .24) por la expresi´n an´loga.1 De acuerdo con el criterio Cp de Mallows. dos veces σ ˆ o p en cambio. Observaci´n 12.23) (12. requerir´ en an´loga situaci´n introducir el mismo regresor ıa a o si disminuye SSE en al menos una vez σ 2 . Cada nuevo par´metro que introducimos. seleccionaremos el modelo que minimice Cp .

Secci´n ??. como en la Cp de Mallows. Observaci´n 12. o u a 12. o a ¿Cu´n afilada debe ser la navaja de Ockham? En el caso del modelo de a regresi´n lineal. Es un hecho notable y llamativo que por diversas v´ se llegue siempre a an´logos resultados. est´ el criterio AIC (Akaike’s a a Information Criterion. el uso o de los criterios AIC y Cp dar´ resultados exactamente equivalentes si conoci´ıa e 2 ramos σ (ambos criterios difieren en tal caso en una constante. . 185). al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (13. argumentos alternativos llevan a criterios equivalentes o similares al Cp . que tienen en com´ n el ıas a u medir la complejidad del modelo empleado como una funci´n lineal o o aproximadamente lineal del n´ mero de sus par´metros. En la Secci´n 13. aunque seguramente nos hace despilfarrar algunos o 2 grados de libertad). el segundo penaliza el n´mero de par´metros en θ . si se prefiere. Akaike (1991)). O. el criterio Cp suministra seguramente una navaja con o el filo adecuado.4 se introduce la idea o o de la validaci´n cruzada. Una o explicaci´n simplificada que sigue esencialmente a de Leeuw (2000) puede o encontrarse en Tusell (2003). El criterio AIC no obstante es de ´mbito mucho m´s a a introducir sesgos en la estimaci´n de σ 2 . ambos criterios pueden diferir.1. que proporciona una forma alternativa de o evaluar la bondad de ajuste de un modelo soslayando el empleo de una penalizaci´n basada en el n´ mero de par´metros. es decir. m´s sobre u a a esto en la Secci´n 13.2 Un estad´ o ıstico se enfrenta con frecuencia a este dilema en su trabajo. pero son a efectos pr´ca ticos intercambiables. si la disminuci´n SSEp − SSEp+1 en la suma o de cuadrados de los residuos es mayor que σ 2 = SSEp+1 /(N − p − 1). Consiste en seleccionar el modelo minimizando a AIC(p) = −2 loge m´x verosimilitud(x . varianza estimada ˆ en el modelo con p + 1 regresores. aunque v´lido de modo mucho a m´s general y motivado de modo muy diferente. Criterio AIC Relacionado con el criterio Cp de Mallows. θ ) + 2p θ El primer t´rmino en la expresi´n anterior es. Por el contrario.1. e o una medida de bondad de ajuste (disminuye al crecer el m´ximo de la veroa similitud). SELECCION DE MODELOS.1. Puede verse u a una justificaci´n en Akaike (1972) (y en Akaike (1974).4). Cuando σ 2 es desconocida y ha de ser estimada a a partir de los datos. o Cuando consideremos modelos de regresi´n lineal con normalidad.3.192 ´ CAP´ ITULO 12. ¿Hasta d´nde procede llevar la complejidad o del modelo a emplear? ¿Qu´ mejora en el ajuste de un modelo a la e muestra justifica la adici´n de un nuevo par´metro?.5. ver Venables and Ripley (1999a). o An Information Criterion). p´g.

4. una vez que hemos decidido por el procediı? miento anterior de fraccionar la muestra en dos para seleccionar el modelo mejor. Actuando as´ o o ı. quiz´. o 12. al incrementar el n´mero de par´metros. 193 general.´ 12. CRITERIOS PARA LA COMPARACION. o Ejemplo 12. n Tenemos una colecci´n de K modelos Mi . . ajustando no s´lo el comportamiento a o predecible sino incluso el puramente aleatorio Se adapta muy bien a una muestra —la que hemos empleado para estimarlo—. . estar´ ıamos a salvo de impresiones excesivamente optimistas: la suma de cuadrados de los residuos o R2 que calcul´ramos para cada modelo reflejar´ a ıa su capacidad de generalizaci´n: su comportamiento con otras observaciones o distintas de las que han servido para estimarlo. posiblemente o con diferente n´ mero de par´metros. . podemos emplear todas las observaciones en reestimarlo. u a El problema consiste en que. y proceder as´ n ı: 1. K. Lamentablemente. A y B. esto requiere dividir nuestra disponibilidad de observaciones en dos grupos: uno para estimar y otro para validar. Podemos dividir la muestra en dos (o m´s) partes y a emplear todas ellas en la validaci´n. de tama˜ os respectivos NA = NB = 50. Con la muestra A estimaremos cada uno de los modelos Mi .1 Consideremos una muestra de tama˜ o N = 100. sea o no normal la distribuci´n generadora de la muestra.1. o o ıa a estimar mejor. ¿Realmente es esto as´ No. i = 1. R . y puede ser utilizado dondequiera que tengamos una verosimilitud. La idea de la validaci´n cruzada incorpora una mejora adicional al plano teamiento anterior. . a Una soluci´n consistir´ en estimar los modelos con una muestra (muestra o ıa de entrenamiento o aprendizaje) y evaluarlos examinando su comportamiento en la predicci´n de otra diferente (muestra de validaci´n). el u a modelo puede “seguir” m´s a la muestra. El obtener un diagn´stico realista por este procedimiento requiere sacrificar en aras de o la validaci´n una preciosa fracci´n de muestra que habr´ permitido. o similar) estriba en que hay que tomar en consideraci´n el o diferente n´mero de par´metros en cada modelo. pero quiz´ no a otras. Podemos dividir la muestra en dos trozos. .1. Residuos borrados y validaci´n cruzada o Hemos visto que el problema de emplear como criterio para la selecci´n o de modelos alguno de los estad´ ısticos de ajuste obvios (suma de cuadrados 2 residual. El ejemplo que sigue detalla los pasos a o seguir haciendo validaci´n cruzada por mitades. de entre los que queremos seu a leccionar uno. No tenemos necesariamente que usar s´lo una fracci´n de o o la muestra para validar.

o a o e o utilizando la notaci´n de dicha Secci´n.4. y realizar el proceso ıa dejando cada vez fuera una unica observaci´n (validaci´n cruzada de ´ o o tipo leave one out). Promediando los s valores SSEi obtendr´ ıamos el SSEi del modelo Mi . la diferencia entre la preo dicci´n de la observaci´n i-´sima haciendo uso de todas las restantes o o e y el valor observado de la misma es. Examinaremos el ajuste de los modelos as´ estimados a la muesı tra B. 6. cuando se utiliza en predicci´n sobre una muestra diferente de la que se ha empleado o en su estimaci´n. Podemos promediar ambas para obtener un o (A) (B) 1 unico estad´ ´ ıstico. podr´ ıamos dividirla en s partes. simplemente. o o ℓ SSEi = d2 ℓ (A) (B) (ℓ = 1. el residuo borrado. . 3. SELECCION DE MODELOS. computando sumas de cuadrados residuales para cada uno (B) de los modelos.4). SSEi . El caso extremo consistir´ en tomar s = N . sin embargo. Con la muestra B estimaremos cada uno de los modelos Mi . SSEi 5.1. Tanto SSEi como SSEi son estimaciones de las sumas de cuadrados de los residuos del modelo Mi . . e a o 6 . . ℓ=1 SSEi = N −1 El modelo seleccionado es aqu´l al que corresponde un SSEi m´s e a peque˜ o6 . . N ) N ℓ SSEi . En muchas situaciones esta estrategia puede requerir un esfuerzo de c´lculo formidable: ¡cada modelo ha de ser reestimado (N −1) veces. . . a dejando cada vez fuera de la muestra de estimacion una observaci´n o diferente! En regresi´n lineal. . 2. Seleccionaremos el modelo Mi tal que SSEi es m´ ınimo.194 ´ CAP´ ITULO 12. . de c´moda y r´pida obtenci´n (v´ase Secci´n 12. s. n N´tese que SSEi es lo que se conoce tambi´n como suma de cuadrados de los residuos o e predictiva o PRESS. SSEi = 2 (SSEi + SSEi ). 4. Observemos que nada nos constri˜ e a dividir la muestra en dos parn tes. Examinaremos el ajuste de los modelos as´ estimados a la muesı tra A. ℓ = 1.1. Por tanto. y proceder exactamente del mismo modo: utilizar´ ıamos sucesivamente s − 1 partes para estimar y la res(ℓ) tante para evaluar SSEi . (suma de cuadrados de los residuos al predecir en la muestra ℓ mediante el modelo Mi estimado (ℓ) con las restantes observaciones). computando sumas de cuadrados residuales para cada uno (A) de los modelos. v´ase nota a pie de p´gina de la Secci´n 12.

3 Esta estrategia. (12. Complejidad estoc´stica y longitud de descripa ci´n m´ o ınima∗ En esencia.. y detalles en Legg (1996)). La longitud total de descripci´n de la muestra y cuando o hacemos uso del modelo probabil´ ıstico Mk haciendo uso del vector de par´a metros θ k es entonces MDL(Mk . medida por el n´mero de sus par´metros. u La aproximaci´n propuesta exige medir la longitud de la descripci´n que o o hagamos. un modelo que o no incluya los par´metros suficientes dara un ajuste susceptible de mejora. y ) = (C´digo necesario para y ) o + (12. CRITERIOS PARA LA COMPARACION.. Observaci´n 12. u a Sabemos que un modelo lineal suficientemente parametrizado podr´ ajustar ıa perfectamente la muestra. Adem´s de codificar los datos tenemos que codificar los par´metros del moa a delo probabilistico.26) (C´digo necesario para θ k ). En esencia. y podemos para ello hacer uso de la Teor´ de la Informaci´n. dado o un modelo probabilistico podemos describir o codificar unos datos de modo compacto asignando a los m´s “raros” (menos probables) los c´digos m´s a o a largos.27) o . 195 Fin del ejemplo 12. seleccionar un modelo entra˜a adoptar un compromiso entre la n bondad de ajuste y la complejidad.para la a “x”). de sentido com´ n. ıa o No podemos elaborar esta cuesti´n con detalle aqu´ (v´ase una buena ino ı e troducci´n en Rissanen (1989).5. a Una aproximaci´n intuitivamente atrayente al problema es la siguiente: o tratemos de dar una descripci´n tan corta como sea posible de la evidencia o (la muestra). es la que o u hace que al codificar en el alfabeto telegr´fico de Morse la letra “e” a (muy frecuente en ingl´s) se adoptara el c´digo .1. Por el contrario.´ 12.1. Esto puede de nuevo verse como una apelaci´n al principio de o Ockham: construir “explicaciones” de la realidad que hacen uso del m´ ınimo n´mero de entidades. pero que ello no significa que sea id´neo: puede o tener muy poca capacidad de generalizaci´n. reservando los c´e o o digos m´s largos para caracteres menos frecuentes (ej: -.. a Se trata de alcanzar un equilibrio entre los dos objetivos en contradicci´n: o un modelo dando buen ajuste y con los m´ ınimos par´metros precisos.

pero si p = 10. emplear procedimientos m´s sofisticados. Un modelo con un perfecto ajuste ıan tendr´ un primer sumando nulo (porque las y se deducir´ exactamente ıa ıan del modelo. no origine ıda una reducci´n significativa de SSE cuando la introducimos despu´s de Xj . Un mal ajuste har´ que el primer sumando sea grande. .2. Relacionamos a algunos de los m´s utilizados. que debiera ser inclu´ en el modelo. o e Si esto ocurre. el criterio MDL da resultados ´ o ıntimamente emparentados asint´ticamente con los precedentes (suma de cuadrados o PRESS y Cp ).196 ´ CAP´ ITULO 12. puede bien ıa suceder que una variable Xi . a 12. v´anse detalles en Rissanen (1989). a Pi´nsese que con p regresores pueden estimarse 2p − 1 diferentes regresiones. ) originada por la introducci´n de cada o variable. pero requerir´ quiz´ muchos ıan ıa a par´metros incrementando el segundo sumando. 5. y no requerir´ ser codificadas). Rp . e Si p = 5. Una posible soluci´n ser´ dados p regresores. formar todos los posibles o ıa. parezca mejor. Regresi´n sobre todos los subconjuntos de vao riables. e 12. SELECCION DE MODELOS. .27). y retener como regresores todas aquellas variables que dieran lugar a una reducci´n significativa. y para p > 20 habr´ que ıa . a menos que las columnas de la matriz de dise˜o n X sean ortogonales. esta estrategia no tiene en o cuenta el hecho de que. Se impone. subconjuntos de regresores y efectuar todas las posibles regresiones. pues.1. de acuerdo con el criterio de bondad de ajuste que hayamos e adoptado. El inconveniente es el gran volumen de c´lculo que es preciso realizar. En el caso de modelos de regresi´n. 2p − 1 = 1023. Desgraciadamente. De acuerdo con el p´rrafo anterior. Cp . . reteniendo aqu´lla que. los datos muestrales se a desv´ mucho de lo que el modelo predice. la adopci´n de una estrategia ingenua a o podr´ dificultar el hallazgo de un modelo adecuado. Cap. a El criterio MDL propone seleccionar el modelo Mk que minimiza (13.2. Por ejemplo. Selecci´n de variables. es claro que Xi no mostrar´ sus buenas condiciones como a regresor mas que si es introducida con Xj ausente. la reducci´n en SSE originada por la inclusi´n de una o o variable depende de qu´ otras variables est´n ya presentes en la ecuaci´n e e o ajustada. o Una aproximaci´n ingenua al problema consistir´ en estudiar la reducci´n o ıa o 2 en un cierto criterio (SSE. 2p − 1 = 31.

por orden de mayor contribuci´n a disminuir SSE. y se van o excluyendo de uno en uno. que o o incluye algunas variables (regresores incluidos) y no otras (regresores ausentes). Describiremos el procedimiento de regresi´n escalonada “hacia o adelante” (forward selection procedure). se alterna la inclusi´n y exclusi´n de variables en la recta de regresi´n. En caso contrario. se trata de introducir las variables de una en una. Si no quedan regresores ausentes. reiniciar los c´lculos en 1). Calcular los estad´ ısticos Qh para todos los regresores ausentes (h : βi = 0).2. tendremos una ecuaci´n de regresi´n provisional. o o 3. pero a´n as´ ´ste puede resultar excesivo. Hay procedimientos para o 7 reducir y agilizar el c´lculo . a u ıe 12. Q∗ ≥ F . con muy poco trabajo por parte o o o del analista.2. Sea Q∗ el m´ximo estad´ a ıstico de los calculados en 1). mientras el incremento en SSE que dicha exclusi´n o origine no sea excesivo. a a pero se comienza con una ecuaci´n que incluye todos los regresores. a En suma.´ 12. siendo h h F un umbral prefijado. por fin. pag. 197 realizar por encima de un mill´n de regresiones. finalizar el procedimiento. 2. Regresi´n escalonada (stepwise regression). a En cada momento. e . o Si. El modo de operar es entonces el siguiente: u 1. la regresi´n escalonada “hacia atr´s” o a (backward elimination) o mixta son variantes f´ciles de entender. y mientras la disminuci´n sea apreciao o ble. la ecuaci´n provisional es la definitiva. En el procedimiento m´ ıxto. por el contrario.2. El procedimiento de regresion “hacia atr´s” procede de manera an´loga. Si Q∗ < F . se introduce la variable correspondiente h en la ecuaci´n de regresi´n. finalizar. o Se trata de un procedimiento muy utilizado que. la ecuaci´n de regresi´n no incluye o o ning´n regresor. 349 y ss. ello permite que o o o una variable incluida sea posteriormente desechada cuando la presencia de otra u otras hacen su contribuci´n a la reducci´n de SSE insignificante. aunque no garantiza obtener la mejor ecuaci´n de regresi´n. o o Los criterios de entrada y salida de variables se fijan especificando sendos valores Fentrada y Fsalida que deben ser superados (no alcanzados) por el Q∗ correspondiente para que una variable pueda ser incluida (excluida) h 7 V´ase Seber (1977). Al comienzo del procedimiento. SELECCION DE VARIABLES. suministra modelos que habitualmente o o son ´ptimos o muy pr´ximos al ´ptimo.

o un procedimiento o o mixto arbitrariamente pr´ximo a cualquiera de los dos extremos8 . Mediante su seleco ci´n adecuada. con lo que se impide el abandono de cualquier variable introducida). El nivel de significaci´n asociado al contraste impl´ o ıcito en la inclusi´n o exclusi´n de un regresor no es la probabilidad a la derecha (o izquierda) de o o Fentrada (o Fsalida ) en una distribuci´n F con grados de libertad apropiados. “hacia atr´s” puro (fijando Fentrada muy grande. 5. en la regresi´n. 20) betas[c(3.data. ncol = 20) betas <. Ambos umbrales pueden ser el mismo.as. obs´rvese que en ıan e un procedimiento stepwise se selecciona para entrar o salir de la ecuaci´n de regresi´n o o la variable con un Qh mayor (menor). un Qh cualquiera se distribuye como una F de Snedecor con grados de libertad a apropiados. hay muchos betas no significativos: > summary(completo) Call: lm(formula = y ~ .seed(123457) X <. 7.frame(cbind(X.1:4 y <. SELECCION DE MODELOS. y)) dimnames(datos)[[2]][21] <.matrix(rnorm(1000). El mayor (o menor) de los estad´ ısticos Qh en cada etapa. hay muchos betas no significativos.. stepAIC (en el paquete MASS) para hacer regrecriterios R o p si´n escalonada con criterio AIC y algunas otras funciones ancilares. o 8 . y comenzando con una a ecuaci´n de regresi´n que incluye todas las variables).198 ´ CAP´ ITULO 12.lm(y ~ .1 (selecci´n autom´tica de modelos) El ejemo a plo siguiente muestra el uso de las funciones leaps (en el paquete del mismo nombre) para hacer regresi´n sobre todos los subconjuntos con o 2 . R2 ´ C . o R: Ejemplo 12. Como puee de verse..X %*% betas + rnorm(50) datos <. datos) Como puede verse. o Orimero generamos datos sint´ticos del modo habitual. puede lograrse un algoritmo “hacia adelante” puro (fijando o Fsalida = 0. 12)] <. sigue una distribuci´n o diferente (v´ase Cap´ e ıtulo 9).rep(0. Bajo la hip´tesis de nulidad del correspondiente o par´metro. data = datos) Residuals: Podr´ pensarse en fijar niveles de significaci´n para la entrada y salida de variables. > > + > > > > + > > set. ıa o Esto no se hace porque ser´ considerablemente arduos de computar."y" completo <.

5e-16 *** V8 -0.0162 0.91 8.2227 V1 0.1e-11 *** V6 1.1137 0.0238 0.2328 V17 0.32 V12 18.0191 0.2108 V19 0.2022 V6 0.0786 0.17 0. Min 1Q Median -1.1949 t value Pr(>|t|) (Intercept) -0.2633 0.81 V10 -1.25 < 2e-16 *** V13 0.829 199 Coefficients: Estimate Std.1074 0.98 6.107 Max 2.0374 0.1972 V18 -0.2105 V10 -0.01 0.1875 V8 -0.2067 V5 2.2212 V13 0.3076 V16 0.9e-05 *** V4 -0.11 0.28 V11 -1.2603 V3 1.24 0.87 V2 0.0514 0.0706 0.2161 V14 -0.38 0.2422 V2 0.2397 V4 -0.53 0.2804 V9 0.1206 0.24 V7 15.2148 V11 -0.2569 V20 0.66 0.204 3Q 0.0035 0.0879 0.75 V1 0.2053 0.´ 12.2367 0.70 V9 0.51 V3 4.19 0.0408 0.2115 0.2.2042 V12 4.60 . SELECCION DE VARIABLES.550 -0.96 2.10 0.2163 V15 0.1720 0.0318 0.91 V5 9.2217 V7 2.916 -0.9970 0.32 0. Error (Intercept) -0.1884 0.

y = y.³ 0.leaps(x = X.87 0.977.73 0.r$size.16 V18 -0.34 V20 0. main = "Cp versus talla modelos".2 on 29 degrees of freedom Multiple R-squared: 0.52 V17 0. codes: 0 ³***³ 0. height = 9) opar <.leaps(x = X. Con 15 regresores. mods$Cp. + method = "Cp") El objeto mods contiene informaci´n sobre todos los modelos estimao 2 u dos.200 ´ CAP´ ITULO 12. main = "R2 versus talla modelos".1 ³ ³ 1 Residual standard error: 1.01 ³*³ 0.37 V19 0. horizontal = FALSE. es un problema de talla modesta. Podemos ver como var´ Cp y R con el n´ mero de regresores: ıa > + + > > > + + + > + > + + + > > postscript(file = "demo10.61 0. y = y.93 0.961 F-statistic: 61 on 20 and 29 DF.05 ³.r <. method = "adjr2") plot(mods. V14 -0.06 V16 0. SELECCION DE MODELOS. > library(leaps) > mods <.eps". ylab = expression(bar(R)^2)) par(opar) dev.off() .par() par(mfrow = c(2.95 0. width = 5. Adjusted R-squared: 0.34 0. mods. 1)) plot(mods$size.001 ³**³ 0. xlab = expression(p). p-value: <2e-16 Utilizamos ahora la funci´n leaps para hacer regresi´n sobre todos o o los subconjuntos. xlab = expression(p).71 0. ylab = expression(C[p])) mods.98 V15 0.08 --Signif.r$adjr2.

mods$which[mejores. ] dimnames(regres)[[2]] <.order(mods$Cp)[1:15] regres <.dimnames(datos)[[2]][1:20] Cp <. Cp) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 V11 V12 V13 V14 V15 V16 V17 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 . > > + > > > 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 201 mejores <. el 2 a criterio R tiende a seleccionar modelos m´s parametrizados. SELECCION DE VARIABLES.2. X11cairo 2 La Figura 13.´ 12. Se aprecia que. aunque de forma no muy notoria en este caso.mods$Cp[mejores] cbind(regres.1 muestra el comportamiento t´ ıpico de los criterios Cp y 2 R .

4 0.202 ´ CAP´ ITULO 12.2 0.0 R2 0.8 5 10 p 15 20 .0 0.1: Valores de Cp y R para 141 modelos ajustados a los datos UScrime Cp versus talla modelos 0 200 600 Cp 1000 5 10 p 15 20 R2 versus talla modelos 1.6 0. 2 Figura 12. SELECCION DE MODELOS.

6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 0 1 0 0 0 1 1 0 1 0 0 1 1 0 0 V18 V19 V20 Cp 0 0 0 -4.16976 V7 3.213 0 0 0 -3.476 0 0 0 -2. .611 -0.225 0 0 0 -3.550 0 0 0 -2.18316 V3 1.762 0.455 0 0 0 -3.491 0 0 0 -3. Error (Intercept) -0.237 3Q 0.122 Max 2.368 0 0 0 -2.548 0 0 0 -2.00741 0.2.14772 .03573 0.lm(y ~ V3 + V4 + + V5 + V7 + V10 + V12 + + V16 + V17.405 0 0 0 -2. data = datos) Residuals: Min 1Q Median -1.627 Coefficients: Estimate Std. + V1 + V2) > summary(mod2) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V10 + V12 + V16 + V17 + V1 + V2.16766 V5 2. data = datos) > mod2 <.05622 0.453 0 0 0 -3.365 0 0 0 -2. SELECCION DE VARIABLES.518 0 0 0 -2.19721 V4 -0.654 0 0 0 -2.03931 0.08674 0. ~ + .´ 12.150 0 1 0 -2.335 0 0 0 1 0 0 203 > mod1 <.update(mod1.

Error (Intercept) 0.56 0.0539 3Q 0.90 0.03 0.5e-06 *** V4 -0. SELECCION DE MODELOS.00659 0.³ 0.7177 Coefficients: Estimate Std.72 V1 0.1e-14 *** V7 20. Adjusted R-squared: 0.V17) > summary(mod3) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V12.9898 0.04 0.1 ³ ³ 1 Residual standard error: 1.1596 V3 1.0693 0.18257 -0.08436 0.38 V2 -0.96 V5 12.18483 0.001 ³**³ 0.V10 . p-value: <2e-16 > mod3 <.15 V12 22.51 2.204 V10 V12 V16 V17 V1 V2 ´ CAP´ ITULO 12.1603 . data = datos) Residuals: Min 1Q -2.97 --Signif.01 1.05185 0.5956 Median 0.0738 0.16370 0. codes: 0 ³***³ 0.1819 V4 -0.6955 Max 2.V16 .14567 0.0289 -0.0410 0.11 on 39 degrees of freedom Multiple R-squared: 0. .22 < 2e-16 *** V16 0.85 V3 5. ~ + .10685 0.58 V17 0.36 0.1567 V5 1.47 0.69 < 2e-16 *** V10 -1.27977 0. .update(mod1.966 F-statistic: 141 on 10 and 39 DF.05 ³.01 ³*³ 0.19088 4.15101 0.973.20 0.20666 t value Pr(>|t|) (Intercept) -0. -0.

46 0.´ 12.77 < 2e-16 *** V12 25. datos.01 ³*³ 0.1 ³ ³ 1 Residual standard error: 1.09 on 44 degrees of freedom Multiple R-squared: 0.2.1642 t value Pr(>|t|) (Intercept) 0. p-value: <2e-16 > m <.88 5. V7 V12 205 3. + method = "forward") > summary(m) Subset selection object Call: regsubsets..967 F-statistic: 293 on 5 and 44 DF. Adjusted R-squared: 0.05 ³.regsubsets(y ~ .971.formula(y ~ ..1357 0. SELECCION DE VARIABLES.65 V3 5.79 V5 12.26 0.19 < 2e-16 *** --Signif.1e-07 *** V4 -0.1400 4. codes: 0 ³***³ 0.7e-16 *** V7 21.³ 0. method = "forward") 20 Variables (and intercept) Forced in Forced out V1 FALSE FALSE V2 FALSE FALSE V3 FALSE FALSE V4 FALSE FALSE V5 FALSE FALSE V6 FALSE FALSE V7 FALSE FALSE V8 FALSE FALSE V9 FALSE FALSE V10 FALSE FALSE V11 FALSE FALSE V12 FALSE FALSE V13 FALSE FALSE V14 FALSE FALSE V15 FALSE FALSE V16 FALSE FALSE V17 FALSE FALSE V18 FALSE FALSE V19 FALSE FALSE V20 FALSE FALSE . datos.0484 0.41 5.001 ³**³ 0.

SELECCION DE MODELOS. + scope = y ~ .stepAIC(completo.206 ´ CAP´ ITULO 12. + trace = FALSE) > summary(step) . 1 subsets of each size up to Selection Algorithm: forward V1 V2 V3 V4 V5 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " "*" 4 ( 1 ) " " " " "*" " " "*" 5 ( 1 ) " " " " "*" " " "*" 6 ( 1 ) " " " " "*" " " "*" 7 ( 1 ) " " " " "*" " " "*" 8 ( 1 ) " " " " "*" " " "*" V7 V8 V9 V10 V11 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) "*" " " " " " " " " 3 ( 1 ) "*" " " " " " " " " 4 ( 1 ) "*" " " " " " " " " 5 ( 1 ) "*" " " " " " " " " 6 ( 1 ) "*" " " " " " " " " 7 ( 1 ) "*" " " " " "*" " " 8 ( 1 ) "*" " " " " "*" " " V13 V14 V15 V16 V17 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " " " 4 ( 1 ) " " " " " " " " " " 5 ( 1 ) " " " " " " " " " " 6 ( 1 ) " " "*" " " " " " " 7 ( 1 ) " " "*" " " " " " " 8 ( 1 ) " " "*" " " " " " " V19 V20 1 ( 1 ) " " " " 2 ( 1 ) " " " " 3 ( 1 ) " " " " 4 ( 1 ) " " " " 5 ( 1 ) " " " " 6 ( 1 ) " " " " 7 ( 1 ) " " " " 8 ( 1 ) "*" " " 8 V6 " " " " " " " " "*" "*" "*" "*" V12 "*" "*" "*" "*" "*" "*" "*" "*" V18 " " " " " " " " " " " " " " " " > library(MASS) > step <. direction = "both"..

736 V3 5.0256 0.17 < 2e-16 *** V6 1.´ 12.3. Un modelo ha de ser consistente con los conocimientos fiables que se tengan .90 0.0499 0.1557 V6 0.05 on 44 degrees of freedom Multiple R-squared: 0.91 < 2e-16 *** --Signif.82 6.064 .34 0.65 < 2e-16 *** V12 25. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 207 Call: lm(formula = y ~ V3 + V5 + V6 + V7 + V12.973. Modelos bien estructurados jer´rquicaa mente La facilidad con que los algoritmos presentados en este Cap´ ıtulo producen modelos candidatos no debe hacer que el analista delegue demasiado en ellos. Error (Intercept) 0. data = datos) Residuals: Min 1Q Median -1. p-value: <2e-16 Fin del ejemplo 12.0499 0. Adjusted R-squared: 0.3.1518 V3 1.1761 V5 2.1077 0.001 ³**³ 0. codes: 0 ³***³ 0.1e-07 *** V5 13.6196 3Q 0.05 ³.6503 -0.0349 Max 2.1585 t value Pr(>|t|) (Intercept) 0. V7 22.97 F-statistic: 317 on 5 and 44 DF.1346 V12 4.3046 0.0514 0.³ 0.5244 Coefficients: Estimate Std.1 ³ ³ 1 Residual standard error: 1.01 ³*³ 0.1603 V7 3.9495 -0.

e a La misma conclusi´n es de aplicaci´n a t´rminos recogiendo interacciones: o o e . sean cuales ∗ fueren β1 y β2 . Si en (13.29). (12. deben tambi´n existir t´rminos cuadr´ticos y e u e e a lineales. cicio 3.208 ´ CAP´ ITULO 12. Lo menos que debemos esperar de nuestra inferencia es que sea invariante frente a cambios en las unidades de medida. acerca del fen´meno bajo estudio. (12.28) o h : β2 = 0 a en (13. La inclusi´n de un t´rmino en X 2 debe ir acompa˜ada de un t´rmino o e n e lineal y constante. si n e incluimos un t´rmino c´bico.29).28) reemplazamos X por Z = aX + b. 41). obtenemos y = β0 + β1 (aX + b) + β2 (aX + b)2 + ǫ = (β0 + β1 b + β2 b2 ) + (β1 a + 2abβ2 )X + a2 β2 X 2 + ǫ ∗ ∗ ∗ = β0 + β1 X + β2 X 2 + ǫ. p´g. Prestemos o e algo de atenci´n a este ultimo requerimiento. b anulando β1 = (β1 a+2abβ2 ) en (13. el contraste de la hip´tesis “efecto cuadr´tico de X sobre Y ”.28) En un caso as´ frecuentemente el inter´s se centrar´ en dilucidar si la relaci´n ı. Un modelo que cumpla con dicho requisito se dice que est´ a jer´rquicamente estructurado y en ´l podemos contrastar no nulidad del coea e ficiente del t´rmino jer´rquico de orden superior. habr´ coeficientes a. no se altera por el cambio de unidades. en contrastar la hip´tesis h : a o β2 = 0—. Sin embargo.29) ∗ En este nuevo modelo. Debe ser tambi´n interpretable. y ser´ inconveniente que el contraste de h dependiera del a ıa origen y de la escala empleadas.10. o a al menos. β2 = a2 β2 absorbiendo el cambio de escala en la X. Es frecuentemente el caso que X se mide en unidades en que tanto la escala como el origen son arbitrarios (como ocurr´ por ejemplo. a Ello hace ver que: No tiene sentido contrastar efecto lineal en un modelo que incluye t´re mino cuadr´tico. porque el contraste tendr´ un resultado diferente dea ıa pendiendo de las unidades de medida. SELECCION DE MODELOS. etc. La conclusi´n que extraemos es que los t´rminos de orden superior deo e ben estar acompa˜ados de todos los t´rminos de orden inferior —es decir. ∗ Es f´cil ver que es equivalente contrastar h : β2 = 0 en (13. e a o de X con Y es lineal o cuadr´tica —es decir. en el Ejerıa. pero no de los inferiores. o ´ Imaginemos un modelo como el siguiente: y = β0 + β1 X + β2 X 2 + ǫ.—. si queremos que el modelo sea invariante frente a cambios en el origen y la escala.

´ 12. Xi y Xj deben tambi´n ser incluidas.10 en que se arg¨´ la necesidad de utilizar un uıa t´rmino β0 veremos que se trata del mismo problema: necesitamos el t´rmino e e jer´rquico inferior (la constante) cuando incluimos X dado que las unidades y a el origen son arbitrarios. . manteniendo la interpretabilidad de los par´metros en toda circunsa tancia. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 209 si introducimos una variable compuesta como Xi Xj en el modelo. No es imposible que un modelo sin β0 sea adecuado. Se suele decir que un modelo jer´rquicamente e a bien estructurado verifica restricciones de marginalidad y que.3. Es responsabilidad del analista garantizar que ello no ocurra. Si regresamos al Ejercicio 3. Dependiendo de los programas que se utilicen. por ejemplo. pero lo normal es lo contrario. un algoritmo puede eliminar del modelo de regresi´n un t´rmino jer´rquico inferior manteniendo o e a otro de orden superior. Xi y Xj son ambas marginales a Xi Xj .

210 ´ CAP´ ITULO 12.N −(p+q) Qh = qˆ 2 σ siendo p el n´ mero de par´metros presentes en A y q el de los u a adicionales presentes en B. SSEA ≥ SSEB ). pese a existir otro n modelo mejor en t´rminos de dicho criterio. ¿Mejoran nuestras expece tativas de encontrar el ´ptimo global mediante regresi´n escalonada o o cuando las columnas de la matriz X de regresores son ortogonales? Justif´ ıquese la respuesta. El primer modelo utiliza s´lo un subconjunto de los regresores presentes o en el segundo (por tanto. Seleccionar el modelo B si la disminuci´n en la suma de cuao drados respecto al modelo A es estad´ ısticamente significativa. a˜ adiendo (omitiendo) en cada momento el regresor que n parece con mayor (menor) capacidad explicativa de la variable respuesta.2 Las estrategias de regresi´n escalonada descritas (hacia o adelante. 12. Puede perfectamente alcanzarse un ´ptimo local.1 se comparan los criterios de seo lecci´n de modelos consistentes en maximizar Rp y Cp . Para escoger entre los modelos A y B podr´ ıamos adoptar uno de los siguientes criterios: 1. Seleccionar el modelo B si su estad´ ıstico Cp es menor. ¿Qu´ e relaci´n existe entre ambos criterios? o 2 . al llegarse a o un modelo en el que no es posible mejorar el criterio elegido (Cp . Supongamos adem´s que el modelo B es el m´s parametrizado a a de los posibles (incluye todas las variables de que disponemos). viendo que el o segundo es en general m´s restrictivo. es decir. ¿Qu´ valor de Fentrada equivaldr´ a introducir regresores en el e ıa 2 modelo en tanto en cuanto incrementen Rp ? 12.3 En la Observaci´n 13. hacia atr´s. o cualquier otro) a˜ adiendo u omitiendo regresores. 2. a Consideremos ahora dos posibles modelos A y B de regresi´n con o sumas de cuadrados de los residuos respectivamente SSEA y SSEB . SELECCION DE MODELOS. Complementos y ejercicios 12. si: (SSEA − SSEB ) α > Fq. o mixta) exploran un subconjunto de los modea los posibles.1 Supongamos que hacemos regresi´n escalonada “hacia adeo lante”.

u > < u .Ap´ndice A e Algunos resultados en Algebra Lineal. u >= 0 =⇒ u = 0 < u . . v > verificando: < u . Resultados varios sobre Algebra Matricial. La norma eucl´ o ıdea ||u || del vector u se √ 2 define como ||u || = + < u . w > (A. tal que a cada par de vectores u . u >≥ 0 ∀u ∈ H < u . αv + β w >= α < u .2 Llamamos producto interno eucl´ o ıdeo de dos n-eplas u . v >= < v .3) (A. v n ′ en R al definido as´ < u .1 En un espacio vectorial V llamamos producto interno a o una aplicaci´n de H × H −→ R (si es real-valorado) o en C (si es como pleto valorado). + u2 n 229 .1 El rango y la traza de una matriz idempotente coinciden. v corresponde < u .2) (A.4) Definici´n A.1) (A. Definici´n A. Teorema A. Es f´cil comprobar que verifica las ı: a condiciones de la Definici´n A. A. . v > +β < u . v >= u v .1.1. u > = u1 + .

a .8) proporciona entonces para el bloque superior izquierdo: o A−1 + F E −1 F ′ −1 (A. V´ase Seber (1977). En particular. si a = c = z.3 Dados dos vectores u .2 (Sherman-Morrison-Woodbury) Sea D una matriz sim´trica e p × p y a . Entonces. definimos o el coseno del ´ngulo que forman como a cos(α) = < u. v en un espacio vectorial. o Un caso particular de inter´s se presenta cuando la matriz particionada e cuya inversa deseamos es del tipo: (X ′ X) X ′ Z Z ′X Z ′Z La aplicaci´n de (A. p´g. (D + a c ′ )−1 = D −1 − D −1 a (1 + c ′ D −1 a )−1 c ′ D −1 ´ Demostracion: Multiplicando ambos lados de (A.6) (A.c vectores p × 1.10) = (X ′ X)−1 + + (X ′ X)−1 X ′ Z[Z ′ Z − Z ′ X(X ′ X)−1 X ′ Z]−1 Z ′ X(X ′ X)−1 (A. 390 y Myers a e a (1990).6) por (D + a c ′ ) se llega a la igualdad I = I. Definici´n A.7) = A−1 + F E −1 F ′ −F E −1 E −1 F ′ E −1 (A.11) y similarmente para los dem´s bloques.3 Si A y D son sim´tricas y todas las inversas existen: e A B B′ D siendo E = D − B ′ A−1 B F = A−1 B ´ Demostracion: Basta efectuar la multiplicaci´n matricial correspondiente.´ 230 APENDICE A.v > .5) Teorema A. 459. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. p´g.8) (A. ||u ||||v || (A.9) (A. la relaci´n anterior produce: o (D + zz ′ )−1 = D −1 − D −1 z(1 + z ′ D −1 z)−1 z ′ D −1 Teorema A.

Entonces:   ∂y1 ∂y2 ∂yn . Haremos uso de las siguientes definiciones y notaci´n. . Si y = a ′ x = a1 x1 + . o Definici´n A. + am xm .2.  .. . es inmediato comprobar que: ∂y ∂x = (A + A ′ )x .. Entonces:   ∂y  ∂x1   ∂y    ∂y def  ∂x2  =  . M´s detalles y ı o o ´ a demostraciones en Abadir and Magnus (2005).. . .´ ´ A.4 Sea x un vector m × 1 e y una funci´n escalar de x : y = o o f (x1 . tenemos que: e ∂y ∂x = 2A ′ x (A. . .  = a. xm ) = f (x ). de que A sea sim´trica.   . . . .12) Definici´n A. . e siendo a un vector de constantes.5 Sea y una funci´n vectorial (n × 1)–valorada de x . ∂xm ∂xm ∂xm Hay algunos casos particulares de inter´s. .  =    ∂x   ∂yn ∂y1 ∂y2 . Searle (1982) y Magnus and Neudecker (1988).2. CALCULO DIFERENCIAL CON NOTACION MATRICIAL 231 A.  ∂y def  . En el caso. .  =  .. C´lculo diferencial con notaci´n matria o cial Hay aqu´ s´lo una breve recopilaci´n de resultados utiles. vector o o m × 1. frecuente. ∂x am . ∂x1   ∂x1 ∂x1  .  ∂x  .   a1 ∂y  . .  ∂y ∂xm Si y = x ′ Ax siendo A una matriz cuadrada cualquiera.

ALGUNOS RESULTADOS EN ALGEBRA LINEAL. Se reproducen a continuaci´n algunos otros resultados utiles: o ´ ∂ loge |A| −1 = [A ′ ] ∂A ∂tr(BA−1 C) = −(A−1 CBA−1 ) ∂A (A.14) .´ 232 APENDICE A.13) (A. ∂y ∂x = A ′. si y = Ax . siendo A una matriz (n × m) de constantes.

1) se dice que sigue una distribuci´n χ2 (δ). . o distribuci´n χ2 descentrada con o o n par´metro de no centralidad δ y n grados de libertad. Entonces. tendr´ o ıamos que 233 . . Distribuciones χ2 y F descentradas indep B. Algunos textos definen a 1 a o δ 2 o 2 δ 2 como par´metro de no centralidad. .Ap´ndice B e Algunos prerrequisitos estad´ ısticos. Si V siguiera una distribuci´n χn (γ). Sean Xi ∼ N(µi . + X n σ2 Z= (B. (i = 1 . .n (δ) o F de Snedecor descentrada.2) sigue una distribuci´n Fm. la notaci´n que empleamos es congruente con las Tablas en ?? . si δ = 0 se tiene la χ2 habitual o centrada. Sea δ 2 = (µ2 +. la variable aleatoria m n nZ mV W = (B. . Si Z ∼ χ2 (δ) y V ∼ χ2 son ambas independientes.1.+µ2 )/σ 2 . Claramente. σ 2 ). con par´metro o a 2 de no centralidad δ. 1 n la variable aleatoria 2 2 X1 + . . . n).

4 proporciona tablas que permiten calcular la poe tencia de los contrastes en an´lisis de varianza directamente. si se dispone de tablas de la Fm. En condiciones muy generales. Sea β el vector que maximiza ℓ(β .6) (B. ˆ ′ ′ ˆ ˆ ˆ ˆ ˆ (β − β ) (Σβ )−1 (β − β ) ∼ (β − β ) I(β)(β − β ) ∼ χ2 . habitualmente denotaıa da como Fm. W ser´ una F de Snedecor doblemente descentrada. El examen del estad´ ıstico de contraste Qh introducido en la Secci´n 12 hace evidente que cuando la hip´tesis contrastada no es cierta.234 ´ APENDICE B. Estimaci´n m´ximo veros´ o a ımil Se realiza maximizando la funci´n de verosimilitud L(β . Siempre nos referiremos al primer tipo. y ). ˆ p esto permite contrastar hip´tesis como H0 : β = β 0 utilizando como estad´ o ıstico ˆ ˆ (β − β 0 ) I(β 0 )(β − β 0 ) o alternativamente ′ ˆ ˆ ˆ (β − β 0 ) I(β)(β − β 0 ). la o o distribuci´n de Qh es descentrada. B.n (δ).3) (B.4) ≈ ˆ En la expresi´n anterior. equivaleno ˆ temente.5) ij o Una consecuencia de (B. El ap´ndice A. como ya se indic´.3)–(B.n (δ. calcular o o con facilidad la potencia de cualquier contraste. y ). ℓ(β . en que solo el numerador es descentrado. su logaritmo. prefijada una a alternativa. ALGUNOS PRERREQUISITOS ESTAD´ ISTICOS. ∂βi ∂βj (B. y ) o. Su moda o est´ tanto mas desplazada a la derecha cuanto mayor sea el par´metro de a a no centralidad.7) . Σβ ) ˆ ˆ I(β) −1 (B. I(β) es la llamada matriz de informaci´n cuyo o o elemento gen´rico de lugar ij se define as´ e ı: ˆ I(β) = − ∂ 2 ℓ(β .2. se tiene que para muestras grandes ˆ β Σβ ˆ asint ∼ N(β . y ) . Ello permite. cuya forma es similar a la de su hom´loga centrada. γ). La F de Snedecor descentrada es una distribuci´n definida en el semieje o real positivo. ′ (B.4) es que si Σβ es de dimensi´n p × p.

que L(β . Y ) a β ∈h (B. 3 y 4.10) con el cuantil χ2 (p−q). y dim(h) = q < p = dim(H). Y ) es la funci´n de o verosimilitud y ˆ βh = arg m´x L(β . un contraste de la hip´tesis H0 puede obtenerse comparando el o estad´ ıstico en el lado izquierdo de (B. (1995). se verifica que bajo H0 . valores del estad´ ıstico mayores que dicho cualtil conducir´n al rechazo de la hip´tesis a o nula.3. Supongamos.3. 6 o Garthwaite et al.´ B. pueden consultarse m´s detalles en Lehmann (1983). o −2 loge ˆ L(βh . (p−q) (B. .8) (B. B. a β ∈M Entonces.α .9) ˆ βM = arg m´x L(β . Supongamos h es un subespacio de M. Cap. Contraste raz´n generalizada de verosio militudes Supongamos una hip´tesis nula H0 que prescribe para el vector de par´o a metros un subespacio h. finalmente. Y ) ˆ L(βM . Y ) ∼ χ2 . CONTRASTE RAZON GENERALIZADA DE VEROSIMILITUDES235 Asint´ticamente ambos contrastes son equivalentes. que no requieren que Y siga una distribuci´n particular.10) Por lo tanto. en condiciones muy generales. a Cap. y ambos se conocen como o contrastes de Wald . Y ).

236 ´ APENDICE B. . ALGUNOS PRERREQUISITOS ESTAD´ ISTICOS.

1. Transformaciones ortogonales.1) Podemos ver el problema como el de encontrar la combinaci´n lineal de las o columnas de D que mejor aproxima c . adem´s. (D. Introducci´n o (X ′ X)β = X ′ Y La resoluci´n de las ecuaciones normales. Hay procedimientos mucho menos costosos desde el punto de vista del c´lculo que.2. a D. En lo que sigue se presenta uno de los m´todos de c´lculo m´s utilizados. e a a y la construcci´n en que se basa (la factorizaci´n QR). en t´rminos de norma de la dise crepancia. o D. en su aproximaci´n m´s directa. Se detalla tambi´n o o e la correspondencia entre la notaci´n empleada y los resultados de algunas o funciones de S que hacen uso de dicha factorizaci´n. permiten en algunos casos a a intuiciones interesantes y demostraciones de gran simplicidad.Ap´ndice D e Procedimientos de c´lculo. la obtenci´n de la inversa (ordio a o ′ naria o generalizada) de (X X). o requiere. Dicho problema queda inalterado cuando realizamos una misma 245 . m´ ||Dx − c ||2 ın x Sea el problema.

PROCEDIMIENTOS DE CALCULO. o En general. dependiendo de a o la estructura que quiera imponerse a R.2) . La elecci´n de una descomposici´n ortogonal adecuada simplifica enormeo o mente la soluci´n de (D. o m´ ||Q(Dx − c )||2 = m´ < Q(Dx − c ).1). Q(Dx − c ) > ın ın x x = m´ (Dx − c ) ′ Q ′ Q(Dx − c ) ın x = m´ ||Dx − c ||2 ın x al ser Q ortogonal.1 Sea D una matriz de orden n × m y rango k. transformaci´n ortogonal de las columnas de D y del vector c . tenemos la descomposici´n en valores singulares. o D = HRK ′ . Supongamos que puede o expresarse del siguiente modo: D = HRK ′ en que: (i) H es n × n y ortogonal. (D. n). Si requerimos que R sea diagonal. Se dice que HRK ′ es una descomposici´n ortogonal de D. Los resultados fundamentales vienen recogidos o en el siguiente teorema. Teorema D. obteniendo diferentes descomposiciones de D. (iii) K es m × m ortogonal.246 ´ ´ APENDICE D. admitiendo la descomposici´n ortogonal. o triangular inferior. Definici´n D. Podemos tambi´n requerir o e que R sea triangular superior. R11 0 0 0 con R11 cuadrada de rango completo k ≤ m´ ın(m. En efecto. hay m´s de una descomposici´n ortogonal. (ii) R es n × m de la forma.1 Sea D una matriz de orden n × m.

D.2. Existe una matriz ortogonal P m × m tal que: Pv siendo   1 0   = .5) σ = (D. . Se denomina transformaci´n de o Householder. γ2 con γ2 arbitrario. ||r || = ||g 2 ||. Sea el problema m´ ||Dx − y ||2 ın x 247 (D. Teorema D. e1 . H ′y = g = g1 g2 γ1 γ2 k n−k k . Cualquiera de esas soluciones da lugar al vector de residuos r = y − Dx = H 0 g2 y en consecuencia. Existe un resultado interesante que muestra c´mo es posible encontrar una o transformaci´n ortogonal que rota (y quiz´ refleja) un vector v hasta abatirlo o a sobre el subespacio generado por otro. ˜ o u R11 γ1 = g 1 . 0 +1 si v1 ≥ 0 −1 si v1 < 0. m−k K ′x = γ = Sea γ1 la soluci´n (´nica) del sistema.6) . y se obtiene de manera muy c´moda y simple como muestra el o teorema siguiente. = −σ||v ||e1 (D.4) e1 (D. todas las posibles soluciones del problema (D.2 Sea v cualquier vector m×1 distinto de 0 . ˜ Entonces. TRANSFORMACIONES ORTOGONALES.3) y definamos.3) son de la forma x = K γ1 ˜ . .

14) . u = v + σ||v ||e1 z = v − σ||v ||e1 1 son ortogonales y v = 2 u + 1 z .7) (D.12) (D. ´ Demostracion: Entonces (ver Figura D. o uu ′ P = I −2 ||u ||2 con u = v + σ||v ||e1 . o o v u = v + ||v ||e1 −σ||v ||e1 e1 ||v ||e1 (u − 2u||u ||2v ) ′ Esta matriz tiene por expresi´n. PROCEDIMIENTOS DE CALCULO.11) (D.1).8) (D. Tenemos en consecuencia.248 ´ ´ APENDICE D.10) (D. Figura D.1: Visualizaci´n de la transformaci´n de Householder.9) Pv = = = = = uu ′ 1 1 I −2 u+ z 2 ||u || 2 2 1 1 u −u + z 2 2 1 1 − u +v − u 2 2 v −u −σ||v ||e1 (D. 2 (D.13) (D.

y consideremos su segunda columna ı eliminado su primer elemento. 249 D. Es decir. Existe una transformaci´n de Householder. o Teorema D.3. Existe siempre una matriz ortogonal Q de orden (N × N) y una matriz R trapezoidal superior verificando: X = QR Esquem´ticamente. pueden verse como un vector en RN −1 . Los restantes. y reposa en la aplicaci´n reiterada de la transo formaci´n de Householder a las columna de la matriz X. de matriz oro togonal P1 que abate dicha primera columna sobre el e1 de la base can´nica o n de R .´ D. Sea x1 la primera o de dichas columnas.3.3 Sea una matriz X de orden (N × p) y rango d ≤ m´ ın(N. Factorizaci´n QR. que puede tambien abatirse sobre el primer vector e1 de la base . FACTORIZACION QR. P1 X = Llamemos X1 a la matriz as´ obtenida. a X Q R (D. p).15) N = d ´ Demostracion: d N −d d La prueba es constructiva.

Entonces. . D.250 ´ ´ APENDICE D. e F´cilmente se comprueba que el proceso puede continuarse hasta obtener a un producto de matrices ortogonales Q ′ = Pd Pd−1 . o . y simplifica la demostraci´n de. al margen y adem´s de su utilidad como procedimiento num´rico. lo que prueba el teorema. P1 que deja X con sus d primeras columnas “escalonadas”. su producto tambi´n lo es. la factorizaci´n QR a e o arroja luz sobre. Una referencia fune o o damental que contin´a vigente es Lawson and Hanson (1974). Bibliograf´ ıa Hay abundante literatura sobre la factorizaci´n QR y procedimientos sio milares de aplicaci´n al problema (D. Casi cualquier texto de C´lculo o a Num´rico contiene una discusi´n de la factorizaci´n QR.16) reduce la matriz X de la forma que esquem´ticamente se muestra a contia nuaci´n: o 1 0 P1 X = ∗ 0 P2 ′ Por consiguiente. 1 0 ∗ 0 P2 ′ P1 (D.4. can´nica de dicho subespacio multiplicando por una matriz de Householder o ∗ P2 . si llamamos P2 = 1 0 ∗ 0 P2 ′ el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Q ′ X = R y por tanto X = QR. bastantes resultados en o regresi´n lineal. PROCEDIMIENTOS DE CALCULO. Como tanto P1 como P2 son ortogonales. . clara. Una exposici´n u o breve. y con abundantes referencias a la literatura m´s reciente puea de encontrarse en Goodhall (1993). como el rango de X era d. Adem´s. a necesariamente las ultimas N − d filas de R son de ceros. Ansley (1985) muestra como. ´ En definitiva.1).

definidas ambas del modo usual.2 Sea H un espacio vectorial como en la Definici´n E. Existencia y unicidad de proyecciones. vn − vm < δ. desarrollos y demostraciones omitidos en el ı curso de la exposici´n. si prefijado un δ arbitrariamente peque˜ o. 251 . es decir. Supongau mos definido sobre H un producto interno < ·. Deo o cimos que tiene estructura de espacio de Hilbert si es completo.1.1. · > y correspondiente norma v 2 = < v. Decimos que {vn } es una sucesi´n de Cauchy si para o cualquier δ > 0 hay un N(δ) tal que ∀m. v >. Cualquier subespacio vectorial de un espacio de Hilbert. n ≥ N(δ).1 Sea {vn } una sucesi´n de vectores en H.Ap´ndice E e Enunciados y demostraciones formales Se incluyen aqu´ teoremas. existe siempre un N(δ) n tal que cualesquiera vectores vm . Definici´n E. o E. infinito-dimensional y separable. es decir. por su nivel de formalismo o por no ser esenciales. vn que aparezcan en la sucesi´n en lugar o posterior al N(δ) distan entre s´ menos de δ. ı Definici´n E. es a su vez espacio de Hilbert. espacio vectorial o o sobre el cuerpo de los n´meros reales R con las operaciones “suma” de vectores u y “producto” por n´meros reales. si contiene los l´ ımites de todas las sucesiones de Cauchy de vectores en H.

(y − vn ) > 2 2 (y − vn ) + (y − vm ) + 2 < (y − vm ). en predicci´n lineal de procesos estoc´sticos). Veamos1 primero la existencia. ´ proyecci´n de y sobre M. Una o a demostraci´n m´s simple y menos general puede encontrarse en Arnold (1981). (E. (E.3) + 2 (y − vm ) Por otra parte.´ 252 APENDICE E. Probaremos.3) y (E. (E. pero merece la pena enunciar este Teorema as´ para poderlo emplear inalteı rado en otros contextos (por ejemplo. ıa o a para cualquier n´ mero natural n existir´ vn verificando: y − vn 2 ≤ u a d+ 1/n. contra la hip´tesis. Para cualquier vector y ∈ H existe siempre un unico vector v = PM y . m´ y − z 2 ın tendr´ que ser mayor que d + 1. Sea d = o m´ z∈M y − z 2 .5) Demostraci´n tomada de Anderson (1971). y M un subespacio del mismo. Entonces. Sea: 2 2 D= (y − vn ) − (y − vm ) + (y − vn ) + (y − vm ) (E.4) Igualando (E. 34. o a a . (E. de no haberlo.4) obtenemos: vm − vn 2 = 2 y − vn 2 + 2 y − vm 2 2 −4 y − ( 1 ) (vn + vm ) 2 1 . Mostraremos o tambi´n que su l´ e ımite –´ nico– verifica las condiciones definitorias de u proyecci´n de y sobre M . Es m´s general de lo que estrictamente o a necesitamos. ENUNCIADOS Y DEMOSTRACIONES FORMALES Teorema E.2) Podemos escribir: D = + = (y − vn ) 2 (y − vn ) 2 + (y − vm ) 2 2 2 − 2 < (y − vm ). Se verifica que: o y −v 2 = m´ y − z ın z∈M 2 . en fin. que ning´ n otro vector o u en M distinto del l´ ımite anterior verifica las mismas condiciones. p´g. Mostraremos que la sucesi´n {vn } es de Cauchy. An´logamente. (y − vn ) > .1 Sea H un espacio de Hilbert.1) Demostraci´n. as´ ı como la propiedad de m´ ınima distancia en el enunciado. necesariamente existir´ en M alg´ n vecın a u tor v 1 tal que: y − v1 2 ≤ d + 1. tenemos: D = = (vm − vn ) (vm − vn ) 2 2 + 1 2y − 2 ( 2 ) (vn + vm ) 2 2 + 4 y − ( 1 ) (vn + vm ) 2 .

z > . y −u 2 = = = ≥ < y − u. Tendr´ por tanto un l´ o a ımite unico ´ v en M (M es completo). n mayores que N (δ/4). Adem´s. z >= 0. v − u > = 0.1). que ning´ n otro vector u ∈ M. u = v puede ser u proyecci´n de y en M .1.5) es al menos ´ e d. y como z es arbitrario en M . v−u 2 + 2 < y − v. z > − 2α < y − v. a Por otra parte. tenemos a que v es proyecci´n de y en M (Definici´n 1. Supongamos que o hubiera un tal u. y (v − u) ∈ M . (E. ıa v−u ≥ 0. (E. se deduce que (y − v) ⊥ M .12) = d+α ≥ d. tenemos: (y − vn ) (y − vm ) 2 2 ≤ d + δ/4 ≤ d + δ/4. Entonces.10) > (E. v − u > 2 2 ya que 2 < y − v. y v−u = 0 .13) z 2 2α < y − v. en fin. EXISTENCIA Y UNICIDAD DE PROYECCIONES. a (y − v) ⊥ M .6) Sea δ > 0. El desarrollo anterior o o muestra tambi´n que v es la mejor aproximaci´n de y por un vector e o de M (en t´rminos de la norma definida). Para m. implicar´ u = v. (y − u) = (y − v) + (v − u).E.11) (E.8) Sustituyendo ´sto en (E. Como la norma al cuadrado del ultimo t´rmino de (E.5) obtenemos: e (vm − vn ) 2 ≤ 2(d + δ/4) + 2(d + δ/4) − 4d = δ. ha de suceder que < y − v. tenemos: vm − vn 2 253 ≤ 2 (y − vn ) 2 + 2 (y − vm ) 2 − 4d (E. ni verificar y − u 2 = d. para cualquier z ∈ M y para cualquier α real se tiene: y − v − αz 2 = y −v 2 2 + α2 z 2 2 − 2α < y − v. y f´cilmente se deduce que y − v 2 = d.14) Como (E. Por tanto. Por tanto: α2 z 2 z − 2α < y − v.7) (E. (y − v) + (v − u) > y −v y −v 2 2 + . Como adem´s hemos visto que v ∈ M . (E. y − u > < (y − v) + (v − u).14) se ha de cumplir para cualquier posible valor de α. z > α 2 ≥ ≥ 0.9) luego la sucesi´n {vn } es de Cauchy. z (E. e Veamos. (E.

Entonces. M ∩ h⊥ = R(PM B ′ ). o Shumway and Stoffer (2006). 2. Proyecci´n sobre subespacios h = M ∩ o K(B). e a (E. yt−2 . su subespacio M ) tengan estructura de espacio de Hilbert? Examinando la demostraci´n del o Teorema E. . Cap. ys >= E[yt ys ] (supuesta estacionariedad y media cero). Pueden verse m´s detalles en la obra ya citada Anderson (1971).1.2 o ¿Debemos preocuparnos de verificar que estamos ante un espacio de Hilbert? ¿C´mo hacerlo? Cuando o los regresores generan un espacio de dimension finita. Este “pasado”.2. la mejor predica ci´n lineal en el momento t del valor de la misma en t + 1 (predicci´n o o una etapa hacia adelante) se hace proyectando yt+1 sobre el subespacio que generan yt .1. Cuando se hace an´lisis de series temporales. vemos que se da por supuesta la existencia en M del l´ ımite de la sucesi´n {vn } construida. . . e E. ıa Observaci´n E. ENUNCIADOS Y DEMOSTRACIONES FORMALES Observaci´n E. sino la inducida por el producto interno < yt . o N´tese. incidentalmente. p´g.2. M ∩ h⊥ puede expresarse de otro modo que har´ m´s a a simple la demostraci´n. y K(B) el n´cleo de la apliu caci´n lineal que representa. al menos en principio. v´ase el Ejercicio 4. a Secci´n 7. Ejemplos del uso del espacio de Hilbert en series tempoo rales pueden verse en Davis (1977). en consecuencia.´ 254 APENDICE E. Si M no fuera espacio de Hilbert.15) . El Lema 4. nada de ello es preciso. 58. Ap´ndice B. o M ∩ h⊥ = M ∩ R(B ′ ). yt−1 .4 dec´ ıa: Sea B una matriz cualquiera. ´ Demostracion: En primer lugar. que en este problema emplear´ o ıamos una norma que no ser´ la eucl´ ıa ıdea ordinaria.6. puede ser infinito dimensional y aqu´ s´ ı ı tiene objeto suponer que genera un espacio de Hilbert para garantizar la existencia de la proyecci´n. Sea M un subespacio de H y h = o M ∩ K(B).1 que H (y. En efecto.1 ¿Qu´ trascendencia tiene en el enunciado del o e Teorema E. (todo el “pasado” de la serie). o tal l´ ımite podr´ no existir en M .

como h = M ∩ K(B). 255 Probaremos ahora que ambos subespacios considerados en el enunciado son el mismo. z ∈ M y z ∈ K(B). x ∈ R(PM B ′ ) =⇒ x ∈ R(PM ) =⇒ x ∈ M Sea ahora z ∈ h. En efecto. luego x ∈ M ∩ h⊥ . z > = x ′ z = a ′ BPM z = a ′ Bz = 0 Por tanto. ya que. utilizando la expresi´n (E.2. Por tanto: < x. lo que prueba ii) y a finaliza la demostraci´n del lema. Es inmediato. Entonces. o o i) M ∩ h⊥ ⊆ R(PM B ′ ). x ∈ M y adem´s x ⊥ h.15).´ E. PROYECCION SOBRE SUBESPACIOS H = M ∩ K(B). x ∈ M ∩ h⊥ =⇒ =⇒ =⇒ =⇒ =⇒ x ∈ M ∩ R(B ′ ) ∃a : x = B ′ a PM x = PM B ′ a x = PM B ′ a x ∈ R(PM B ′ ) ii) M ∩ h⊥ ⊇ R(PM B ′ ). o . y mostrando la mutua inclusi´n.

Cambridge Univ. M. In B.. T. editors. (1981). (1985). and Lewis. Akaike. The Theory of Linear Models and Multivariate Analysis. and Magnus. 267–281. pp. Information Theory and an Extension of the Maximum Likelihood Principle. Barnett. 259 . 5th. Transformations and Regression. on System Sciences. (2005). Information Theory and an Extension of the Maximum Likelihood Principle. W. Press. As. Csaki. Arnold. S. New York: Wiley. Budapest: Akademia Kiado. volume 1. (1991). 39. Anderson. Outliers in Statistical Data. New York: Wiley. Petrov and F. The Statistical Analysis of Time Series. (1974). 249–250. (1971). (1972). K. T. Oxford Univ. 610 y ss. Springer Verlag. p. H. Akaike. Atkinson. Ansley. In Proc. Conf. Second International Symposium on Information Theory. Hawai Int. F. C.Bibliograf´ ıa Abadir. (1985). Plots. H. Breakthroughs in Statistics. editors. C. F. J. Akaike. R. N. 55–59. Quick Proofs of Some Regression Theorems Via the QR Algorithm. pp. Press. (1978). V. In Johnson and Kotz. Matrix Algebra. A. Use of an Information Theoretic Quantity for Statistical Model Identification. H. New York: Wiley.

Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. Measurement. M. (2002). Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike. G. V. Statistical Models in S. Chambers. J. T. Cox. (2000). M. A Programming Environment for Data Analysis and Graphics. Transformations of the Independent Variables. E. and Bj¨rck. (1978).. Chapman and Hall. Regression and Calibration. D.J. R. Linear Estimation and Stochastic Control. and Hastie. The New S Language. Dalgaard.. (1962). (1982).5 BRO. D. o A. J. de Leeuw. J. P. (1980). E. Pacific Grove. (1998). V. R. . Ben-Israel. and Greville. R. and Weisberg.phtml.: Wadsworth & Brooks/Cole. New York: Wiley. 4. Clarendon Press/Oxford. Theoretical Statistics. ˚ (1974). Neural Networks for Pattern Recognition. Introductory Statistics with R. N. S. (1974). Technometrics. H. Programming with Data.: Prentice Hall. Disponible en http://www. A.682 DAL. (1993). A. and Hinkley. Chambers. D.edu/~deleeuw/work/research. and Welsch. R. (1988). N. Cox. Numerical Methods. D. R. J. Springer-Verlag. Signatura: 519. T. (1974).235. (1992). London: Chapman & Hall. and Tidwell. Cook. Box.stat. 1979th edition. Pacific Grove. A. A. P. Signatura: 519. Bishop. Dahlquist. E. E. Problems and Solutions in Theoretical Statistics. Statistics and Computing. P. New York: Chapman and Hall. Ca. New York: Wiley. London: Chapman and Hall.260 BIBLIOGRAF´ IA Becker. J. G. Davis. California: Wadsworth & Brooks/Cole. M. M. D. Belsley. (1996).ucla.. and Wilks. Kuh. Oxford: Clarendon Press.. Chambers. (1977). Generalized Inverses: Theory and Aplications. C. D. Brown. 531–550. J. Residuals and Influence in Regression. and Hinkley. W. Mathsoft. P.. Englewood Cliffs. M. A. R.

105–123. (1993). and Mason. Signatura: 519. E. Hastie. London: Prentice Hall. R. R. A Note on Maximization of R . editor. N. Haitovsky. E. Chapman & Hall/CRC. (1995). (1989). J. Applied Regression Analysis. Regression Modelling Strategies. 23. New York: Marcel Dekker. (1969). The Analysis and Selection of Variables in Linear Regression. Hoerl. and Friedman. H.. Ridge Regression: Biased Estimation for Non-Orthogonal Problems. Identification of Outliers.8 HAS. L. S. Y. R. R. A Data Oriented Approach. T. 4. Inc. Applied Logistic Regression. C. H. second edition. B. Rao. a Gunst. Wiley. W. New York: Marcel Dekker. Eubank. J. Grafe. Neural Networks. Springer-Verlag.5 DRA. Hoerl. Data Mining. Linear Models with R. E. R. W. (1976). As. (1975). Faraway. I. 55–67.. (1988). Spline Smoothing and Nonparametric Regression. F. S. J. R. K. Inference. (1985).237. Signatura: 519. Hocking. A Comprehensive Foundation. 2 . (2001). 467–508. Signatura: 519. (2005). Hawkins. M.233. London: Chapman & Hall. H. Cstat. R.BIBLIOGRAF´ IA 261 Draper.. A. third edition. Ridge Regression: Some Simulations. Matem´ticas Universitarias. and Smith. Wiley. Haykin. Technometrics. F. 12. and Jones. L. 32..5 HAR. Computation Using the QR Decomposition.. R.233. In C. R. P. J. (1998). D. F. and Kennard. 20–21. Harrell. T. Statistical Inference.233 FAR. A. R. The Elements of Statistical Learning. pp. Hosmer. Prentice Hall. chapter 13. (1980). and Lemeshow. (1980).. 1–49. Tibshirani. (1970). W. Handbook of Statistics. R. (2001). Biometrics. Springer-Verlag. D. Jolliffe. Amsterdam: North-Holland. Goodhall. Madrid: MacGraw-Hill. and Baldwin. Regression Analysis and Ist Applications. Garthwaite. Signatura: 519. (1998). Kennard. and Prediction.

Solving Least Squares Problems. 307–323. Tables for the Approximate Test for Outliers in Linear Regression. L. . Oliver. 5. H. CSIRO Mathematical and Information Sciences. Minimum Information Estimation of Linear Regression Models. Data Analysis and Graphics Using R . New York: SpringerVerlag. Lange. ISIS: Information. Numerical Analysis for Statisticians. (1998).: Prentice-Hall.6 LAN.: Addison-Wesley. Fundamental Algorithms. (1976). Maindonald. pp. Lehmann. Australia. S. Springer Verlag. N. Springer. Magnus. J. R. (1983). (1996). (1974). (1968). K. W. C. B. Singapore: World Scientific. volume 1. Kennedy. Cstat. J. Reading. Korb. New York: Marcel Dekker. R. A Simulation Study of Ridge and Other Regression Estimators. and Graphical Stats. (2000). (1988). Mass. J. Dowe. Kleinbaum. K. J. Theory of Point Estimation. 17. Statistics and Induction in Science. New York: Wiley. of Comp. Legg. Knuth. R. (1994). W. R. An Introduction to R: Software for Statistical Modelling and Computing. J. Mass. P. Kuhnert. G. R: a Language for Data Analysis and Graphics. Signatura: 519. (1996). and Wang. and J. L. editors. (2005). D. D.. K. In D. F. Logistic Regression.J. Lund. I.262 BIBLIOGRAF´ IA Ihaka. (1980). and Neudecker. Jolliffe. 473–476. Lawson. and Gentleman. and Hanson. In The Art of Computer Programming. E. Principal Components Analysis. Statistical Computing. R.: Addison Wesley. 5. (1986). J. T. The TEX Book. 299–314. Technometrics. 103–111. Lawless. E.An Introduction. Cleveland. and Venables. Knuth. D. Wiley. A Self-Learning Test. L. Reading. (1986). H. (1975). Englewood Cliffs. Matrix Differential Calculus with Applications in Statistics and Econometrics. P. J.

C. Multicollinearity and Imprecise Estimation. S. 67. Singapore: World Scientific. Optimal Design. Wiley. Searle. Principles of Econometrics. (1996).233. Pe˜a. S. John Wiley & Sons. and Wilk. and Mitra. (1982). An Analysis of Variance Test for Normality (complete Samples). . New York: Wiley. Cambridge University Press. New York: Wiley. Theil. Co. Pattern Recognition and Neural Networks. Shumway. R. Time Series Analysis and Its Applications. Linear Statistical Models. (1997). A.BIBLIOGRAF´ IA 263 Miller. F. S. Jrssb. (1995). (1972). Regresi´n y Dise˜ o de Experimentos. Shapiro. Thisted.]. 539–552. 52. (1971). Shapiro. Chapman & Hall/CRC. (1965). Modern Regression Methods. K. D. Searle. Stapleton. D. (1989). Alianza Editorial. H. B. S. An Approximate Analysis of Variance Test for Normality. (2002). Stochastic Complexity in Statistical Inquiry. Linear Regression Analysis. Springer Verlag. S. (1971). 31. Ripley. New York: Chapman & Hall. S. (1980). New York: Wiley. H. (1977). Ryan. T. D. Silvey. S. D.4 RYA. J. S. Boston: PWS-KENT Pub. J. A. (1988). Elements of Statistical Computing.8 RIP. R. and Stoffer. Generalized Inverse of Matrices and Its Applications. Linear Models. Second Editon. 215–216. London: Chapman & Hall. S. G. (1971). Rissanen. Seber. 519. 591–611. Biometrika. M. (1990). R. Jasa. B. A. Silvey. H. (2002). With R Examples. R. Signatura: 519. R. (1969).237. R. New York [etc. (2006). Myers. S. R. H. Wiley. Classical and Modern Regression with Applications. n o n Rao. New York: Wiley. and Francia. D. S. Subset Selection In Regression. P. Matrix Algebra Useful for Statistics.

and Arnholt.uk/pub/MASS3.ac. A.. Gunst. Sense and Nonsense of Statistical Inference. (1993). New York: Marcel Dekker. Madrid: Tebar-Flores. Editorial UPV/EHU. Tusell. R..stats. (1997). a o n a a Venables. Muestreo. D.. B. 16. Technometrics. a Ugarte. Bilbao: Serv. Probability and Statistics with R. T. A. (1987a).at. Gonz´lez y S. Modern Applied Statistics with S-Plus.ox. Wang. W. F.. B.r-project. . (2008). R Complements to Modern Applied Statistics with S-Plus. CRC Press. Dept. R. Gonz´lez. University of Adelaide and University of Auckland. Available at http://cran. L. R. (1987b). (1974).. Gentleman. a Notas sobre R: Un Entorno de Programaci´n para An´lisis de Datos y o a Gr´ficos. W. Modelos Lineales. R.. and Ripley. and Ihaka. D. En http://www. notas de clase.. F. third edition.264 BIBLIOGRAF´ IA Troc´niz. Smith. Probabilidades. Smith. J. R. C. and M¨chler. (1999b). o Troc´niz... F. R. Militino. Venables. 513–522.pdf. (2000). Ihaka. A. F. (2003).. of Statistics. Webster.. Notes on R: A Programming Environment for Data Analysis and Graphics. M. Traducci´n espa˜ola de A. and Mason. New York: Springer-Verlag. and Ripley. A. Estad´ ıstica Matem´tica. M. Venables. Gentleman. 154 p. (1999a). D. B. Venables.org/doc/R-intro.. Estad´ o ıstica. B. Latent Root Regression Analysis.

Sign up to vote on this title
UsefulNot useful