P. 1
REGRESION

REGRESION

4.0

|Views: 56|Likes:
Publicado porCarlos Rivera

More info:

Published by: Carlos Rivera on Nov 25, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

02/27/2014

pdf

text

original

Sections

  • 1.1. Planteamiento del problema
  • 1.2. Notaci´on
  • 1.3. Supuestos
  • 1.5. Proyecciones
  • 1.6. Lectura recomendada
  • 1.7 La funci´on help permite interrogar a R sobre el modo de
  • 1.8 Cuando escribimos expresiones como
  • 1.9 Recordemos que el producto eucl´ıdeo (o escalar) de dos vec-
  • 1.13 (↑ 2.10) Los siguientes dos vectores generan un subespacio
  • 1.14 Demu´estrese que la correspondencia PM : x −→ y = PM x
  • 2.1. Obtenci´on de los estimadores de los pa-
  • 2.2. Una obtenci´on alternativa
  • 2.3. Propiedades del estimador m´ınimo cua-
  • 2.4. Estimaci´on de la varianza de la pertur-
  • 2.5. El coeficiente R2
  • 2.6. Algunos lemas sobre proyecciones
  • 2.7. Lectura recomendada
  • 2.9 ¿Cu´ando incluir y cu´ando no una columna de “unos”? En
  • 2.10 (↑ 3.1)(↑ 3.9) Pensemos en la siguiente situaci´on: un inves-
  • 3.1. Modelos con matriz de dise˜no de rango
  • 3.2. Funciones estimables
  • 3.3. Restricciones de identificaci´on
  • 3.4. Multicolinealidad exacta y aproximada
  • 3.5. Lectura recomendada
  • 4.1. Planteamiento del problema
  • 4.2. Lemas auxiliares
  • 4.3. Estimaci´on condicionada
  • 5.1. Introducci´on
  • 5.2. Inclusi´on de regresores irrelevantes
  • 5.3. Omisi´on de regresores relevantes
  • 5.4. Consecuencias de orden pr´actico
  • 6.1. Introducci´on
  • 6.2.1. Contraste sobre coeficientes βi aislados
  • 6.2.2. Contraste de significaci´on conjunta de la regre-
  • 6.3. Construcci´on de intervalos de confianza
  • 6.4. Lectura recomendada
  • 7.1. Tipolog´ıa de variables explicativas
  • 7.2. Factores y dataframes
  • 7.3. F´ormulas
  • 7.4. La funci´on lm
  • 7.5. Lectura recomendada
  • 8.1.1. Evidencia contra una hip´otesis
  • 8.1.2. ¿C´omo de “raro” ha de ser algo para ser real-
  • 8.1.3. An´alisis exploratorio e inferencia
  • 8.1.4. Inferencia simult´anea y modelo de regresi´on li-
  • 8.2. Desigualdad de Bonferroni
  • 8.3. Intervalos de confianza basados en la m´a-
  • 8.4. M´etodo S de Scheff´e
  • 8.5. Empleo de m´etodos de inferencia simul-
  • 9.1. Introducci´on
  • 9.2. Una aproximaci´on intuitiva
  • 9.3. Detecci´on de la multicolinealidad apro-
  • 9.4. Caracterizaci´on de formas lineales esti-
  • 9.5. Varianza en la estimaci´on de una forma
  • 9.6. Elecci´on ´optima de observaciones
  • 10.1. Introducci´on
  • 10.2. Una aproximaci´on intuitiva
  • 10.3.1. Error cuadr´atico medio del estimador m´ınimo
  • 10.3.2. Clase de estimadores ridge
  • 10.3.3. Elecci´on de k
  • 10.3.4. Comentarios adicionales
  • 10.4.1. Descripci´on del estimador
  • 10.4.2. Estrategias de selecci´on de componentes prin-
  • 10.4.3. Propiedades del estimador en componentes prin-
  • 10.5. Regresi´on en ra´ıces latentes
  • 10.6. Lectura recomendada
  • 11.1.1. Residuos internamente studentizados
  • 11.1.2. Residuos externamente studentizados
  • 11.1.3. Residuos BLUS
  • 11.1.4. Residuos borrados
  • 11.2.1. La curva de influencia muestral
  • 11.2.2. Distancia de Cook
  • 11.2.3. DFFITS
  • 11.2.4. DFBETAS
  • 11.3.1. Gr´aficos de residuos frente a ´ındice de obser-
  • 11.3.2. Gr´aficos de residuos frente a variables incluidas
  • 11.3.3. Gr´aficos de residuos frente a variables exclui-
  • 11.3.4. Gr´aficos de variable a˜nadida (ˆǫY|X−j,ˆǫXj|X−j)
  • 11.3.5. Gr´aficos de normalidad de residuos
  • 11.3.6. Gr´aficos de residuos ordinarios frente a resi-
  • 12.1.1. Maximizaci´on de R2
  • 12.1.2. Criterio Cp de Mallows
  • 12.1.3. Criterio AIC
  • 12.1.4. Residuos borrados y validaci´on cruzada
  • 12.1.5. Complejidad estoc´astica y longitud de descrip-
  • 12.2.1. Regresi´on sobre todos los subconjuntos de va-
  • 12.2.2. Regresi´on escalonada (stepwise regression)
  • 12.3 En la Observaci´on 13.1 se comparan los criterios de se-

Introducci´n o

Lo que sigue contiene una introducci´n muy concisa al an´lisis de regreo a si´n, concebida como apoyo de las clases. Hay varios niveles de lectura: en o un primer nivel, las Observaciones que jalonan el texto pueden en su mayor´ ıa omitirse, sin p´rdida de continuidad. Ello proporciona una lectura bastante e lineal. Si se desea una lectura m´s detallada, con digresiones que, no siendo a imprescindibles, pueden mejorar la comprensi´n del conjunto, conviene leer o tanto las observaciones como las secciones de Complementos y ejercicios al fin de cada cap´ ıtulo: son parte integrante del texto a este segundo nivel y completan muchos detalles. A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s´ ımbolo de“giro peligroso”representado en el margen, popularizado por la obra cl´sica Knuth (1986). Se trata de a fragmentos que corresponder´ a un tercer nivel, con detalles de inter´s, ıan e extensiones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dificultad. La flecha vertical ↑ remite a alg´n ejercicio, u observaci´n o ejemplo que son requisito previo. o Hay un mundo de diferencia entre saber c´mo se hacen las cosas y saber o hacerlas. Querr´ ıamos que los alumnos supieran hacerlas. La experiencia sugiere que lo que resulta de m´s ayuda al lector es ver ejemplos de aplicaci´n a o detallados, que pueda reproducir o modificar para resolver sus propios problemas. Intercalados entre la teor´ hay fragmentos en R, que el lector puede ıa ejecutar o tomar como modelo. Todos se han ejecutado con R versi´n 2.8.1. o No se ha buscado el c´digo m´s terso ni la forma m´s r´pida o elegante o a a a de hacer las cosas, sino la que ilustra mejor la teor´ ıa.

1

2

Cap´ ıtulo 1

El modelo de regresi´n lineal. o

1.1.

Planteamiento del problema.

Son frecuentes en la pr´ctica situaciones en las que se cuenta con obsera vaciones de diversas variables, y es razonable pensar en una relaci´n entre o ellas. El poder determinar si existe esta relaci´n —y, en su caso, una forma o funcional para la misma— es de sumo inter´s. Por una parte, ello permitie r´ conocidos los valores de algunas variables, efectuar predicciones sobre los ıa, valores previsibles de otra. Podr´ ıamos tambi´n responder con criterio estae d´ ıstico a cuestiones acerca de la relaci´n de una variable sobre otra. o Ejemplo 1.1 La Figura 2.1 (p´g. 4), muestra una gr´fica recoa a
giendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de Cook and Weisberg (1982)). En abscisas se representa la duraci´n de las o erupciones. En ordenadas, el intervalo de tiempo transcurrido hasta la siguiente erupci´n. o A la vista del gr´fico, parece evidente que existe una relaci´n ena o tre ambas variables —erupciones de duraci´n D corta son seguidas o de otras tras un intervalo de tiempo I m´s reducido que en el caso a de erupciones largas—. Podr´ interesarnos contrastar con criterio esıa tad´ ıstico si tal relaci´n existe (en el caso presente, la relaci´n es tan o o n´ ıtida que el plantearse el contraste de hip´tesis correspondiente no o tendr´ demasiado sentido). M´s interesante, en el caso presente, ser´ ıa a ıa llegar a una expresi´n del tipo I = f (D) relacionando el intervalo con o

3

4

´ CAP´ ITULO 1. EL MODELO DE REGRESION LINEAL. Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.

Intervalo en minutos (I)

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

50

60

70

80

90

Duración en minutos (D)

la duraci´n (ello nos permitir´ anticipar en qu´ momento se presentao ıa e r´ la siguiente erupci´n, conocida la duraci´n D que se ha observado a o o en la anterior). Es claro que la relaci´n I = f (D) no puede ser exacta —es dif´ o ıcil pensar en una funci´n que pase precisamente por cada uno de los 272 o puntos en la Figura 2.1—. Habremos de considerar m´s bien funciones a del tipo I = f (D) + ǫ, en que el valor de I es una cierta funci´n (deso conocida) de D m´s una cantidad aleatoria inobservable ǫ. Decimos a que f (D) es una funci´n de regresi´n de I sobre D, y nuestro objetivo o o es especificar su forma. Habitualmente realizamos para ello supuestos simplificadores, como el de que f (D) es una funci´n lineal. o

Fin del ejemplo

. . o En el Ejemplo 2. a 2. . y el unico regresor ser´ ıa ´ ıa la variable D. . relacionando de manera aproximada los valores de Y con los que toman otras variables.1) indica que la variable aleatoria Y se genera como o combinaci´n lineal de las variables explicativas. Frecuentemente X0 toma el valor constante “uno”. . Xp−1. limitaremos por el momento nuestra atenci´n a funciones f (X0 . . (1. βp−1 . . . . 3. que se examina en la Secci´n 2.1) o ser´ entonces f (D) = β0 + β1 D. La ecuaci´n (2.2. . . 1. el modelo resultante es o el modelo de regresi´n lineal. . o variable end´gena) de la que suponemos que se genera as´ o ı: Y siendo: 1. β0 . NOTACION 5 Es de inter´s se˜alar que el ajuste de un modelo de regresi´n no se limita e n o a analizar la relaci´n entre dos variables. En el Ejemplo 2. Xp−1 . variables explicativas no estoc´sticas. . el ajuste de un modelo del tipo I = f (D) + ǫ no implica que consideremos que la duraci´n D causa el subsiguiente intervalo I hasta o la pr´xima erupci´n.2. . respuesta. sino s´lo que parece existir una relaci´n entre ambas o o o o variables. . . Xp−1 ) lineales. que el hecho de aislar una variable Y al lado izn quierdo y escribirla como funci´n de otras m´s una perturbaci´n aleatoria ǫ o a o no prejuzga ninguna relaci´n de causalidad en ning´n sentido. . cuyos a valores son fijados por el experimentador. . salvo en una perturbaci´n o o aleatoria ǫ. o o o Se˜alemos. La funci´n que aparece en (2.2 a continuaci´n. e tendr´ ıamos como regresores D y X0 =“uno”. Si decidimos ajustar un modelo con t´rmino constante β0 . Por simplicidad.1) . ıa El problema que abordamos es el de estimar los par´metros desconocidos a β0 . Xp−1 ) + ǫ. βp−1 . X0 . par´metros fijos desconocidos. Para ello contamos con una muestra de N observaciones de = β0 X0 + β1 X1 + · · · + βp−1 Xp−1 + ǫ. .´ 1.1. . ǫ una variable aleatoria inobservable. regresores. . Notaci´n o Consideramos una variable aleatoria Y (regresando. . .1. finalmente. s´lo postulao u o mos la existencia de una relaci´n cuya forma y alcance queremos investigar. buscaremos relaciones o del tipo Y = f (X0 . en general. . X0 . X1 . Y ser´ la variable I.

denotando · la norma eucl´ ıdea ordinaria: y (ver Definici´n A.0 + β1 x2. ǫ es inobservable. El contexto aclarar´. y a ˆ es decir. p´g.1 + · · · + βp−1 xN. .p−1 + ǫ2 . Como se ha dicho. ˆ ˆ recogen la diferencia entre los valores muestrales observados y ajustados de la variable aleatoria Y . y de los correspondientes valores de las variables explicativas X. e o β el vector de par´metros (β0 . diremos que β o ınimo. . o ˆ Denotaremos mediante β al vector de estimadores de los par´metros.1): y1 = β0 x1. 229).2) = 2 yi i .p−1 + ǫN .6 ´ CAP´ ITULO 1. a ǫ el vector N × 1 de valores de la perturbaci´n aleatoria ǫ. EL MODELO DE REGRESION LINEAL. .1 + · · · + βp−1 x1.0 + β1 xN.p−1 + ǫ1 y2 = β0 x2. . por otra parte. Por consiguiente. siendo: y el vector N × 1 de observaciones de la variable aleatoria Y. cuando β y ǫ son o a variables aleatorias o valores muestrales. Adoptaremos para la estimaci´n el criterio m´ o ınimo cuadr´tico ordinario a ˆ es ´ptimo si y − X β 2 es m´ ˆ (MCO). Utilizamos min´sculas para designar valores muestrales y may´sculas pau u ra las correspondientes variables aleatorias (as´ por ejemplo. la variable aleatoria Y . y denota el ı vector de valores observados de la variable aleatoria Y en una determinaˆ ˆ da experimentaci´n). βp−1)′ .2.0 + β1 x1. definido por ǫ = y −X β. La muestra nos permitir´ a escribir N igualdades similares a (2. . X la matriz N × p de valores de las variables explicativas. . Su elemento xij denota el valor que la j–´sima variable explicativa toma en la i– e ´sima observaci´n. escribiremos dichas N igualdades as´ ı: y = Xβ + ǫ .1 + · · · + βp−1 x2. o a 2 def (1. yN = β0 xN. los residuos por ǫ al vector N ×1 de residuos. En forma matricial.

etc. minimizando una e o norma. . es entonces condicional a los a valores observados de X. rango(X) = p < N.p−1 i 2 Observaci´n 1. E[ǫ ǫ ′ ] = σ 2 I. 18) ventajas adicionales de plantear y resolver o a el problema en t´rminos de aproximaci´n vectorial.3 a continuaci´n.3. Si se o e emplea la norma eucl´ ıdea es por conveniencia matem´tica y por ser a un criterio “razonable” desde diversos puntos de vista. podr´ ıamos minimizar ˆ ||y − X β||L1 (suma de los valores absolutos de los errores de aproximaci´n. o cualquier otra cosa. − βp−1 xi. al comienzo de esta Secci´n) nos coloca en una situaci´n de dise˜o experimental. 2.2 El criterio de seleccionar como estimadores de o ˆ ˆ 2 es totalmente arbitrario. Supuestos. y que la matriz X es no aleatoria. . n Muchas veces (notablemente en Ciencias Sociales) no es posible fijar los valores de X. Adem´s de suponer que Y = X β + ǫ a requeriremos lo siguiente: 1.3 o ? Si realizamos las demostraciones en t´rminos de normas.1. tambi´n llamada norma L1 ). E[ǫ ] = 0. servir´n sea e a cual fuere la norma que adoptemos. la n ıa inferencia sobre los par´metros β . sino tan solo recolectar una muestra. Decimos entonces que estamos ante una situaci´n observacional (en oposici´n o o a un dise˜ o experimental).1. p´g. Muchos resultados ser´n as´ “todo a ı terreno”. SUPUESTOS. 3. De ah´ o o n ı que a la matriz X se la denomine matriz de dise˜o. Ello no afecta a la teor´ que sigue.3. 1. 7 Observaci´n 1. Veremos en breve o o (Observaci´n 3. ¿Por qu´ introducir la norma euclidea y e no limitarnos a proponer como criterio la minimizaci´n de o ˆ ˆ yi − β0 xi0 − β1 xi1 − .1 El suponer que los valores de los regresores o pueden ser fijados por el analista (apartado 2. En β el vector β minimizando y − X β lugar de minimizar la norma eucl´ ıdea ordinaria. trasladables de inmediato a problemas con supuestos diferentes a los realizados en la Secci´n 2. . Observaci´n 1.

nada impedir´ que tom´ramos loıa a garitmos para obtener Y = log(W ) = β0 + β1 x1 + β2 x2 + ǫ. k An´logamente. El supuesto 2). es claro que si: a Y = β0 1 + β1 x 1 + · · · + βp−1 x p−1 + ǫ (1. Nos referiremos a 1)–3) en lo sucesivo como los supuestos habituales. y las consecuencias a que de ello se derivan estudiadas. Las estimaciones del vector β se obtendr´ entonces resolviendo ıan dicho sistema. Veremos en lo que sigue que este caso particular carece de inter´s (se dice que no tiene “grados de libertad”). si pens´ramos que la variable aleatoria W se genera a a del siguiente modo: W = kz1 β1 z2 β2 ν. la primera columna est´ formada por “unos”).3) puede reescribirse equivalentemente como: Y = (β0 1 + µ) + β1 x1 + · · · + βp−1 xp−1 + (ǫ − µ). entonces (2. El supuesto 3) simplemente fuerza la independencia lineal entre las (p) columnas de X. Por ejemplo.4) y (2.8 ´ CAP´ ITULO 1. t´ e ıpicamente. podr´ ıamos especificar un modelo de regresi´n as´ o ı: Y = β0 + β1 x1 + · · · + βk x2 + · · · + βp−1 xp−1 + ǫ. al menos en el caso en que X tiene entre sus columnas una cuyos o valores sean constantes (y ´sto suele suceder. En efecto. El supuesto 1) no implica p´rdida de generalidad ni supone ninguna rese tricci´n. Observaci´n 1. e Algunos de los supuestos anteriores ser´n relajados. requiere que las perturbacioa nes sean incorrelacionadas (covarianzas cero) y homosced´sticas (de id´ntica a e varianza).4 Nada impide que los regresores sean transforo maciones adecuadas de las variables originales. si pensamos que la variable aleatoria Y depende del cuadrado de Xk y de otras variables.4) incorpora un vector de perturbaciones (ǫ − µ) verificando el primero de nuestros supuestos. EL MODELO DE REGRESION LINEAL. con o distribuci´n logar´ o ıtmico normal). y tiene siempre soluci´n para alg´n vector β que hace los resio u duos nulos. (1.3) y el vector de perturbaciones verifica E[ǫ ] = µ. bastante m´s restrictivo. pues entonces y = X β es un sistema de ecuaciones lineales ˆ determinado. . siendo ν una perturbaci´n aleatoria no negativa (por ejemplo. El requerimiento N > p excluye de nuestra consideraci´n o ˆ el caso N = p.

e y ∈ H un vector cualquiera.4. lo que simplifica algunas f´rmulas. 3. p´g. . Si adoptamos el criterio o MCO propuesto m´s arriba. a 9 1. 229) e o a real-valorados. . ıa Definici´n 1. impl´ ıcitamente consideramos productos internos (v´ase Definici´n A. . 2. La estimaci´n m´ o ınimo cuadr´tica como a problema de aproximaci´n vectorial. Hacemos tambi´n un uso o e bastante tosco del lenguaje y notaci´n. o ˆ ˆ = β0 x0 + · · · + βp−1 xp−1 + ǫ. Hay diferentes posibilidades en cuanto a criterio de estimaci´n de los β. identificando vectores con matrices o columna.´ 1. / (y − u) ⊥ M . Lo inadecuado del formalismo puede ser f´cilmente suplido por el lector. ˆ ˆ ˆ La ecuaci´n matricial y = X β + ǫ puede reescribirse as´ o ı: y (1. operadores lineales y matrices asociadas a ellos. y evita notaci´n a o que podr´ hacerse agobiante.5. como se ha indicado). βp−1 que hacen que la combinaci´n lineal β0 x0 + · · · + βp−1 xp−1 ˆ ˆ ˆ tes β o aproxime ´ptimamente (en sentido m´ o ınimo cuadr´tico) el vector y ? Veremos a inmediatamente que esta combinaci´n lineal es lo que llamaremos proyecci´n o o de y sobre el subespacio generado por las columnas x0 . etc.5) a ˆ o muestra que el problema puede reformularse as´ ¿Cuales son los coeficienı: ˆ0 . u=y si y ∈ M. Lo que realmente se requiere es que la expresi´n de la variable end´gena o regresando Y o o sea lineal en los par´metros. β0 = log(k) y ǫ = log(ν). . Decimos que u es proyecci´n de y o sobre M (y lo denotamos por u = PM y ) si: 1. xp−1 . . xp−1 denotan los vectores columna de la matriz X (x0 ser´ en a general una columna de “unos”.4. MCO COMO APROXIMACION VECTORIAL en que xi = log(zi ).5) donde x0 . si y ∈ M. consistente en minimizar ǫ 2 . 1. . . Sea M ⊆ H un subespacio del o mismo. . Aunque en lo que sigue se hace un tratamiento generalizable.1. u ∈ M. . .1 Sea H un espacio vectorial. . la ecuaci´n (2. Proyecciones.

(1. Como consecuencia. o y ǫ ˆ PM y b Siempre existe (y es unica) la proyecci´n de un vector en H sobre el ´ o subespacio M. Figura 1. ´ proyecci´n de y sobre M. EL MODELO DE REGRESION LINEAL.1 Sea H un espacio vectorial. 1 .2: El vector PM y es la proyecci´n de y sobre M (plano horizontal).10 ´ CAP´ ITULO 1.1. y − b es la hipotenusa de un tri´ngulo a Estrictamente incorrecto. y M un subespacio del mismo. El Teorema E. para ˆ cualquier vector b = PM y en M. 2. tal como establece el teorema siguiente1 . p´g.6) La Fig. Se verifica que: o y −u 2 = m´ ın z∈M y −z 2 . Consideremos PM y : podr´ ıamos describirlo como el obtenido al dejar caer una plomada desde el extremo de y hasta hacer contacto con M. En dicha figura se ha considerado H = R3 y un subespacio M de dimensi´n dos representado como el plano o horizontal. y hace o o intuitivamente evidente el Teorema 2.2 ilustra en tres dimensiones la noci´n de proyecci´n. Para cualquier vector y ∈ H existe siempre un unico vector u = PM y . Es claro que ǫ = y − PM y es ortogonal a M.1. Teorema 1.1. 254 es una versi´n m´s elaborada del a o a Teorema 2.

a ˆ y −b 2 11 = ǫ ˆ 2 + b − PM y 2 > ǫ ˆ 2 lo que demuestra la propiedad de PM y de ser la mejor aproximaci´n de y en o M. Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec´ ıfico para R. o Ugarte et al. n Myers (1990).6. Lectura recomendada. Hay documentos con extensi´n de libro disponibles en Internet. cuyos catetos son ǫ y el segmento b − PM y . El primero de los libros citados. Draper and Smith (1998). Pe˜a (2002). Sobre la utilizaci´n de R. Faraway o (2005). Sobre la teor´ ıa. rect´ngulo. Por tanto. pero es e o demasiado escueto para servir de introducci´n al lenguaje. Cap. R es una impleo mentaci´n de fuente libre del lenguaje estad´ o ıstico y gr´fico S (ver por ejemplo a Becker et al. o los cap´ o ıtulos introductorios de la mir´ ıada de buenos textos que existe sobre regresi´n lineal: Seber (1977). Dalgaard (2002).6. Venables and Ripley (1999b)). LECTURA RECOMENDADA. Los textos introductorios sobre S son por ello utilizables con R. 254. (1988). Puede leerse como complemento a este cap´ ıtulo Faraway (2005). como Maindonald o (2000) o Kuhnert and Venables (2005). ilustra tambi´n el modo de emplear R para hacer regresi´n.1. Chambers and Hastie (1992) o Chambers (1998)). 2.) o o a 1. o Stapleton (1995). Ryan (1997) o Troc´niz (1987a) son algunos de o ellos. Searle (1971). Secci´n 1 a 3. (Una demostraci´n formal que va m´s all´ de esta incompleta argumeno a a taci´n puede encontrarse en la Secci´n E. 1 y Cap.1. (2008). Arnold (1981). . p´g.

x <. En la Secci´n 2. 1.4) 1. 1. se o a proporcionan referencias. Por ejemplo.12 ´ CAP´ ITULO 1. 11. EL MODELO DE REGRESION LINEAL.5 El valor de la variable puede ser utilizado en c´lculos subsiguientes. Por ejemplo. a tecleando x + 5 obtendr´ ıamos “10”. p´g.3 Para efectuar multitud de c´lculos en R empleamos funcioa nes. para sumar varios n´ meros y asignar el resultado a u x podr´ ıamos escribir: x <.2 En R para crear un vector y asignarlo a la variable x haremos: x <.c(1. o 1.6.7.5 + 7 + 12 o tambi´n e x <. tal como R.sum(c(5.12)) que hace uso de la funci´n sum.3. Complementos y ejercicios Algunos de los ejercicios que siguen requieren hacer uso de un ordenador y un programa especializado.4 El producto interno eucl´ ıdeo de dos vectores x e y puede calcularse as´ ı: sum(x * y) o alternativamente: .1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-.

x %*% y 13 1. como en la ultima l´ ´ ınea.6. 1. tecleando las expresiones que aparece a la izquierda obtendr´ ıamos los resultados que se indican a la derecha: a a[1] a[1:2] a[c(1. b.1. que o empleado como sub´ ındices retorna los elementos de a mayores que 6.F. LECTURA RECOMENDADA. Por ejemplo. que permite operar con operandos disimilares.7. a Por ejemplo. 1.3) b <.T)] a[a>6] produce: produce: produce: produce: produce: produce: produce: produce: 6 6 6 6 7 8 8 7 7 8 7 7 8 8 Los sub´ ındices se ponen entre corchetes. Un sub´ ındice negativo se interpreta como omitir el correspondiente valor. o Podemos incluso. Por ejemplo. podemos emplear sub´ e ındices l´gicos: F (falso) y T (cierto).c(1. para obtener la descripci´n o o de sum podr´ ıamos teclear: .5 En R rige la “regla del reciclado”.2.2)] a[-1] a[-(1:2)] a[c(F. [ ].c(6. Adem´s de sub´ a ındices num´ricos. si: a <.5 entonces. se ha a usado repetidamente para construir un operando que pueda sumarse a a. tecleando a + b obtendr´ ıamos el vector (6 7 8) ′ . El argumento m´s corto.8) entonces. si: a <.6 En R es muy f´cil acceder a elementos aislados de un vector.7 La funci´n help permite interrogar a R sobre el modo de o empleo de cualquier funci´n. emplear expresiones que den como valor un vector l´gico: a > 6 produce el vector F T T.

list. Obs´rvese que tecleando e example(scan) podemos ejecutar los ejemplos que aparecen en la documentaci´n on o line sin necesidad de reteclearlos.eucl <. solve.v).14 ´ CAP´ ITULO 1. la definici´n de una funci´n como eucl es innecesaria: en o o R podemos emplear x %* % x (o alternativamente crossprod(x)) que cumplen an´logo cometido. scan. o y esto hasta el nivel de complejidad que se desee. help(sum) Empl´ese la funci´n help para averiguar el cometido de las siguientes e o funciones de R: t.x)) } que hace uso de eucl definida anteriormente. o o 1.function(x) { sqrt(eucl(x. o podemos calcular la norma eucl´ ıdea de un vector x tecleando simplemente: norma. a . nrow. Una funci´n puede emplearse como bloque constructivo de otras. En R no necesitamos limitarnos a ellas. rbind. el lenguaje es extensible por el usuario.8 Cuando escribimos expresiones como sum(x * y) estamos empleando funciones predefinidas (en este caso. teclear´ ıamos: eucl(u.y) { sum(x*y) } que asigna a eucl la funci´n especificada en el lado derecho.eucl(x) En realidad. read. ncol.start() abre una ventana de ayuda en un navegador —si es que hay alguno instalado en la m´quina que empleamos—. EL MODELO DE REGRESION LINEAL. lo que permite a navegar c´modamente por la documentaci´n. Tras esta definici´n. Obs´rvese tambi´n que el mandato e e help. sum). La norma eucl´ ıdea podr´ calcularse mediante una funci´n definida as´ ıa o ı: norma. Podr´ ıamos definir una funci´n eucl para realizar el producto interno o as´ ı: eucl <.function(x.table. cbind. Para o invocarla con los vectores u y v.

y ii) Que (y − z ) ⊥ x . del esquema a continuaci´n inmediatamente se deduce que o < x . Compru´bese que el vector z e resultante es efectivamente la proyecci´n buscada. 1 0 1 0 1 1. se verifica: u PM y = < x.x > 1. para lo cual es preo ciso ver: i) Que z es colineal con x .11. pero no base.9 Recordemos que el producto eucl´ ıdeo (o escalar ) de dos vectores x . 0 . de a R e o p´g. mediante el procedimiento de Gram-Schmidt— una base ortonormal de dicho subespacio. 1.1. y 15 α x PM y Ded´ zcase que.y > x < x. dados dos vectores arbitrarios o x e y .     1 2 0 . siendo M el subespacio generado por x . y >= ||x ||||y || cos(α) siendo α el ´ngulo que ambos vectores forman. en el caso general en que ||x || = 1. tres que formen base de R3 . obtenga el vector proyecci´n del segundo sobre el espacio (unio dimensional) generado por el primero. Esta igualdad se extiena N definiendo cos(α) convenientemente (v´ase Definici´n A. Si a o ||x || = 1. Sea PM y la proyecci´n de y sobre el subespacio M .12 (↑ 2.10 Escr´ ıbase una funci´n que.         1 1 1 1 0 . 3 0 1 .11 Demu´strese que los siguientes cuatro vectores de R3 son e un sistema generador de dicho espacio. 1 . Encuentrese —por ejemplo. LECTURA RECOMENDADA. y >= ||PM y ||. 1. y en R3 verifica: < x . 229). de entre los cuatro vectores indicados o en el Problema 2.11) Selecci´nese.3.6. 1.10) Los siguientes dos vectores generan un subespacio 2-dimensional de R3 .13 (↑ 2.

pero es computacionalmente mucho m´s costosa. En lugar de minimizar la suma de cuadrados de los residuos. a 1. o a hay alternativas al criterio MCO. 7. (2001) y Eubank (1988). 1. Un excelente manual sobre redes neuronao les es Haykin (1998). “Siıa ´ milar” porque en el caso de una red neuronal la “estimaci´n” (entrenao miento o aprendizaje) se realiza de ordinario mediante un proceso iterativo. cuyo resultado no necesariamente ha de coincidir exactamente con la estimaci´n MCO.16 Hay alternativas a la regresi´n lineal: regresi´n no o o lineal y regresi´n no param´trica (en que se considera una relaci´n o e o entre regresores y regresando que no est´ constre˜ ida a ser lineal ni de a n ninguna otra forma funcional prefijada).14 Demu´strese que la correspondencia PM : x −→ y = PM x e es una aplicaci´n lineal. podr´ ıamos minimizar la suma de sus valoN res absolutos: i=1 |ˆ| (norma L1 del vector de residuos). EL MODELO DE REGRESION LINEAL. Hastie et al. En regresi´n no param´trica o e se emplean principalmente tres m´todos: kernels. Como se ha indicado en la Observaci´n 2. 1.16 ´ CAP´ ITULO 1.2.17 . vecinos m´s pr´xie a o mos y splines. o 1. Uno de sus ǫ atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande.15 La estimaci´n de un modelo de regresi´n lineal o o realiza una aproximaci´n del vector respuesta Y similar a la que lleo var´ a cabo una red neuronal compuesta por una unica neurona. p´g. Textos que tratan redes neuronales desde una perspectiva estad´ ıstica son Ripley (1996) y Bishop (1996). por ejemplo. Pueden consultarse.

.Cap´ ıtulo 2 Estimaci´n m´ o ınimo cuadr´tica.4) . . Si dotamos a H del producto interno eucl´ ıdeo ′ < v. Como M es el subespacio consiguiente. ˆ X p−1 ⊥ (y − X β) que podemos reunir en la igualdad matricial ˆ X ′ (y − X β) = 0 y de aqu´ se deduce que: ı ˆ X ′X β = X ′y .5 inmediatamente se deduce que el vector en M m´s pr´ximo a y (en el sentido de minimizar la norma al a o cuadrado del vector de residuos ǫ ) es la proyecci´n de y sobre M. a 2. . w > = v w. a Si y es un vector N × 1.3) (2. . de las Secciones 2.5) (2.1) (2. consideremos H = RN y M = subespacio generado por las columnas de X. 17 (2.2) (2.4 y 2. ˆ X 0 ⊥ (y − X β) ˆ X 1 ⊥ (y − X β) . Obtenci´n de los estimadores de los pao r´metros. .1. ha de verificarse que (y − X β) generado por las columnas de X. Por ˆ o ˆ ⊥ M.

en el caso de rango total. ESTIMACION M´ INIMO CUADRATICA.6) se deduce tambi´n que. ˆ ˆ Podemos ver X β y ǫ como las proyecciones de y sobre dos espacios mutuamente ortogonales: M y M ⊥ . La igualdad matricial anterior recoge las ecuaciones normales. (2. Las ecuaciones normales se verifican en todo caso. Volveremos sobre esta cuesti´n al hablar de multicolinealidad.1 Sean P e (I − P ) las matrices de proyecci´n definidas en el o p´rrafo anterior.1 El ser X β proyecci´n de y sobre M garantiza o o sin m´s que a ǫ ˆ ˆ es m´ ınimo. El defecto de rango en X e ´ a ˆ tiene tan solo por consecuencia que el vector β deja de estar un´ ıvocamente determinado. entonces (X ′ X) es de rango completo. 10). y posee inversa.18 ´ ´ CAP´ ITULO 2. Las matrices PM e (I − PM ) que.p−1 i 2 e igualando las derivadas a cero (ver Observaci´n 2. Por tanto. tienen algunas propiedades que detallamos a continuaci´n. sobreentendiendo el o subespacio M. la proyecci´n e o de y sobre M viene dada por PM y = X(X ′ X)−1 X ′ y . rango(X) = p.7) ˆ Observaci´n 2. − βp−1 xi.10) (2. p´g.6) Obs´rvese que el supuesto de rango total de la matriz X —y consiguiene temente de (X ′ X)— es requerido exclusivamente para pasar de (3. (2.9) (2. Si. p´g. como suponemos.5) a (3. o Teorema 2. 7).1.8) (2. .6). obteno a ˆ dr´ ıamos un β del que todo lo que podr´ ıamos afirmar es que corresponde a un punto estacionario de la expresi´n anterior (suma de cuadrados o de los residuos). Si hubi´ramos obtenido β derivando e ˆ ˆ yi − β0 xi0 − β1 xi1 − .3. o De (3. el vector de estimadores de los par´metros ser´: a a ˆ β = (X ′ X)−1 X ′ y .11) (2. Se verifica lo siguiente: a . denominaremos en lo sucesivo P e (I − P ). y la proyecci´n de y soo bre M es tambi´n unica (Teorema 2. . Para establecer que se trata de un m´ ınimo. y el vector de residuos por ǫ ˆ = = = = ˆ y − Xβ y − X(X ′ X)−1 X ′ y (I − X(X ′ X)−1 X ′ )y (I − PM )y . habr´ ıamos de tomar a´ n segundas derivadas y verificar el cumplimiento de u las condiciones de segundo orden. para aligerar la notaci´n.

´ 2. el problema ıa o o puede reescribirse as´ ı: m´ (y − X β ) (y − X β ).1. e 2.12) (2. y no es el menor el de proporcionar intuici´n geom´trica e o e acerca de la soluci´n m´ o ınimo cuadr´tica ordinaria (MCO). por ultimo. rango(I − P ) = N − p.15) (2. i=1 (2. Tendremos ocaa siones abundantes de explotar esta intuici´n. p´g. Por tanto: e a rango(I − P ) = = = = = traza(I − P ) traza(I) − traza(P ) N − traza[X(X ′ X)−1 X ′ ] N − traza[(X ′ X)−1 X ′ X] N − p.p−1 )2 . UNA OBTENCION ALTERNATIVA 1. . (2.17) tal como suger´ la Observaci´n 3. Una obtenci´n alternativa o ˆ La obtenci´n del vector de estimadores β en la secci´n precedente tiene o o muchos m´ritos. 3. por lo que su producto por cualquiera de los vectores columna de X (pertenecientes a M) da el vector 0.2. siendo (I − P ) idempotente.1. ´ Demostracion: 19 El apartado 1) es inmediato. 2. Con notaci´n matricial. Se verifica que (I − P )X = 0.2. su rango coincide con su traza (v´ase Teorema A. se prueba sin m´s que efectuar el producto ´ a matricial indicado.16) El apartado 3).18) . Es adem´s inmediato si reparamos en que la matriz (I−P ) a proyecta sobre el subespacio M ⊥ . ın β ′ (2.13) (2. En cuanto a 2). o Podemos seguir una v´ alternativa para llegar al mismo resultado: planıa tear el problema en forma de minimizaci´n respecto a β de la expresi´n: o o N (yi − β0 xi0 − β1 xi1 − . . 229). Las matrices P e (I − P ) son sim´tricas e idempotentes. − βp−1 xi.14) (2.

20) que son las ecuaciones normales (3. (2. (2. o Importa comprobar que esta aproximaci´n al problema. obtenemos las condiciones de o a primer orden 2X ′ (y − X β ) = 0 . p´g. a ˆ Notemos que β es un vector aleatorio. 231. γ En el caso de estimar un vector de par´metros. ˆ . etc. la e ǫ idempotencia de algunas matrices. Recordemos que un estimador γ del par´metro γ se dice insesgado si ˆ a E[ˆ ] = γ. Propiedades del estimador m´ ınimo cuaˆ dr´tico β. deja en la penumbra muchas cosas ıa o o ˆ que son de inter´s: la ortogonalidad del vector de residuos ˆ = y − X β. ˆ El vector β = (X ′ X)−1 X ′ y por tanto es un vector aleatorio: “hereda” su condici´n de tal de y . que a su vez la obtiene de ǫ . la condici´n an´loga es a o a ˆ E[β] = β . Recordemos tambi´n que la matriz de covarianzas de un vector aleatorio e ˆ se define por: como β ˆ ˆ ˆ ˆ ′ Σβ = E[β − E(β)][β − E(β)] . Tiene por ello sentido o preguntarse por su vector de valores medios y por su matriz de covarianzas.5). cada vez intervendr´n en la formaci´n de a o y diferentes perturbaciones. en e o experimentos repetidos obtendremos cada vez un diferente vector y de valores de la variable respuesta.2—. En efecto. Es f´cil comprobar tomando las segundas derivadas que la soluci´n (o a o soluciones. La “suma de cuadrados” anterior es una forma cuadr´tica de matriz unidad.12). 2.20 ´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA. a Haciendo uso de la f´rmula (A. pues los valores de los regresores se fijan por el experimentador: recu´rdese los supuestos introducidos en la Secci´n 2.19) o equivalentemente X ′ y = (X ′ X)β . si hay m´s de una) del sistema de ecuaciones precedente corresa ponde a un m´ ınimo y no a un m´ximo o punto de silla: la matriz de segundas a derivadas (X ′ X) es por construcci´n (semi)definida positiva.3. Aunque X se mantenga fija — cosa que podemos lograr. a diferencia de la o que hac´ uso de la noci´n de proyecci´n.

ˆ 2. 7) o a se cumple tambi´n que: e ˆ 1. esperar´ ıamos que este promedio se acercar´ progresivamente m´s a su objetivo (el a a verdadero valor del par´metro). (Gauss-Markov). ˆ ´ Demostracion: Tomando valor medio en (3. es el que estima con mayor precisi´n el vector β —. β es un estimador lineal insesgado de β . ˆ ˆ 3. El o siguiente Teorema formaliza y demuestra estas propiedades. dentro de una clase particular de estimadores es el que exhibe menores varianzas en la diagonal principal de Σβ ˆ —y. los componentes del vector β La insesgadez de un estimador es intuitivamente atrayente: supone que no incurrimos en derivas sistem´ticas al estimar el par´metro objeto de ina a ter´s. PROPIEDADES DEL ESTIMADOR M´ INIMO CUADRATICO β. Si β es el estimador m´ ınimo cuadr´tico ordinario de a ˆ β . 21 ˆ expresi´n que en el caso de ser β insesgado como estimador de β se simplifica o de modo obvio a ′ ˆ ˆ Σβ = E[β − β ][β − β ] .3.6): ˆ E[β] = E[(X ′ X)−1 X ′ y ] = E[(X ′ X)−1 X ′ (X β + ǫ )] = β + E[(X ′ X)−1 X ′ ǫ ] = β.3. a ˆ Acontece que el vector de estimadores β disfruta de esta atractiva propiedad de insesgadez. . ˆ La matriz de covarianzas Σβ tiene en su diagonal principal las varianzas de ˆ ˆ y fuera de la diagonal principal las covarianzas. en este sentido. p´g. Teorema 2. cualquier otro estimador β∗ de β que sea lineal e insesgado tiene matriz de covarianzas con elementos diagonales no menores que los de Σβ . Adicionalmente.2 Si se verifican los supuestos habituales (Secci´n 2.´ ˆ 2. La matriz de covarianzas de β es Σβ = σ 2 (X ′ X)−1 . Si repiti´ramos el mismo experimento muchas veces y promedi´ramos e e a los valores del estimador insesgado obtenidos en cada experimento.

22

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

ˆ luego β es insesgado. Por consiguiente, la matriz de covarianzas Σβ tendr´ a ˆ por expresi´n: o ˆ ˆ Σβ = E(β − β )(β − β )′ ˆ = = = = = E[(X ′ X)−1 X ′ (X β + ǫ ) − β ][(X ′ X)−1 X ′ (X β + ǫ ) − β ]′ E[(X ′ X)−1 X ′ ǫ ][(X ′ X)−1 X ′ ǫ ]′ E[(X ′ X)−1 X ′ ǫ ǫ ′ X(X ′X)−1 ] (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 σ 2 (X ′ X)−1 .

ˆ ˆ Para demostrar 3), consideremos cualquier estimador β∗ alternativo a β. Dado que restringimos nuestra atenci´n a estimadores lineales, podemos escribir o ˆ β∗ = C Y , siendo C una matriz de orden adecuado. Siempre podremos expresar C as´ ı: C = (X ′ X)−1 X ′ + D. (2.21)

Puesto que nos limitamos a considerar estimadores insesgados, ha de verifiˆ carse: E β∗ = EC Y = β , y por tanto: E[(X ′ X)−1 X ′ + D]Y = β . De aqu´ se ı deduce: E[(X ′ X)−1 X ′ (X β + ǫ ) + D(X β + ǫ )] = β , β + DX β = β, (2.22) (2.23)

dado que Eǫ = 0. Como (3.23) se ha de verificar sea cual fuere β , la insesˆ gadez de β∗ implica DX = 0. ˆ La matriz de covarianzas de β∗ es: Σβ∗ ˆ Pero: ˆ (β∗ − β ) = [(X ′ X)−1 X ′ + D]Y − β = [(X ′ X)−1 X ′ + D](X β + ǫ ) − β = [(X ′ X)−1 X ′ + D]ǫ . (2.25) (2.26) (2.27) = ˆ ˆ E[(β∗ − β )(β∗ − β )′ ]. (2.24)

donde (3.27) se ha obtenido haciendo uso de DX = 0. Llevando (3.27) a (3.24), obtenemos: Σβ∗ = E{[(X ′ X)−1 X ′ + D]ǫ ǫ ′ [(X ′ X)−1 X ′ + D]′ } ˆ (2.28)

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. que, de nuevo haciendo uso de que DX = 0, se transforma en: Σβ∗ = (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1 + σ 2 DID ′ ˆ = σ (X X) + σ DD = Σβ + σ 2 DD ′ . ˆ
2 ′ −1 2 ′

23

(2.29) (2.30) (2.31)

La matriz DD ′ tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostraci´n de o 3). De forma completamente similar se puede demostrar una versi´n ligerao mente m´s general: la estimaci´n lineal insesgada con varianza m´ a o ınima de ˆ ˆ ınimo cualquier forma lineal c ′ β es c ′ β, siendo β el vector de estimadores m´ cuadr´ticos. a

Observaci´n 2.2 La insesgadez de un estimador es una proo piedad en principio atrayente, pero de ning´ n modo indispensable. u De hecho, un estimador insesgado de un par´metro puede incluso no a existir. (Para una discusi´n de la condici´n de insesgadez y de sus o o implicaciones puede verse Lehmann (1983), Cap. 2.) En el Cap´ ıtulo 11 comprobaremos que, en ocasiones, podemos optar con ventaja por utilizar estimadores sesgados.

2.4.

Estimaci´n de la varianza de la perturo baci´n. o

El Teorema 3.2 proporciona la matriz de covarianzas del vector de estiˆ ˆ madores β, Σβ = σ 2 (X ′ X)−1 . Pero mientras que (X ′ X) es conocida, σ 2 es un par´metro que necesita ser estimado. Veamos como hacerlo. a Definici´n 2.1 Denominamos SSE o suma de cuadrados de los residuos al o cuadrado de la norma del vector de residuos, SSE
def

=

ˆ y − Xβ

2

=

ǫ ˆ

2

Teorema 2.3 Una estimaci´n insesgada de la varianza de la perturbaci´n o o viene proporcionada por SSE σ2 = ˆ N −p

24

´ ´ CAP´ ITULO 2. ESTIMACION M´ INIMO CUADRATICA.

´ Demostracion: Como ˆ X β = P Y = X(X ′ X)−1 X ′ Y , tenemos que ˆ (Y − X β) = (I − P )Y = (I − P )(X β + ǫ ) = (I − P )ǫ , y por tanto SSE = Y ′ (I − P )′(I − P ) Y = ǫ ′ (I − P )′ (I − P ) ǫ . En virtud de la simetr´ e idempotencia de (I − P ), ıa SSE = ǫ ′ (I − P )ǫ = traza ǫ ′ (I − P )ǫ = traza (I − P )ǫ ǫ ′ . Tomando valor medio en (3.38) tenemos: E(SSE) = traza(I − P )(σ 2 I) = σ 2 (N − p). (2.39) (2.36) (2.37) (2.38) (2.33) (2.34) (2.35) (2.32)

(El ultimo paso ha hecho uso de la propiedad traza(I − P ) = N − p, Teorema ´ 3.1, p´g. 18.) De (3.39) se deduce entonces que a E
def

SSE = σ2 N −p

y σ 2 = SSE/(N − p) es por tanto un estimador insesgado de σ 2 . ˆ

Observaci´n 2.3 En lo que sigue, SSE denotar´ tanto la variao a
ble aleatoria definida m´s arriba como su valor en una experimentaci´n a o concreta, contra la convenci´n habitual con otras variables en que se o emplean min´ sculas para denotar sus valores en una experimentaci´n. u o El contexto aclarar´ si nos estamos refiriendo a una variable aleatoria a o a un valor experimental de la misma.

´ ´ 2.4. ESTIMACION DE LA VARIANZA DE LA PERTURBACION. Observaci´n 2.4 El Teorema 3.3 muestra que para obtener una o
estimaci´n insesgada de la varianza de la perturbaci´n debemos dividir o o la suma de cuadrados de los residuos, no entre el n´ mero de residuos u N , sino entre los grados de libertad N − p. Que el n´ mero de par´meu a tros estimado debe tomarse en consideraci´n en el denominador del o estimador es intuitivamente plausible. Despu´s de todo, si aument´e a ramos el n´ mero de regresores (y par´metros estimados) p hasta que u a p = N , SSE ser´ id´nticamente cero. (Estar´ ıa e ıamos ante un problema sin grados de libertad.) Sin llegar a este extremo, es claro que aumentando el n´ mero de regresores incrementamos nuestra capacidad u de aproximar y (y de reducir SSE), y esto ha de ser contrapesado reduciendo tambi´n el denominador. e

25

Observaci´n 2.5 El Teorema 3.3 subsume y ampl´ un resulo ıa tado que habitualmente aparece sin demostraci´n en los cursos eleo mentales de Estad´ ıstica: un estimador insesgado de la varianza de una poblaci´n, dada una muestra i.i.d. de la misma, viene dada por o
σ2 = ˆ
N i=1 (Yi

− Y )2 . N −1

(2.40)

Este resultado puede obtenerse como caso particular del Teorema 3.3 si reparamos en lo siguiente: podemos imaginar las Yi como generadas por Yi = β0 + ǫi , en que β0 es la media y ǫi una perturbaci´n de media cero y misma o varianza que Yi . Si regres´ramos las observaciones Y1 , . . . , YN sobre a una columna de “unos”, 1 , el unico par´metro estimado ser´ ´ a ıa:
N ′ ′ ˆ β0 = (X ′ X)−1 X ′ Y = (1 1 )−1 1 Y = N −1 i=1

Yi = Y

El mejor ajuste que puede hacerse de las Yi en t´rminos de este unico e ´ ˆ regresor es β0 1 y la suma de cuadrados de los residuos es por tanto N N 2 ˆ 2 o i=1 (Yi − β0 1 ) = i=1 (Yi − Y ) . La expresi´n (3.40) coincide por tanto, en este caso particular, con la dada por el Teorema 3.3.

R: Ejemplo 2.1 (c´lculo de los estimadores MCO) a
El siguiente listado crea artificialmente una matriz X y el vector respuesta y . A continuaci´n, realiza la regresi´n de dos formas. En la o o primera, se realizan los c´lculos de modo expl´ a ıcito. En la segunda, se recurre a la funci´n lsfit predefinida en R, que simplifica consideo rablemente el trabajo. Existen funciones alternativas m´s avanzadas a que se introducen m´s adelante. a

12.26 ´ ´ CAP´ ITULO 2. 2). la matriz o ıa a de dise˜ o.] [5.] A continuaci´n. Se muestran varias formas alternativas de hacerlo. 0. t(X) %*% + y) > b . n > X <. Al margen de la comodidad. 4. fijamos un vector β o > beta <. 0. p´g. 1. 1.) A contio nuaci´n.1] [. + 6. 1. a Podemos por ejemplo escribir > b <. lsfit realiza los c´lculos de un modo a mucho m´s eficiente en tiempo y estable num´ricamente que el sugea e rido por la teor´ no se invierte la matriz (X ′ X) sino que se emplea ıa: la factorizaci´n QR (ver Secci´n D. 3) > X [.3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 [1. 4) Finalmente. 17.] [6.5).] [3. 1.matrix(c(1. Se trata de detalles que no necesitan preocuparnos por el momento. o Lawson and Hano o a son (1974)). 7. 1).solve(t(X) %*% X. 2.] [4.2] [. 1. + 13. 3.c(2.] [2. obtenemos los estimadores resolviendo las ecuaciones normao les (3. Primero.X %*% beta + rnorm(6) (La funci´n rnorm(n) genera n variables aleatorias N (0. generamos los valores de la variable respuesta del modo que prescribe el modelo lineal: > y <. 245. p´g. 1. 4. + 1.2. ESTIMACION M´ INIMO CUADRATICA. Generamos en primer lugar los datos y realizamos la estimaci´n aplicando la teor´ de modo m´s directo. 6.

si existe.b) proporciona una soluci´n. del sisteo o ma de ecuaciones lineales Ax = b ).1] [1.] 2. La ˆ funci´n solve con un unico argumento matricial proporciona la matriz o ´ ˆ inversa.] 2.4.3517 [2.2329 27 (la funci´n solve(A.] 2.2329 Podemos tambi´n escribir: e > XXinv <. la obtenci´n o de los residuos es inmediata: > e <.solve(crossprod(X)) > b <.8129 [3. [.] 4. Una forma m´s r´pida de calcular a a ′ ′ (X X) y X y la proporciona la funci´n crossprod.y . σ 2 (X ′ X)−1 ).3517 [2.X %*% b > e .3517 [2.] 2.] 4.8129 [3.2329 Hemos obtenido separadamente (X ′ X)−1 (que puede servirnos para estimar la matriz de covarianzas de los estimadores.solve(crossprod(X). + y) > b [.] 2. De cualquiera de las maneras que calculemos β. + crossprod(X.´ ´ 2.] 4.] 2.1] [1. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.1] [1. y)) > b [.XXinv %*% crossprod(X. Podr´ o ıamos sustituir lo anterior por > b <.8129 [3.

y.3] [1.3] [1.3] [1.15416 -0.sum(e * e)/(nrow(X) + ncol(X)) > s2 [1] 0. Por ejemplo.1482e-14 1.] [3.2] [. ESTIMACION M´ INIMO CUADRATICA.42097 -0.33238 Fin del ejemplo R: Ejemplo 2.1482e-14 1.29124 0.28 ´ ´ CAP´ ITULO 2.3589e-13 0 > round(crossprod(e.1] 0. X) [. X)) [. intercept = FALSE) .lsfit(X.2] [.61805 0.3589e-13 0 > crossprod(e.] [6. [.] Podemos comprobar la ortogonalidad de los residuos a las columnas de la matriz X: > t(e) %*% X [.] 0 0 0 La suma de cuadrados de los residuos y una estimaci´n de la varianza o de la perturbaci´n pueden ahora obtenerse con facilidad: o > s2 <.1] [.] [5.1] [. > ajuste <.2 Todos los c´lculos anteriores pueden hacerse a con mucha mayor comodidad mediante funciones de regresi´n espeo cializadas.] [2.] -9.] [4.20272 [1.] -9.53689 -0.1] [.2] [.

03616 [6.] 0.60529 .] -5.655823 [4.] 0.78812 -23.´ ´ 2.28869 [2. La funci´n lsfit (least squares fit) devuelve una lista u objeo to compuesto conteniendo en sus componentes los estimadores de los par´metros.20272 $intercept [1] FALSE $qr $qt [1] -75.4.] 0.61805 0.] 0.375532 [5. los residuos y algunos resultados auxiliares asociados al a m´todo de c´lculo empleado (la factorizaci´n QR aludida m´s arriba).40825 0.4082 1.004607 [6.] 3.28718 [5.40825 0.66854 $qr X1 X2 [1.9256 29 48.42874 -0. e a o a Ve´moslo: a > ajuste $coefficients X1 X2 X3 2.42097 -0.71690 X3 [1.40825 -0.40825 11.] 0.63322 [4.0362 1.40825 -0.29124 0.3517 2. ESTIMACION DE LA VARIANZA DE LA PERTURBACION.44949 -14.53689 -0.] -0.] -2.2329 $residuals [1] 0.] -0.95129 [3.047314 $qraux [1] 1.94068 0.940221 [2.8129 4.] 0. hace todo lo anterior y algunas cosas m´s de modo mucho m´s efia a ciente.15416 [4] -0.] -6.583992 [3.33003 [4] -0.

"class") [1] "qr" > resid <.30 $rank [1] 3 $pivot [1] 1 2 3 $tol [1] 1e-07 ´ ´ CAP´ ITULO 2. o . y a podremos prescindir de especificar el argumento intercept. Definamos: SST = SSR = y −y ˆ Xβ − y 2 2 Se verifica entonces el Teorema a continuaci´n. .42097 -0.15416 [4] -0.61805 0. El coeficiente R2 Hay una relaci´n interesante entre SSE y otras dos sumas de cuadrados o que definimos a continuaci´n. ESTIMACION M´ INIMO CUADRATICA. a o Fin del ejemplo 2. attr(.20272 El argumento intercept=FALSE indica a la funci´n lsfit que no debe o agregarse a la matriz de dise˜ o X una columna de “unos” (porque n ya figura entre los regresores).5. y e en que y denota la media aritm´tica de las observaciones en y . con lo que tomar´ el valor por omisi´n TRUE. Sea y el vector N × 1 siguiente: o   y y    y = .ajuste$residuals > resid [1] 0.53689 -0. Ordinariamente ello no suceder´. .29124 0.

se verifica: SST = SSR + SSE ´ Demostracion: SST = y −y 2 2 (2. se denomina a R coeficiente de correlaci´n o 2 m´ltiple. el ˆ ultimo producto interno es nulo.4 Si y pertenece al subespacio M generado por las columnas de la matriz X —lo que acontece. X β − y >(2.42) ˆ ˆ = y − Xβ + Xβ − y (2. y como quiera que ǫ = (y − X β) ⊥ M. R2 = cos2 α o 31 y ǫ ˆ ˆ Xβ y Teorema 2. (X β − y) ∈ M.2.43) ˆ ˆ ˆ ˆ = < (y − X β) + (X β − y).45) ˆ ˆ Pero si y ∈ M. ya que de (3.41) (2. por ejemplo. SST SST SST . (y − X β) + (X β − y) > (2. 0 ≤ R ≤ 1. EL COEFICIENTE R2 ˆ Figura 2. siempre que dicha matriz tiene una columna de “unos”—. Claramente.5. ´ Definimos R2 = SSR/SST .1: X β es la proyecci´n de y sobre M.44) 2 2 ˆ ˆ ˆ ˆ = y − X β + X β − y + 2 < y − X β.41) se obtiene: SST SSR SSE = + .41). Por consiguiente (3. siempre que X contenga una columna u constante.45) se reduce a (3.

Un valor “grande” de R2 podemos interpretarlo como una mejora sustancial del modelo m´ ınimo al incluir regresores distintos de la columna de “unos”. Obs´rvese que si y no perteneciera a M. uno de los modelos (el m´ a ınimo) ha de estar anidado en el otro. diferencia de suma de cuadrados entre el modelo ampliado y el m´ ınimo. SST ser´ en cambio peque˜ o.6 En la Figura 3. β0 ´ o o o a que resulta ser igual a y (se comprob´ en la Observaci´n 3.1 puede visualizarse R2 como o el coseno al cuadrado del ´ngulo que forman los vectores (y − y) y a ˆ − y). que y est´ muy n a a elevado sobre el plano M . R2 grande implica que el a ´ngulo referido es peque˜ o. R2 necesariamente ha de tomar valores entre 0 y 1. 3. Es f´cil de entender: puede que los regrea sores ensayados no den cuenta de la variabilidad de y . obtenemos un unico coeficiente de regresi´n estimado. es una generalizaci´n N-dimensional del teorema a o de Pit´goras. 25).4 puede ser menor que cero. luego 1 = R2 + SSE . y SSE sea por tanto grande. Observaci´n 2. y SST − SSE puede f´cilmente a n a ser negativo. En efecto: al a˜ adir regresores el n ajuste no puede empeorar (¿por qu´?). es decir. Observaci´n 2.41) es f´cil de visualizar con ayuda de la ilustraci´n esa o quem´tica en la Fig. . su unico regresor (la columna de “unos”) ha de estar entre los ´ regresores del otro.5. Si acontece que y tiene poca variabilidad en torno a su media. El coeficiente R2 puede verse e como una medida de la mejora en el ajuste atribuible a los regresores distintos de la columna de “unos”. es decir.1.32 ´ ´ CAP´ ITULO 2. y como ambos sumandos son no negativos (son cocientes SST de sumas de cuadrados). Observaci´n 2. El denominador SST meramente normaliza el numerador anterior para que tome valores entre 0 y 1. La igualdad (3. y que y est´ pr´ximo a su proyecci´n en n a o o M. el numerador de R2 es SST −SSE.7 Si regresamos y solamente sobre una columna o ˆ de “unos”. y el ´ngulo correspondiente “grande”. Obs´rvese que para que esta interpretaci´n sea e o v´lida.8 Si ajustamos un modelo sin columna de“unos” o podemos encontrarnos con que R2 definido como en el Teorema 3. que hemos represena e ˆ tado como el plano horizontal. SST puede interpretarse como la suma de cuadrados de los residuos de este modelo m´ ınimo. p´g. Por el contrario. Si regresamos y sobre varios regresores incluyendo la columna de “unos” obtenemos una suma de cuadrados de los residuos igual a SSE que nunca puede ser superior a SST . ESTIMACION M´ INIMO CUADRATICA. ya no podr´ asegurarse que ǫ y (X β − y) son ıa ˆ ortogonales. Un valor “peque˜ o” de R2 significa que este coseno es “pen (X β que˜ o”. En efecto.

6.6.1 Sea H un espacio vectorial. Todo y ∈ H tiene expresi´n unica en la forma: y = u + v. la matriz que representa una aplicaci´n lineal de uno o en otro es unica. 10).2 Prefijadas las bases en H y M ⊆ H. ´ Lema 2. La proyecci´n es una aplicaci´n lineal (v´ase soluci´n al ´ o o e o Ejercicio 2.1. Ello da lugar a una definici´n alternativa de o R2 que evita que pueda ser negativa. 33 2. ALGUNOS LEMAS SOBRE PROYECCIONES. la aplicaci´n lineal que o proyecta sobre M tiene por asociada una unica matriz PM . a Lema 2. . Los siguientes resultados. resultan utiles en demostraciones posteriores. siendo T una matriz cuyas columnas forman una base ortonormal de M ⊂ H.14). y M un subespacio.3 La matriz de proyecci´n sobre M puede ser expresada as´ o ı: PM = T T ′ .2. de muy sencilla prueba en la mayor´ de los ıa casos. ´ ´ Demostracion: Es una especializaci´n del resultado seg´n el cual. Algunos lemas sobre proyecciones.9 Cuando no hay columna de “unos” algunos o programas de ordenador autom´ticamente sustituyen SST por a ||y ||2 (suma de cuadrados de las desviaciones respecto del origen en lugar de respecto a la media). o ´ ´ Demostracion: Es una consecuencia inmediata de la unicidad de la proyecci´n (Teoreo ma 2. Observaci´n 2. p´g. Lema 2. prefijadas las bases o u en ambos espacios. con u ∈ M y v ∈ M ⊥ .

. 93). Adem´s.34 ´ ´ CAP´ ITULO 2. y T la matriz N × p siguiente: T = v1 | v2 | . | vp Siempre podemos completar {v1 . . . Premultiplicando ambos lados de (3. ESTIMACION M´ INIMO CUADRATICA. ∈M ⊥ (2. ´ Demostracion: Sea N la dimensi´n de H y p la dimensi´n de M. p´g. . . p´g. Sea v1 . . Entonces. y normalizados (por ejemplo. . Entonces. vp una base o o de M formada por vectores ortonormales. e a 79). N) las coordenadas de y en la base escogida. . .47) en virtud de la ortonormalidad de los vectores {vi }. . . u = PM y puede escribirse as´ ı: . .46) por vi ′ (i = 1. . . o e a para cualquier y ∈ H tendremos: p N y = i=1 ci vi ∈M + j=p+1 cj vj .46) siendo ci (i = 1. . . . p). . . vN } hasta obtener una base de H (v´ase por ej. Grafe (1985). . v´ase Grafe (1985). . obtenemos: N N vi ′ y = vi ′ j=1 cj vj = j=1 cj (vi ′ vj ) = ci . . utilizando el procedimiento de ı ortogonalizaci´n de Gram-Schmidt. (2. vp } con N − p vectores adicionales {vp+1 . los N −p vectores adicionales pueden tomarse ortogonales entre a s´ y a los de T .

e ´ Demostracion: La matriz PM es unica (Lema 3.2) y puede expresarse siempre como T T ′ ´ (Lema 3. vp ′ y   v1 ′  v2 ′     . ALGUNOS LEMAS SOBRE PROYECCIONES.  . Entonces: R(PM ) = M. 35 u = PM y p = i=1 (vi ′ y )vi   v1 ′ y  v2 ′ y     . vp ′ = v1 | v2 | · · · | vp = v1 | v2 | · · · | vp = T T ′y Lema 2.5 Denotamos por R(C) el subespacio generado por las columnas de C. PM denota la matriz de proyecci´n sobre o un cierto subespacio M. Entonces: ′ PM = (T T ′)′ = T T ′ = PM PM PM = T T ′T T ′ = T (T ′ T )T ′ = T T ′ = PM .4 La matriz PM es sim´trica idempotente.   .  .6.2. Lema 2. y  .3). . siendo C una matriz cualquiera.

Lema 2.36 ´ ´ CAP´ ITULO 2.1 y 3. y est´ asociada al operador de proyecci´n e a o ⊥ sobre M . Lema 2. ´ Demostracion: Es consecuencia inmediata de los Lemas 3. ´ Demostracion: Claramente R(PM ) ⊆ M. D − = D −1 . ´ Demostracion: Consideremos la identidad y = P y + (I − P )y . que.2 Sea D una matriz cualquiera. PM x = x =⇒ M ⊆ R(PM ).8 Sea D una matriz m × n cualquiera. Sea c una matriz m × 1 y z un vector de variables. (I − P )y ⊥ P y y adem´s (I − P )y = y − P y es ortogonal a P y . o (I −PM ) es sim´trica. En el caso particular de que D ı ´ sea una matriz cuadrada de rango completo. Decimos que o D − es una pseudo-inversa (o inversa generalizada) de D si: DD − D = D (2.7 Toda matriz sim´trica idempotente P representa una proyecci´n e o ortogonal sobre el subespacio generado por las columnas de P . Si el sistema: Dz = c (2. de orden m × n. siendo D − una pseudoo inversa. D − as´ definida no es unica. P y es a proyecci´n de y sobre un cierto subespacio. Claramente. Definici´n 2. Por otra parte.4. una soluci´n viene dada por z = D − c. Lema 2. de acuerdo con el Lema 3.49) es compatible.5. o es el generado por las columnas de P . idempotente. ESTIMACION M´ INIMO CUADRATICA. Por tanto. . para todo x ∈ M.6 Si PM es la matriz asociada al operador de proyecci´n sobre M.48) En general.

48) deducimos: DD − Dz = c y sustituyendo (3. p´g. y X(X X) X es la unica matriz de proyecci´n. y verificar las ecuaciones normales (3.49). u cada una de las cuales da lugar a una diferente soluci´n del sistema (3. ya a o ´ ′ − que hay m´ltiples (X X) en general). entonces PM = X(X ′ X)− X ′ . a . Searle (1971). no obstante. La o o a unicidad de la matriz de proyecci´n.50) (2. 1 Cf. Su proyecci´n sobre R(X) ha de ser de la o ˆ forma X β. 10. o ′ Como se ha indicado.50): DD − c = c D(D − c) = c lo que muestra que D − c es soluci´n de (3.6.9 Si M = R(X). el lema anterior garantiza que − ′ ˆ (X X) X y ser´ una posible soluci´n para β (no necesariamente unica. z = β. o ´ o La unicidad de la proyecci´n se demostr´ en el Teorema 2. es posible probar un resultado algo m´s fuerte1 . o 37 (2.2.53) ˆ Identificando D = X ′ X.5) en la p´g. X(X ′ X)− X ′ y es la unica u ´ ′ − ′ proyecci´n de y sobre M. Teorema 8. ALGUNOS LEMAS SOBRE PROYECCIONES.1.2. 26. hay en general m´ltiples inversas generalizadas D − . ´ Demostracion: Sea y un vector cualquiera.52) En realidad. o Lema 2. toda soluci´n a o − − de (3. p´g.51) (2.51)– o (3.49) en (3. ´ Demostracion: De (3. fue objeto del Lema 3. 17: a ˆ X ′X β = X ′y (2.49) puede expresarse como D c para alguna elecci´n de D . y c = X ′ y.52).

en particular. 2. Sobre R. hay mucha documentaci´n on line sobre R. 3 cubre completamente la materia de este cap´ ıtulo. Searle (1971) y Abadir and Magnus (2005) ı.38 ´ ´ CAP´ ITULO 2. Para las cuestiones de ´lgebra matricial. Cap. pueden verse. son buenas referencias.7. Como se indic´. (2000). etc. ESTIMACION M´ INIMO CUADRATICA. una relaci´n actualizada puede obtenerse en http://cran. como o o Venables et al. Ben-Israel and Greville (1974) y Rao a and Mitra (1971).org/. similar o e al empleado aqu´ Searle (1982). o . (1997) (hay traducci´n castellana. Son de utilidad las referencias indicadas en el Cap´ ıtulo precedente. Sobre matrices inversas generalizadas. Venables et al. Seber (1977). Lectura recomendada Sobre la teor´ ıa. adem´s de Searle (1982). a Draper and Smith (1998) tiene un cap´ ıtulo completo (el 20) mostrando el problema de la estimaci´n MCO desde un punto de vista geom´trico.r-project. proyecciones. un o poco desfasada). Maindonald (2000) o Kuhnert and Venables (2005).

. . Las siguientes condiciones. 24) para mostrar que SSE/(N − p) es un estimador insesgado de a σ 2 .1 ¿Que efecto tienen sobre los estimadores β cambios en la escala de los regresores en X?. e 39 2. salvo cuando D es cuadrada de rango completo.2 Haciendo uso del mismo argumento empleado (en (3. 2) > XX .7. Demu´strese. dada una muestra aleatoria simple Z1 . Sobre inversas generalizadas e inversas de Moore-Penrose puede consultarse Searle (1971) y Rao and Mitra (1971) 2. la primera de las cu´les coincide con (3.48).matrix(c(2. e A la unica matriz D − as´ especificada se la denomina inversa de Moore´ ı Penrose. 0). proporciona no obstante una soluci´n n o ˆ ˆ de β.5 (↑ 3. a proporcionan una unica definici´n de inversa generalizada (la inversa ´ o de Moore-Penrose): DD− D = D.4 (p´g. o Podemos llevar a cabo el c´lculo de la inversa generalizada de Moorea Penrose mediante la funci´n ginv del paquete MASS (asociado al libro o Venables and Ripley (1999a)) > library(MASS) > XX <. D − DD− = D − . p´g. . 23): si c ′ β es cualquier o o a forma lineal. compru´bese que. haciendo un c´mputo en esencia equivalente a β = (X ′ X)− X ′ y . Zn .4 La Definici´n 3. + 2.2. no individualiza una unica invero a ´ sa generalizada. D − D y DD − sim´tricas. . 2. en el caso de rango completo el estimador insesgado de ˆ varianza m´ ınima de c ′ β es c ′ β. 36. 0. 2. LECTURA RECOMENDADA Complementos y ejercicios ˆ 2. 0.39).4) Cuando la funci´n lsfit de R encuentra una matriz o de dise˜ o de rango incompleto.3 Exti´ndase el teorema de Gauss-Markov. p´g. para probar la afire maci´n hecha al final de la Secci´n 3.2. e el estimador de la varianza 2 σZ = 1 n n (Zi − Z)2 i=1 no es insesgado.

2] [1.] 1 0 [2.13.1] [.2] 2 0 0 0 > XXig %*% XX %*% XXig [1.2] [1.] 0.1] [.0 0 Observemos que las condiciones que definen a la inversa de MoorePenrose se verifican. El vector de residuos de esta regresi´n es e o ortogonal al primero.5 0 0.2] [1.] 2 0 [2.6 (↑ 2.7 (↑ 3.13) Resu´lvase el problema 2. .] 0 0 > XX %*% XXig [.2] [1.2] 0.] [2. ESTIMACION M´ INIMO CUADRATICA. 15.40 ´ ´ CAP´ ITULO 2.] [2.1] [.] [.6 de un modo completamente general: debe admitir como unico ´ argumento una matrix de rango completo cuyas columnas contengan los vectores a ortonormalizar. [. (Ayuda: basta normalizar el primer vector y reo gresar el segundo sobre ´l. p´g.] 0 0 > XXig <.] 0 0 2.1] [.ginv(XX) > XXig [.6) Escr´ ıbase una funci´n en R que resuelva el probleo ma 3.] [. > XX %*% XXig %*% XX [1. y devolver una matrix de las mismas dimensiones cuyas columnas sean los vectores ortonormalizados.1] [.0 0 > XXig %*% XX [.1] [. haciendo uso e a de regresi´n lineal.5 0 [2.] 1 0 [2.) 2.] 0.

a pero en lugar de expresar las temperaturas en grados cent´ ıgrados (C) .7.1) X <. 2. medida en grados cent´ ıgrados).c(-10.6 Imaginemos que ajusta una regresi´n a dichos datos.lsfit(X.2     4. Salvo que haya buenos motivos para o ello.8. medida en unidades adecuadas) est´ influida por la a temperatura (X1 .1 4.10 (↑ 3. 3. ´ lo que estar´ ıamos tentados de interpretar as´ por cada grado que auı: menta la temperatura.9. Los resultados o pueden verse en el siguiente fragmento en R: > + > + > > y <. (Quedar´ por ver si la estimaci´n del coeficiente de regresi´n o ıa o o es de fiar. no puede e empeorar al a˜ adir regresores.1)(↑ 3.8 −10 4.c(5.6) ajuste <.2. Cuenta con las siguientes observaciones:     5. siempre convendr´ hacerlo.8. 32.7 −6.447984). 3.9 y =  X1 = −2.8 Justif´ ıquese la afirmaci´n hecha en la Observaci´n 3. 4.8  3.) o a Supongamos ahora que otro investigador repite el mismo an´lisis. cuesti´n que abordaremos m´s adelante.7. p´g. LECTURA RECOMENDADA 2. 4. -6. Las unicas situaciones en que no a ´ ser´ conveniente son aqu´llas en que la columna de unos crear´ una a e ıa dependencia lineal exacta entre las columnas de la matriz X. como sucede en multitud de ocasiones.0  2. -2. especialmente o si.447984 la velocidad de sedimentaci´n. el origen es arbitrario. El no incluir columna de “unos” fuerza a la recta (o hiperplano) de regresi´n a pasar por el origen.44798 El coeficiente que afecta a la unica variable es negativo (= −0. no querremos forzar tal cosa en nuestra regresi´n.9) Pensemos en la siguiente situaci´n: un inveso tigador est´ interesado en dilucidar si la velocidad de sedimentaci´n a o de un fluido (y.7. 4.9 ¿Cu´ndo incluir y cu´ndo no una columna de “unos”? En a a general. n 41 2. medido en t´rminos de SSE.5. y. intercept = FALSE) ajuste$coefficients X -0. o o a de acuerdo con la cual el ajuste.2.5   3. 2. disminuye en 0.

3. El problema desaparece si incluimos una columna de unos en ambos an´lisis. 2. 4.8. -6. > + > + > > y <. 3. 2. y) > ajuste$coefficients Intercept 7.8.1) X <.c(-10.5.42 ´ ´ CAP´ ITULO 2.5.lsfit(X.c(-10. -2.7. intercept = FALSE) ajuste$coefficients X 0.8.lsfit(X.80119 > X <. 4.1) X <. 4. a siempre haciendo una regresi´n pasando por el origen.c(5. para dar cuenta de los diferentes or´ a ıgenes. 4. lo hace en grados Fahrenheit (F) cuya relaci´n con los cent´ o ıgrados 5 9 viene dada por C = 9 (F − 32) (⇒ F = 5 C + 32).20667 Intercept 3.47538 X -0.8.9. Los c´lculos.c(5.lsfit(X. 4.11482 > ajuste$coefficients[2] * + (9/5) X -0.7.2. dando la impresi´n de una asociaci´n directa entre temperatura y o o velocidad de sedimentaci´n! Claramente.20667 . ESTIMACION M´ INIMO CUADRATICA.(9/5) * X + 32 > ajuste <.(9/5) * X + 32 ajuste <. tenemos motivo para preoo cuparnos si llegamos a conclusiones diferentes dependiendo de nuestra elecci´n de los sistemas de medida —enteramente convencionales o ambos—. y. 4. y) ajuste$coefficients X -0. 3. -6. -2.9.2. 3.6) ajuste <.12265 ¡Ahora el coeficiente afectando a la variable temperatura es positivo.6) X <. ser´ ahora: o ıan > + > + > > > y <.

eps".2. labels = "(0.lsfit(C.8. xlim = c(-13.off() 43 Puede verse que el forzar a ambas a pasar por el origen las obliga a tener pendiente de signo opuesto para aproximar la nube de puntos. LECTURA RECOMENDADA Los coeficientes de X no son ahora iguales (porque los grados Fahrenheit son m´s “peque˜ os”). intercept = FALSE) plot(F. b = ajuste$coefficients) scratch <. -2.1) C <. 5)) par(ylim = c(-0.c(5.7. width = 5. .8. 6). height = 10) par(mfcol = c(2.7.lsfit(F.2.5. y.6) ajuste <. 41)) title(main = "Ajuste en grados Fahrenheit") text(x = 0. y.c(-10. 1)) y <. intercept = FALSE) par(xlim = c(-25. 4. b = ajuste$coefficients) text(x = 0. ylim = c(-0.(9/5) * C + 32 ajuste <. y = 0. 6)) plot(C. 2. -6. pero si relacionados por un factor de a n escala y dar´ lugar a la misma conclusi´n de asociaci´n inversa enıan o o tre ambas magnitudes. 3. Dichas rectas de regresi´n o o y las gr´ficas se han generado mediante a > + + > > + > + > > > > + > > > > > > + > > > > postscript(file = "demo2d. La inversi´n del signo del coeficiente se explica o comparando en la Figura 3. 4.5. 4. ylim = c(-0. 3. labels = "(0.9.5. horizontal = FALSE. y = 0.5. y.0)") F <. 6).2 los puntos muestrales (en escalas comparables) y las respectivas rectas de regresi´n. 5)) title(main = "Ajuste en grados centigrados") abline(a = 0.0)") abline(a = 0. xlim = c(-25. y.dev.

2: En un ajuste sin t´rmino constante. Figura 2.0) 0 −25 −20 −15 −10 C −5 0 5 Ajuste en grados Fahrenheit 6 y 1 2 3 4 5 (0. ESTIMACION M´ INIMO CUADRATICA.44 ´ ´ CAP´ ITULO 2.0) 0 −10 0 10 F 20 30 40 . la pendiente depende de la e elecci´n arbitraria del origen o Ajuste en grados centigrados 6 y 1 2 3 4 5 (0.

. n 45 . Xp−1 que lo generan.3. . Xp−1 son linealmente independientes.) Ocurre sin embargo (Lema 3. ´ o (Recu´rdese que R(X) designa el subespacio generado por las columnas de e ˆ X. los vectores X0 . y en ´l yacen los vectores X0 . o a apartados 1 a 3) es que el rango de la matriz de dise˜o X coincide con n el n´mero de sus columnas. . . o ´ Si. Cuando ´sto no ocurre. p.1. Se dice que hay mula ticolinealidad exacta entre las columnas de la matriz de dise˜o X. el plano horizontal representa M. No hay por tanto o una unica estimaci´n m´ ´ o ınimo cuadr´tica del vector β . tal como ha quedado demostrado. Si X0 .1 resulta iluminante a este respecto. . . Xp−1 no son linealmente independientes. . Colinealidad o exacta 3. p´g. . . . . La proyecci´n e o ˆ es unica. hay infinidad de maneras de expresar PM y como combinaci´n lineal de ellos. . . ´ La Figura 4. Uno de los que hemos llamado supuestos habituales (Secci´n 2. . . 7. βp−1 que permiten expresar PM y como combinaci´n lineal de dichos vectores son unicos. sigue habiendo una u e unica proyecci´n de y sobre M = R(X).Cap´ ıtulo 3 Identificaci´n.9) que β = (X ′ X)− X ′ y no es unico. y los coeficientes β0 . . forman base Xβ ´ ˆ ˆ del espacio que generan. Modelos con matriz de dise˜ o de rango n deficiente. como acontece en el caso de rango deficiente de la matriz X.

PM y . o unica como combinaci´n lineal de X 2 y uno de los vectores X 0 ´ X 1 . pero no β0 ´ β1 : no es posible adscribir a uno de o ellos la “parte” de PM y colineal con la direcci´n com´ n de X 0 y X 1 . o Ejemplo 3.46 ´ CAP´ ITULO 3.2 ilustra una situaci´n similar.1 a continuaci´n lo ilustra.1 Imaginemos una matriz de dise˜ o como n  1 1  2  2  1 1 2 2 4 4 2 2  3 5  1 . o o En un caso as´ la proyecci´n. X1 . dividida entre dos. La Figura 4. o pero puede ocurrir que si lo podamos deslindar con algunos. Puede o verse que X0 y X1 yacen uno sobre otro. o y X p−1 ˆ Xβ X1 X0 Una matriz de dise˜o de rango deficiente es demasiado “pobre” para desn lindar todos los efectos de inter´s: no podemos con la informaci´n disponible e o deslindar la relaci´n de cada uno de los regresores con la variable respuesta. o u . COLINEALIDAD EXACTA Figura 3. ´ o o Podemos estimar β2 .1: Regresi´n en el caso de matrix X de rango deficiente. es igual a la segunda. difiriendo s´lo en el m´dulo. puede expresarse de manera ı. IDENTIFICACION. 7  8 4 Observemos que la primera columna. El Ejemplo 4. X0 .

3.2. y X2 X0 X1 PM y Fin del ejemplo La noci´n de funci´n estimable a continuaci´n permite caracterizar situao o o ciones como la mostrada en el ejemplo anterior. Funciones estimables. ˆ ıvocamente Incluso aunque el vector β no sea estimable por no estar β un´ determinado. 47 Figura 3. puede haber algunos par´metros o combinaciones lineales de a par´metros que s´ puedan estimarse. o .1 Decimos que una funci´n lineal de los par´metros a ′ β es o o a estimable si existe un vector c de constantes tal que: E[c ′ Y ] = a ′ β El Teorema a continuaci´n permite caracterizar las funciones estimables.3. FUNCIONES ESTIMABLES.2. a ı Definici´n 3. o Teorema 3.2: Caso de un vector β parcialmente estimable.1 La funci´n lineal a ′ β es estimable si a ∈ R(X ′ ).

De manera an´loga se demuestra que si a puede expresarse como a combinaci´n lineal de filas de X. la combinaci´n lineal an´loga de o o a observaciones en el vector Y es un estimador insesgado de a ′ β . COLINEALIDAD EXACTA ´ Demostracion: a ′β = E[c ′ Y ] = E[c ′ (X β + ǫ )] = c ′ X β (3.48 ´ CAP´ ITULO 3. Por ejemplo. podemos a˜adir al anterior sistema ecuaciones n adicionales que reduzcan o resuelvan la indeterminaci´n. e p } (que son linealmente a a independientes) est´n en R(X ′ ). Entonces. . podemos ver βi como la a funci´n lineal e ′ i+1 β . ha de existir c tal que: c ′ X = a ′ . que X sea de rango completo. βi . . a En efecto. pues: E[Yj ] = E[xj ′ β + ǫj ] = E[a ′ β + ǫj ] = a ′ β . . 3.1) Como (4.3) . Observaci´n 3. IDENTIFICACION. Restricciones de identificaci´n. . Esto requiere que la dimensi´n de a o R(X ′ ) sea p.1) ha de verificarse para cualesquiera valores de β . lo que demuestra que a ∈ R(X ′ ).2 El enunciado del Teorema 4. es claro que Yj ser´ un estimador insesgado de ıa a ′ β . en que e i es un vector de ceros con un 1 en posio ci´n i–´sima.1 El teorema anterior incluye como caso partio cular el de par´metros aislados. Observaci´n 3. o Hemos visto que la inestimabilidad de los par´metros es consecuencia de a la indeterminaci´n del sistema de ecuaciones normales: o ˆ (X ′ X)β = X ′ y Si contamos con informaci´n adicional sobre β que podamos imponer sobre o ˆ el vector de estimadores β. es decir. En efecto. Son estimables aqu´llas combinaciones lineales de los e par´metros cuyos coeficientes coinciden con los dados por filas de X.1 tiene gran cono tenido intuitivo. βi es estimable si e i ∈ R(X ′ ). podr´ e ıamos formar el sistema: ˆ (X ′ X)β = X ′ y ˆ Aβ = c (3.3. La totalidad de o e los par´metros ser´n estimables si {e 1 . si suo pi´ramos que Aβ = c.2) (3. si queremos estimar a ′ β y a ′ coincide con la j-´sima fila e xj ′ de la matriz X.

3] [. Vimos que β era parcialmente estimable. o o Fin del ejemplo Una matriz de dise˜o de rango incompleto se puede presentar por falta de n cuidado al dise˜ar el experimento.8150 1 0 0 4.2] [.] [6. n a El Ejemplo 4. La variable explicativa o regresor i-´simo tomar´ el valor 1 e a cuando se emplee el tratamiento i-´simo. (i = 1. y) [1. pero. Consideremos los e datos siguientes: > cbind(X. R: Ejemplo 3. dependiendo del rango de X ′ X y A. obtener estimaciones unicas de β .2419 0 1 0 6. dice entonces que las relaciones Aβ o Ejemplo 3.8403 0 1 0 5.] [7.4] 1 0 0 4. Podemos e pensar en el modelo: Y = β1 X1 + β2 X2 + β3 X3 + ǫ.1 ilustra este punto.1] [. Por tanto. 49 y. Si. e Con esta especificaci´n βi . y estimar dicho lmodelo. m´s frecuentemente. supi´ramos que β0 = 1. se interpretar´ como la dureza o a estimada derivada de utilizar el tratamiento i-´simo.0601 0 0 1 3. 2. Aβ = 1 con ıa A= 1 0 0 es una restricci´n de identificaci´n. es intencional.] [8.3619 1 0 0 4. Se ´ ˆ = c son restricciones de identificaci´n. y que el problema resid´ en que la componente ıa de PM y colineal con la direcci´n (com´ n) de X0 y X1 no puede ser o u “distribuida” entre ambos.] [.3.2 Retomemos el Ejemplo 4.4247 .1 Supongamos que se investiga el efecto de tres diferentes tratamientos t´rmicos sobre la dureza de un acero. 3). y cero en caso contrario.4) Habremos de realizar mediciones de la dureza con varias probetas de acero elaborado con los distintos tratamientos.] [4.2087 0 0 1 3.] [3. el e problema dejar´ de existir.3579 0 1 0 4. RESTRICCIONES DE IDENTIFICACION.] [9. no obstante. (3.] [5.´ 3.9853 0 0 1 4.] [2.1.

39865 > SSE <.14972 -0. (3.58995 -0. y. β0 ser´ una dureza “media” y β1 a o ıa β3 recoger´ el efecto diferencial (respecto de dicha dureza “media”) ıan resultado de emplear cada uno de los tres tratamientos. y.82339 X1 0.15371 -0.50 ´ CAP´ ITULO 3.58995 -0. Para introducir en el modelo β0 multiplicando a una columna de “unos”.16193 0.39865 > SSE <.lsfit(X.3687 Podr´ ıamos pensar.77837 0. sin embargo.18841 0.4303 3. IDENTIFICACION.3687 . basta omitir el argumento intercept=FALSE.23672 -0.lsfit(X.5) En esta nueva parametrizaci´n. COLINEALIDAD EXACTA Podemos estimar los par´metros mediante a > ajuste1 <.14972 -0.60690 X3 0.68824 X2 1. intercept = FALSE) > ajuste1$coefficients X1 X2 X3 4.18841 0.23672 -0.8234 > ajuste1$residuals [1] [6] 0. con lo que obtenemos: > ajuste2 <.5116 5. en adoptar una diferente parametrizaci´n: o Y = β0 + β1 X1 + β2 X2 + β3 X3 + ǫ.15371 -0.00000 > ajuste2$residuals [1] [6] 0. intercept = TRUE) > ajuste2$coefficients Intercept 3.16193 0.sum(ajuste1$residuals^2) > SSE [1] 1.30342 -0.77837 0.sum(ajuste1$residuals^2) > SSE [1] 1.30342 -0.

resultado l´gico. lsfit ha proporcionado una estimaci´n de o los par´metros. .8234. igual en los dos casos. MULTICOLINEALIDAD EXACTA Y APROXIMADA Observemos que los dos ajustes son id´nticos.3. . β3 ser´ desviaıa o ıan ciones respecto de esta dureza media. Si. aunque no precisamente de rango incompleto. equivale a forzar que los efectos diferenciales de los tres tratamientos no puedan ser todos positivos o negativos. . Escogemos un dise˜o de rango incompleto. Esto ıa. como muestran los resie duos. a o En la medida en que la matriz X sea de nuestra elecci´n. . Fin del ejemplo 51 3. puede ocurrir que la matriz X.4. Una o muy habitual ser´ en el caso que nos ocupa. como se ha visto. Con esta restricci´n. a pesar de que el rango de la matriz X ampliada con a una columna de“unos”es incompleto. dado que los subespacios que generan X1 . La restricci´n adoptada hace β3 = 0. que son iguales. Esto se traduce en dificultades num´ricas e para resolver las ecuaciones normales. e En el segundo ajuste. β1 + β2 + β3 = 0. y dados. no podemos dise˜ar nuestro experin mento y nos vemos obligados a utilizar unos datos X. pero lo suplementamos n con restricciones de identificaci´n que solventan el problema de la estimaci´n o o y dotan a los par´metros de la interpretaci´n que deseamos.4. lsfit ha tomado una restricci´n o identificadora arbitraria —ha hecho β3 = 0— y proporcionado una de las infinitas soluciones equivalentes. Podr´ ıamos adoptar restricciones de identificaci´n diferentes. fruto habitualmente de una decisi´n n o consciente. proporcione una matriz (X ′ X) “casi” singular. es. siempre podemos o eludir el problema. dificultades para seleccionar un modelo adecuado. El tratamiento 3 pasa as´ a o ı convertirse en caso de referencia y la dureza atribuible al mismo viene ˆ ˆ ˆ medida por β0 =3. Los valores estimados β1 y β2 miden as´ las ı diferencias de dureza de los tratamientos 1 y 2 respecto del caso de referencia. por el contrario. β2 . o tratamiento 3.3687. y SSE =1. β0 o tendr´ la interpretaci´n de “dureza media” y β1 . grandes varianzas de los estimadores y otros inconvenientes a los que nos referiremos en el Cap´ ıtulo 10. X3 y estos tres o vectores m´s la columna de “unos” son id´nticos. . Multicolinealidad exacta y aproximada La existencia de dependencia lineal “exacta” entre las columnas de la matriz de dise˜o X. Las proyecciones han a e de serlo tambi´n.

Lectura recomendada. Pueden verse Seber (1977).4. Secci´n 3. IDENTIFICACION. COLINEALIDAD EXACTA 3.5. o .52 ´ CAP´ ITULO 3. por ejemplo.8. Seco ci´n 20. o Draper and Smith (1998).

N´tese que no nos estamos refiriendo exclusivamente a restricciones de o identificaci´n.Cap´ ıtulo 4 Estimaci´n con restricciones o 4. la restricci´n es inneo cesaria desde el punto de vista de la estimabilidad de los par´metros. junto con las ecuaciones normales. En ocasiones deseamos imponer a las estimaciones de los par´metros β a ciertas condiciones. ya para hacer el modelo interpretable ya porque as´ lo ı imponen criterios extra-estad´ ısticos. Las restricciones se han limitado a remover la indeterminaci´n o presente en las ecuaciones normales. puede formar parte de la especificaci´n que deseamos: o 53 . En tal caso. partimos de un modelo ya identificable (con soluci´n unica para las ecuaciones normales). En otras ocasiones. a No obstante.1. Con tres o m´s observaa ciones es perfectamente posible estimar α.2). podr´ o o ıamos desear que las estimaciones de los par´metros ℓ y γ verificaran la condici´n a o ˆ ˆ ℓ + γ = 1 (rendimientos constantes a escala). Planteamiento del problema. pero no obstante deseamos o ´ imponer una restricci´n que viene dictada al margen de los datos. en un problema que previamente admit´ m´ltiples soluciones ıa u (como suced´ en el Ejemplo 4. o Ejemplo 4.1 Si quisi´ramos estimar los par´metros de una fune a ci´n de producci´n Cobb-Douglas Q = αLℓ K γ . ℓ y γ.3). sin embargo. todo se reduce a resolver el ıa sistema (4. determine un unico vector de ´ ˆ estimadores β. Puede que el conjunto de restricciones que impongamos sea o tal que. como ilustra o el ejemplo a continuaci´n.

Lemas auxiliares. de algunos de los cuales nos serviremos repetidamente en lo que sigue. ′ derivando respecto a β0 . .1 Si K(C) designa el n´cleo de la aplicaci´n lineal representada por u o la matriz C. an´logo al sea guido con el problema incondicionado: proyectando y sobre un subespacio adecuado. βp−1 ) = i=1 ˆ (yi − β0 xi0 − . 4. que nos permita utilizar la t´cnica de la proyecci´n. Resolveremos el problema por un procedimiento diferente. .3). βp−1 y a los multiplicadores de Lagrange en el vector λ. a Hay al menos dos v´ para resolver un problema como el indicado.1) Est´ claro que no podemos esperar obtener la soluci´n de este problema a o resolviendo un sistema como (4. Previamente precisamos e o algunos resultados instrumentales. .p−1 )2 − λ (Aβ − c). − βp−1 xi. obtendr´ ıamos una soluci´n o que mediante las condiciones de segundo orden podr´ ıamos comprobar que corresponde a un m´ ınimo. Poıas demos recurrir a resolver el problema de optimizaci´n condicionada (5. sino una con rendimientos constantes a la escala. ESTIMACION CON RESTRICCIONES no queremos ajustar cualquier funci´n de producci´n Cobb-Douglas a o o nuestros datos. . . Fin del ejemplo De un modo general.54 ´ CAP´ ITULO 4. . nos planteamos el problema siguiente: ˆ m´ y − X β ın 2 ˆ condicionado a : Aβ = c (4. Para ello habremos de transformar el problema en otro equivalente. que en general ser´ incompatible.2. . . e igualando las derivadas a cero. N L(β0 .1) o escribiendo el lagrangiano. . se tiene: K(C) = [R(C ′ )]⊥ ´ Demostracion: x ∈ K(C) ⇐⇒ Cx = 0 ⇐⇒ x ′ C ′ = 0 ′ ⇐⇒ x ⊥ R(C ′ ) . . Lema 4.

3 Si h ⊆ M ⊆ H. o e a . y K(B) el n´cleo de la aplicaci´n u o lineal que representa.2 Si h ⊆ M ⊆ H.4 Sea B una matriz cualquiera. Sea M un subespacio de H y h = M ∩K(B). Por otra parte. 55 Lema 4. 256. p´g. Lema 4.4) implica entonces que: Ph = Ph = Ph PM = ıa Ph PM .2. se verifica: PM Ph = Ph PM = Ph ´ Demostracion: Para cualquier v ∈ H. La demostraci´n puede hallarse en el Ap´ndice E. < Ph v. Entonces. LEMAS AUXILIARES. M ∩ h⊥ = R(PM B ′ ).2. Ph v ∈ h ⊆ M ⇒ PM Ph v = Ph v ⇒ PM Ph = Ph ′ ′ ′ La simetr´ de PM y Ph (Lema 3.4. Por consiguiente. (PM −Ph ). y Ph . proyecta sobre un subespacio ortogonal a h e inclu´ e ıdo en M. que es ´ sim´trica idempotente.2. Lema 4. lo denotaremos mediante M ∩ h⊥ . (PM v − Ph v) > = v ′ Ph (PM v − Ph v) = v ′ (Ph PM − Ph )v = 0. se tiene: PM − Ph = PM ∩h⊥ ´ Demostracion: Partimos de la identidad. PM son las matrices de proyecci´n sobre o los subespacios respectivos. PM v = Ph v + (PM v − Ph v) en la que Ph v ∈ h ⊆ M mientras que (PM v − Ph v) ∈ M. la ultima igualdad en virtud del Lema 5.

(4. si X es de rango completo. γ . pero es f´cil generalizar el tratamiento reemplazando a las inversas por inversas generalizadas. la idea es muy simple. alternativamente. tenemos que: γ X γ h = Ph y ˆ ˜ = (PM − PM ∩h⊥ )˜ y ′ −1 ′ y = [X(X X) X − PM ∩h⊥ ]˜ (4.3) siendo δ una soluci´n cualquiera de Aδ = c (de no existir tal soluci´n.3.6) (4. estar´ ıa ıamos imponiendo condiciones a los par´a metros imposibles de satisfacer). Vamos a transformar el modelo de modo que las restricciones Aβ = c se conviertan en Aβ = 0 .1) puede ahora reescribirse as´ ı: m´ y − X γ ın ˜ ˆ o. o Los Lemas anteriores proporcionan todos los elementos para obtener de forma r´pida el estimador condicionado que buscamos. γ condicionado a : A(X ′ X)−1 X ′ (X γ ) = 0.) Aunque el desarrollo formal es algo farragoso. a Si denotamos por γh las estimaciones m´ ˆ ınimo cuadr´ticas condicionadas a o restringidas por Aˆ = 0.5) (4.56 ´ CAP´ ITULO 4. ESTIMACION CON RESTRICCIONES 4.2) (4.7) . Hay garant´ de ˜ ıa que h es un subespacio porque M y K(A(X ′ X)−1 X ′ ) lo son. y esta proyecci´n ˜ ˆ ˆ o se puede obtener f´cilmente con ayuda de los Lemas anteriores. no o o tendr´ sentido el problema. (Supondremos X y a A de rango completo. Estimaci´n condicionada. ˆ (4. Se tiene entonces que: y Aβ = X β + ǫ =⇒ y − X δ = X β − X δ + ǫ =⇒ y = Xγ + ǫ ˜ = c =⇒ A(γ + δ ) = c =⇒ Aγ = c − Aδ =⇒ Aγ = 0 y el problema original (5.4) del problema comparada con la e o original? Una importante: muestra que el X γ buscado no es sino la proyecci´n ˆ o ′ ′ −1 de y sobre un cierto subespacio: h = M ∩ K(A(X X) X ). m´ y − X γ ın ˜ ˆ 2 2 condicionado a Aˆ = 0. Lo haremos mediante la transformaci´n o y = y − Xδ ˜ γ = β −δ.4) ¿Qu´ ventajas presenta la expresi´n (5. Basta proyectar y sobre h para obtener X γ y.

proporciona: o X γh = X(X ′ X)−1 X ′ y − X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ y ˆ ˜ ˜ ′ ′ −1 ′ −1 ′ −1 = X γ − X(X X) A [A(X X) A ] Aˆ . Es decir. ecuaci´n que. 57 en que el paso de (5. como venimos suponiendo.7). a el tratamiento anterior se generaliza de modo inmediato al caso de modelos de rango no completo.9) se ˜ deduce: γh = γ − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 Aˆ .´ 4. llevada a (5. PM ∩h⊥ es. dado que los estimadores m´ ınimo cuadr´ticos ordinaa rios estiman insesgadamente los correspondientes par´metros. Pero es que. M ∩ h⊥ = R[X(X ′ X)−1 X ′ X(X ′ X)−1 A ′ ] = R[X(X ′ X)−1 A ′ ] PM B′ Z Por consiguiente. ˆ γ (4. ˆ ˆ γ (4.9.9) en que γ es el vector de estimadores m´ ˆ ınimo-cuadr´ticos ordinarios al regresar a y sobre X. p´g.5) a (5.8) (v´ase el Ejercicio 5.6) ha hecho uso del Lema 5. tomando valor a medio en (5. En segundo lugar.9) es una proyecci´n.10) (4. de (5. la ˆ insesgadez se mantiene si los par´metros realmente verifican las condiciones a impuestas sobre los estimadores. a PM ∩h⊥ = Z(Z ′ Z)−1 Z ′ . a 1 . Adem´s.3.) e Hay algunas observaciones interesantes que hacer sobre las ecuaciones (5. ESTIMACION CONDICIONADA. Si hubi´ramos llegado al mismo resultado minimizando una suma de cuadrados por e el procedimiento habitual (derivando un lagrangiano) tendr´ ıamos a´ n que mostrar que el u punto estacionario encontrado es un m´ ınimo y no un m´ximo. Si X es de rango total.10). de acuerdo con el Lema 5.4.9) y (5. En primer lugar. sin m´s que reemplazar en los lugares procedentes a matrices inversas por las correspondientes inversas generalizadas.10) vemos que: E[ˆh ] = γ − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 Aγ γ lo que muestra que γh es un estimador insesgado de γ si Aγ = 0. de acuerdo con el Lema 3. o 2 1 Ello garantiza de manera autom´tica que y − X γh es m´ a ˜ ˆ ınimo .3. el lado izquierdo de (5. 37.3.

h) + names(betas.3) en (5.names(ajuste$coefficients) + return(list(betas = betas. u Hemos razonado en las l´ ıneas anteriores sobre el modelo transformado. pues. A. No se ha buscado la eficiencia ni elegancia sino la correspondencia m´s directa con la teor´ expuesta a ıa m´s arriba. aunque eventualmente. y.xxinv %*% t(A) %*% + axxa %*% (A %*% betas . Por consiguiente.lsfit(X.as. que la imposici´n de restrico ˆ ciones lineales sobre el vector de estimadores nunca incrementa su varianza. ESTIMACION CON RESTRICCIONES En tercer lugar.d) + betas.solve(t(X) %*% X) + axxa <.58 ´ CAP´ ITULO 4.h. d. Podemos sustituir sin embargo (5.h) <. y. Podemos concluir. que Σγh tiene en la diagonal principal varianzas no mayores que las ˆ correspondientes en Σγ . beta0 = TRUE) { + ajuste <. + ajuste.h = betas.11) .inc = ajuste)) + } (4.ajuste$coefficients + xxinv <. intercept = beta0) + betas <. ˆ γ Σγh = ˆ = = = (I − G)Σγ (I − G′ ) ˆ 2 (I − G)σ (X ′ X)−1 (I − G′ ) σ 2 [(X ′ X)−1 − G(X ′ X)−1 − (X ′ X)−1 G′ + G(X ′ X)−1 G′ ] σ 2 [(X ′ X)−1 − G(X ′ X)−1 G′ ] que muestra. El fragmento a continuaci´n ilusa o tra el modo de hacerlo y como utilizarla.vector(betas. si definimos: G = (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A tenemos que: γh = (I − G)ˆ .betas . betas. si las restricciones impuestas no son verificadas por los parametros a estimar.10) y obtener la expresi´n equivao lente en t´rminos de los par´metros originales: e a ˆ ˆ ˆ βh = β − (X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c) R: Ejemplo 4. dado que el segundo sumando tiene claramente elementos no negativos en su diagonal principal (la matriz (X ′ X)−1 es definida no negativa). a Definimos en primer lugar una funci´n para uso posterior: o > lscond <.1 (estimaci´n condicionada) o No hay en R una funci´n de prop´sito general para realizar estio o maci´n condicionada.h <.solve(A %*% xxinv %*% t(A)) + betas. puede introducir alg´n sesgo.h <.function(X. La extensibilidad del lenguaje hace sin embargo o extraordinariamente f´cil el definirla.

] [6. byrow = TRUE) > d <. 1. 1.] [5.] [3.lscond(X.matrix(c(0.8037 3. + 3) > X [1. 7.8392 3. 0.] [.2647 > resultado$betas X1 X2 X3 2.matrix(c(1. 3.0526 3. 4.1] [. d = d. + 12.2647 3. 6.3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 59 > beta <. 1. 2). 13.2] [. 1. X es la matriz de dise˜ o. ESTIMACION CONDICIONADA. 0.] [2.h X1 X2 X3 2. 1.] [4.3. 4.7138 Fin del ejemplo .X %*% beta + rnorm(6) Especificamos la restricci´n lineal β1 = β2 tomando la matriz A y o vector d siguientes: > A <. 1. 4) > y <.0 y a continuaci´n realizamos la estimaci´n condicionada: o o > resultado <. 6. 2.´ 4. beta ıa a n contiene los par´metros e y la variable respuesta: a > X <. 1. A = A. 1. 3. -1). 1.c(2. Generamos a continuaci´n los datos y realizamos la estimaci´n ci˜´no o ne donos a la teor´ del modo m´s directo. y. + beta0 = FALSE) > resultado$betas.

60 ´ CAP´ ITULO 4. Sec.2 (↑ 5. de dimensi´n finita. el procedimiento de estimaci´n tender´ a hacer Aβ ≈ c (para o a ˆ que los residuos correspondientes c − Aβ sean “peque˜ os”).12) . e a 4. los par´metros se a a fijan de modo que la suma de cuadrados de los residuos sea la m´ ınima posible. Es muy f´cil introducirlas. Estamos ante datos observados o en oposici´n a datos experimentales. por n ˆ tanto.1) Pru´bese la igualdad (E. o Compru´bese que siempre existe una matriz C tal que M = K(C). e (Ayuda: consid´rese una matriz cuyas filas fueran una base de M ⊥ ). a ıcil Las restricciones que hemos discutido en la Secci´n 5.1 Sea un espacio vectorial M cualquiera. Wang (1993). al hacer estimaci´n m´ o ınimo-cuadr´tica. Los par´metros las verifican de modo exacto. Faraway (2005). contiene o una di´fana discusi´n de los problemas que ello conlleva. 256.8. Si tenemos restricciones Aβ = c que queremos imponer de modo aproximado basta que a˜ adamos las filas de A a la matriz X y n los elementos correspondientes de c al vector y para obtener: y c = X β +ǫ A 4. llevando a los par´metros a a a verificarlas de forma aproximada. 4. 3. Los regresores (K y L. Recora demos que.10). e 4.9) a (5.4 El Ejemplo 5. n La idea es que las filas a˜ adidas funcionan como observaciones y. A´ n m´s: n u a podemos graduar la importancia que damos a las pseudo-observaciones (y por tanto el nivel de aproximaci´n con que deseamos imponer las o restricciones estoc´sticas): basta que las multipliquemos por una consa tante adecuada k para estimar y kc = X β + ǫ.15). Es tambi´n a o e interesante. ESTIMACION CON RESTRICCIONES Complementos y ejercicios 4. aunque de m´s dif´ lectura.5 y hagamos m´ ınimos cuadrados ordinarios con la muestra ampliada (las filas a˜ adidas se denominan en ocasiones pseudo-observaciones). En ocasioa nes se recurre a restricciones estoc´sticas.3 Justif´ ıquese el paso de (5.1 se sale del marco conceptual en el que nos movemos.3 o son exactas. p´g. ´ log(K) y log(L) al linealizar la o funci´n de producci´n) no pueden ser fijados por el experimentador: o o dependen de los agentes econ´micos. kA (4.

0 0 (4.5) que admite una interpretaci´n bayesiana. p´g. Obs´rvese que ahora los residuos de las pseudo-observaciones ser´n e a ˆ y si tomamos k elevado el m´todo m´ k(c −Aβ) e ınimo cuadr´tico tendr´ a a ˆ que prestar atenci´n preferente a que Aβ ≈ c se verifique con gran o aproximaci´n (porque los cuadrados de los residuos correspondientes o entran en SSE afectados de un coeficiente k2 ). 0 0 y por tanto la moda de la distribuci´n a posteriori (que f´cilmente se o a comprueba es normal multivariante) es: ˆ β = (X ′ X + σ 2 Σ−1 )−1 (X ′ y + σ 2 Σ−1 β 0 ).7 (↑ 5.6 (↑ 5.12) haciendo uso de las o ecuaciones normales proporciona ˆ β = (X ′ X + k2 A ′ A)−1 (X ′ y + k2 A ′ c ). β 0 . En 11.14) . Dado β . Se dice entonces que estamos ante el estimador ridge de par´metro k. Un caso particular de inter´s se presenta cuando e en el problema anterior se toma A = I y c = 0 . ESTIMACION CONDICIONADA. σ 2 I). a a abordamos su estudio y justificaci´n con detalle. Σ0 ). σ 2 . o La estimaci´n de (5. (4. La densidad a posteriori de β es entonces f (β |y .13) 61 4.´ 4. Supongamos que a priori o β ∼ N (β 0 . 144. Σ0 ) ∝ exp − ′ 1 (y − X β ) (y − X β ) 2 2σ ′ 1 × exp − (β − β 0 ) Σ−1 (β − β 0 ) 0 2 ′ 1 = exp − 2 (y − X β ) (y − X β ) 2σ + σ 2 (β − β 0 ) Σ−1 (β − β 0 ) 0 ′ Tomando el logaritmo neperiano e igualando a cero su derivada respecto a β tenemos entonces − 1 (−2X ′ (y − X β ) + 2σ 2 Σ−1 (β − β 0 ) = 0 . 0 2σ 2 que proporciona (X ′ X + σ 2 Σ−1 )β − X ′ y − σ 2 Σ−1 β 0 = 0 .3.5) 4.3. Y se distribuye como N (X β . Cuando k → ∞ nos acercamos al efecto de restricciones exactas.

62 ´ CAP´ ITULO 4.14) con (5. −1 −1 .13) vemos que son id´nticas cuando kA = e σΣ0 2 y kc = σΣ0 2 β 0 : para obtener el estimador bayesiano con informaci´n a priori como la indicada. ESTIMACION CON RESTRICCIONES Comparando (5. basta por tanto con obtener el o estimador MCO en una muestra ampliada con pseudo-observaciones.

Tenemos. Estudiamos en lo que sigue el efecto de estos dos tipos de mala especificaci´n. que o pueden ser de dos naturalezas: 1. que la variable aleatoria Y efectivamente se genera de la siguiente manera: Y = β0 X0 + β1 X1 + . es decir.1) en condici´n de regresores. + βp−1 Xp−1 + ǫ. sin embargo.1) En la pr´ctica. .1) regresores que hubieran debido ser incluidos. o o De ordinario. (5. 2. todo lo m´s. Introducci´n. o En lo que antecede hemos dado por supuesto que el modelo lineal que se estima es el “correcto”. Incluir en (6. incurriremos en errores en la especificaci´n.1. una lista de variables a susceptibles de formar parte de la ecuaci´n (6. no tenemos un conocimiento preciso del mea canismo que genera las Y ’s. Omitir en (6. por ello.1) regresores irrelevantes. .Cap´ ıtulo 5 Especificaci´n inadecuada del o modelo 5. o 63 .

4) son diferentes a los que se obtendr´ de estimar (6.2) Supongamos que pese a lo cual decidimos estimar el modelo Y = X β + Zγ + ǫ (5. Inclusi´n de regresores irrelevantes.3) son id´nticos a los que se obtene dr´ de (6.5) (5. γ (5. sustituyendo (6. (6.2.4) n tenemos: ˆ β γ ˆ = = X ′X X ′Z Z ′X Z ′Z −1 X′ Z′ −1 X Z X ′ǫ Z ′ǫ . ESPECIFICACION INADECUADA DEL MODELO 5.6) obtenemos que la matriz de covarianzas del vector o ˆ′ γ ′ )′ es: (β ˆ Σ = σ2 1 X ′X X ′Z Z ′X Z ′Z −1 . Fuera de este caso particular. sean cuales fueren los regresores irrelevantes a˜adidos1 . a .6) X ′X X ′Z β + Z ′X Z ′Z 0 Al tomar valor medio en la ecuaci´n anterior obtenemos: o ˆ E[β] = β . si existe tal ortogonalidad. En efecto. ıa Sin embargo. En efecto.2).7) (5.8) De la misma ecuaci´n (6.4) es una matriz diagonal por bloques y β = (X ′ X)−1 X ′ Y . los estimadores de β procedentes de (6. o Y = Xβ + ǫ (5.4) proporciona estimadores insesgados. β 0 +ǫ (5.9) De los que lo unico que supondremos es que no introducen combinaciones lineales ´ exactas que hagan inestimables los par´metros.2) en (6.64 ´ CAP´ ITULO 5.3) ¿Qu´ ocurre con los estimadores de los par´metros β ? e a Al estimar el modelo sobreparametrizado (6.4) En el caso particular de columnas Z ortogonales a las columnas en X.2). la matriz inversa en ıan ˆ (6. E[ˆ ] = 0. los estimadores de β proporcionados por (6.3) obtendr´ ıamos: ˆ β γ ˆ = X ′X X ′Z Z ′X Z ′Z −1 X′ Y Z′ (5. (5.

o equivalentemente que (Z ′ Z − Z ′ X(X ′ X)−1 XZ) lo es. Denominando. . basta ver que para cualquier a se verifica a′ Ga ≥ 0.´ 5.2. De cuanto antecede se deduce que Y − X Z ˆ β γ ˆ (5. definida no negativa por a o ser idempotente (con valores propios cero o uno). L = ˆ δ = X Z . vemos que el bloque que nos a interesa de (6. En consecuencia.9) es la matriz de covarianzas de los β obtenidos en el modelo sobreparametrizado. Por simple inspecci´n vemos que el segundo sumando es una matriz definida o no negativa2 . En consecuencia. y en geneo ral incrementa. p´g.12) Llamemos G a dicho segundo sumando. en que p y q son respectivamente los rangos de X y o N Z. bajo los supuestos habituales m´s normalidad.1. La matriz de la forma cuadr´tica en e es la conocida matriz de coproyecci´n. Para mostrar que es definida no negativa.11) es.9) es σ 2 multiplicado por (X ′ X)−1 + (X ′ X)−1 X ′ Z[Z ′ Z − Z ′ X(X ′ X)−1 X ′ Z]−1 Z ′ X(X ′ X)−1 . Esto ′ ultimo es inmediato: (Z ′ Z − Z ′ X(X ′ X)−1 XZ) = Z ′ (I − X(X ′ X)−1 X)Z. y d Z ′ (I − ´ X(X ′ X)−1 X)Z d puede escribirse como e ′ (I − X(X ′ X)−1 X)e con e = Z d . 65 ˆ El bloque superior izquierdo de (6. las varianzas de los estimadores de los par´metros relevantes. σ2 = ˆ 2 SSE N − (p + q) (5. y por tanto la expresi´n anterior tendr´ en su diagonal princio a pal elementos no menores que los de la diagonal principal de (X ′ X)−1 . γ ˆ un desarrollo enteramente similar al realizado en el Teorema 7. p´g. a No afecta sin embargo a su insesgadez.10) es un vector aleatorio de media cero. 230. Debemos comparar dicho bloque ˆ con σ 2 (X ′ X)−1 . INCLUSION DE REGRESORES IRRELEVANTES. una forma cuadr´tica con a a distribuci´n σ 2 χ2 −(p+q) . la inclusi´n de regresores irrelevantes no disminuye. 72. ya s´lo tenemos que comprobar que (Z ′ Z − Z ′ X(X ′ X)−1 XZ)−1 o es definida no negativa. a muestra que en el modelo sobreparametrizado SSE = Y ′ (I − L(L′ L)−1 L′ )Y = ǫ ′ (I − L(L′ L)−1 L′ )ǫ (5. Haciendo uso del Teorema A.3.2). matriz de covarianzas de los β obtenidos al estimar el modelo (6. ˆ β . Pero a′ Ga = b′ (Z ′ Z − Z ′ X(X ′ X)−1 XZ)−1 b con b = Z ′ X(X ′ X)−1 a.

(5. sesgado.66 ´ CAP´ ITULO 5.3. .13) pese a lo cual estimamos el modelo “escaso” Y = X1 β 1 + ǫ . Tenemos as´ ı que ˆ(h) β1 0 = ˆ β1 ˆ β2 ˆ − (X ′ X)−1 A′ [A(X ′ X)−1 A′ ]−1 (Aβ − 0). Las siguientes conclusiones son as´ o ı inmediatas: ˆ(h) El estimador β1 obtenido en el modelo “escaso” (6.15) En consecuencia. Omisi´n de regresores relevantes.3.14) es.13) junto con las restricciones h : β 2 = 0.14) es lo mismo que estimar (6. en general. y en consecuencia ˆ E[β1 − β 1 ] = − (X ′ X)−1 A′ [A(X ′ X)−1 A′ ]−1 (h) 0 β2 (5. El unico efecto adverso de la inclusi´n de los ´ o q regresores irrelevantes ha sido la p´rdida de otros tantos grados de libertad. podemos deducir cuanto necesitamos saber haciendo uso de los resultados en la Secci´n 5. expresables as´ ı: 0 0 0 I β1 β2 = 0 0 (5. e 5. o .16) (p×1) en que [M](p×q) designa el bloque superior izquierdo con p filas y q columnas de la matriz M. La ecuaci´n (6.14) Estimar (6.16) muestra que el sesgo o introducido depende de la magnitud de los par´metros asociados a los a regresores omitidos. El sesgo puede obtenerse haciendo uso de (5. X2 ) una matriz de dise˜o particionada en sendos bloques . par´metros. n . ESPECIFICACION INADECUADA DEL MODELO es un estimador insesgado de σ 2 .11). Consideremos el caso en que el modelo “correcto” es a Y = X β + ǫ = X 1 β 1 + X2 β 2 + ǫ . Sea X = (X1 . (5. Sea β ′ = (β ′1 . β 2 ) el correspondiente vector de p + r . ′ de p y r columnas.

2. Esta cuesti´n se trata en el Cap´ o o ıtulo 13.1.4.14) no decrece hacia cero al crecer N. la matrix (X ′ X)−1 es diagonal por bloques. X1 X2 = 0. Errar “por exceso” tendr´ por ello en general a consecuencias menos graves. La p´rdida de un grado de libertad adicional originada n e por la inclusi´n de un par´metro es menos importante cuando los grados de o a libertad restantes (N − p) siguen siendo muchos.18) no es insesgado.3. 23. Omitir regresores relevantes tiene consecuencias en general m´s graves y a ˆ(h) que no se aten´an al crecer el tama˜o muestral: el sesgo de β1 en el modelo u n “escaso” (6. o o . Conocidos los problemas de una mala especificaci´n se plantea el proo blema de c´mo lograr una buena.4. puede verse que no es de aplicaci´n a (6. y tanto menos importantes cuanto mayor sea el tama˜o muestral.´ 5. a 5. Algunas t´cnicas de an´lisis gr´fico de residuos que pueden ser de ayuda en e a a la especificaci´n de modelos se consideran en la Secci´n 14. En efecto. e El estimador de la varianza de la perturbaci´n o ˆ(h) ˆ(h) (Y − X1 β1 )′ (Y − X1 β1 ) SSE = σ = ˆ N −p N −p 2 (5. Hemos visto que sobreparametrizar no introduce sesgos: tan s´lo incrementa la varianza de los estimadores o y resta grados de libertad. En este cap´ ıtulo hemos rastreado las consecuencias de dos posibles errores de especificaci´n “puros”: falta o sobra de regresores. A esta ultima cuesti´n volveremos en el Cap´ ´ o ıtulo 10.17) tiene sus primeras p filas de ceros.18) o el Teorema 3. CONSECUENCIAS DE ORDEN PRACTICO 67 La ecuaci´n (6. La s´la circunstancia en que la inclusi´n de un regresor innecesario puede o o perjudicar gravemente la estimaci´n se presenta cuando la muestra es muy o peque˜a o el par´metro adicional es aproximadamente combinaci´n lineal de n a o los ya presentes. Consecuencias de orden pr´ctico a Los resultados de las dos Secciones anteriores pueden ayudarnos a tomar decisiones a la hora de especificar un modelo.16) muestra tambi´n que hay un caso particular en que o e ˆ(h) es insesgado para β 1 .16) est´ formado por ceros. cuando las columnas de X1 y las de X2 son β1 ′ ortogonales. p´g. En la pr´ctica los dos o a tipos de errores se pueden presentar conjuntamente y sus efectos se combinan. y (X X) A = ′ −1 ′ ′ X1 X1 0 ′ 0 X 2 X2 −1 0 0 0 I (5. Ello hace que el bloque considerado en (6.

ESPECIFICACION INADECUADA DEL MODELO .68 ´ CAP´ ITULO 5.

σ 2 I). o Si a los supuestos habituales (Secci´n 2. Lema 6. verific´ndose: a ′ D AD = Λ. 2 r ´ Demostracion: Sea D la matriz diagonalizadora de A. Siendo A sim´trica. σ 2 I) y A es una matriz sim´trica idempotente de e ′ orden n y rango r. relativos a la distribuci´n de diferentes estao d´ ısticos. obtendremos no obstante muchos adicionales.1 Si u ∼ N(0. entonces: u σAu ∼ χ2 . Buena e o parte de estos resultados son consecuencia casi inmediata de alguno de los siguientes lemas. todos los resultados anteriores se mantienen.3. 6. Introducci´n. D es una e matriz ortogonal cuyas columnas son vectores propios de A. o 1 69 .Cap´ ıtulo 6 Regresi´n con perturbaciones o normales. 7) a˜adimos1 el de que o a n ǫ ∼ N(0. Podremos tambi´n efectuar contrastes de hip´tesis diversas. en que Λ es una matriz en cuya diagonal principal aparecen los El s´ ımbolo ∼ denotar´ en lo sucesivo que el lado izquierdo es una variable aleatoria a con la distribuci´n que especifica el lado derecho.1. p´g.

´ Demostracion: Sea D la matriz diagonalizadora de P . y supongamos que se verifica BP = 0. REGRESION CON PERTURBACIONES NORMALES. Sea u un vector aleatorio n-variante.6) ⇒ D ′ BD ′ ⇒ D BD tiene sus r primeras columnas nulas 2 El rec´ ıproco es tambi´n cierto. o r Lema 6. σ 2 I). (lo que implica u = Dv). a . u ′ Bu y u ′ P u son variables aleatorias independientes. y por tanto sigue una distribuci´n2 χ2 . 57 una versi´n e e o m´s potente de este teorema. Como A es idempotente. 1) independientes.´ 70 CAP´ ITULO 6. Al igual que antes. el nuevo vector v sigue tambi´n una distribuci´n N(0. y los bloques de ceros que la circundan son de ´rdenes adecuados para completar una matriz cuadrada de o orden n × n. v´ase en Searle (1971).5) (6.3) =0 (6. Teorema 2. Entonces. 0 0 Λ= en que I es una matriz unidad de rango r. Entonces.4) (6. u ∼ N(0. e o u ′ Au v ′ D ′ ADv v′ = = σ2 σ2 σ I 0 0 0 v = σ r 2 vi . σ2 (6. Tenemos que: BP = 0 ⇒ D ′ BDD ′ P D = 0 r (n − r) I 0 0 0 (6. Si hacemos el cambio de variable v = D ′ u (⇒ u = Dv).2) (6. Λ es de la forma r (n − r) I 0 . σ 2 I). valores propios de A.1) es una suma de cuadrados de r variables aleatorias N(0. pag.2 Sea B una matriz sim´trica n×n y P una matriz sim´trica ideme e potente del mismo orden y rango r. definamos v = D ′ u.1) i=1 Pero el lado derecho de (7.

definamos v = D u (⇒ u = Dv). y u ∼ N(0 . y D ′ MD es una matriz diagonal con r unos y (n − r) ceros en la diagonal principal.8) u ′ P u = v ′ D ′ P Dv = v ′ r (n − r) I 0 v 0 0 (6. Al igual que antes. Entonces Au y u ′ Mu son variables aleatorias independientes. Au = ADv = (6. ´ Demostracion: Sea D la matriz que diagonaliza M. y son por tanto independientes. adem´s.9) De (7. L12 ha de ser tambi´n un bloque de a e e ceros.8) y (7. Como AM = 0. Por tanto: r (n − r) r (n − r) 0 L12 0 L22 71 D ′ BD = =0 (6.´ 6. Sea A una matriz que verifica AM = 0. AD tiene sus primeras r columnas de ceros.7) Como.9) se deduce que ambas formas cuadr´ticas consideradas a dependen de distintas componentes del vector v. se verifica que ′ AM = ADD MD = 0 ⇒ AD = ′ r (n − r) 0 | L2 .3 Sea M una matriz sim´trica idempotente de rango r y dimene siones n × n.11) . Lema 6. y: r (n − r) 0 0 v 0 L22 u ′ Bu = v ′ D ′ BDv = v Por otra parte: ′ (6. σ 2 I). r (n − r) 0 | L2 v.1. INTRODUCCION. (6. Por consiguiente. D ′ BD es sim´trica.10) es decir.

´ Demostracion: El apartado 1) es inmediato. 2.11) y (7. se verifica: 1. σ 2 (X ′ X)−1 ) ˆ ˆ (β − β )′ (X ′ X)(β − β ) ∼ σ 2 χ2 p (N − p)ˆ 2 = SSE ∼ σ 2 χ2 −p σ N ˆ ˆ β y σ 2 son variables aleatorias independientes.1. . demostrar el siguiente resultado: Teorema 6. 3. Podemos ahora. y son consecuentemente independientes.´ 72 CAP´ ITULO 6. Como r (n − r) I 0 v.12) que ambas variables aleatorias consideradas dependen de distintas componentes de v. e El apartado 2) es consecuencia inmediata del Lema 7. σ 2 I). REGRESION CON PERTURBACIONES NORMALES. y X es de orden N × p y rango p. 0 0 u ′ Mu = v ′ D ′ MDv = v ′ (6. una vez que 1 ˆ observamos que (X ′ X) 2 (β − β ) ∼ N(0 . 21) que β es un estimador insesgado de β a con la matriz de covarianzas indicada. ǫ ∼ N(0.12) deducimos de (7. fue ˆ ya demostrado (Teorema 3. σ 2 I). con ayuda de los Lemas precedentes. es tambi´n normal. ˆ β ∼ N(β . β es una combinaci´n a ˆ o lineal de variables aleatorias normales e independientes. Si se verifican los supuestos habituales. adem´s. 4.2. Como.1 Si Y = X β + ǫ . p´g.

ya que ˆ β = (X ′ X)−1 X ′ Y . el Lema 7.13) (6. N 73 (6. La misma sustituci´n en (7. Para demostrar el apartado 3) observemos que: SSE σ2 ˆ ˆ (Y − X β )′ (Y − X β ) = σ2 (Y − X(X ′ X)−1 X ′ Y )′ (Y − X(X ′ X)−1 X ′ Y ) = σ2 ′ ′ ′ −1 Y [I − X(X X) X ]Y = σ2 ′ (X β + ǫ ) [I − X(X ′ X)−1 X ′ ](X β + ǫ ) = σ2 ′ ′ −1 ǫ [I − X(X X) X ′ ]ǫ = σ2 ′ ǫ Mǫ = σ2 ∼ χ2 −p .20) y (7.19) es consecuencia inmediata del Lema 7.21) muestra que o σ2 = ˆ Como (X ′ X)−1 X ′ [I − X(X ′ X)−1 X ′ ] = 0. INTRODUCCION.21) ˆ De la ecuaci´n (7.15) (6.20) (6. p´g.1. a ǫ ′ [I − X(X ′ X)−1 X ′ ]ǫ . Para probar 4). basta invocar el Lema 7.20) deducimos (sustituyendo Y por X β + ǫ ) que β = o ′ ′ −1 β + (X X) X ǫ .14) (6.3. ya que M es sim´trica e idempotente y de rango N − p.18) (6. N −p N −p ′ −1 ′ ′ (6.21). N −p . demuestra la independencia de las formas lineal y cuaa dr´tica anteriores y por tanto de (7.17) (6. 71.1.16) (6.3. σ2 = ˆ SSE Y [I − X(X X) X ]Y = .19) donde (7.´ 6.

1. vector de pan r´metros β y los valores medios de la respuesta X β : a > X <. 4. 1.matrix(0.3] 1 9 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 > beta <. 6. 9.fit$coefficients + } . 1. 1. 6. 13. 1. 2. 2). 0.] [6. ˆ o emp´ ırica de los mismos a la te´rica. R: Ejemplo 6.Ey + rnorm(6) + fit <. cada una ˆ de cuyas filas guardar´ los par´metros estimados β con una muestra a a artificial diferente > muestras <.matrix(c(1.] [. obtener de ellas m´ ltiples observaciones del esu tad´ ıstico de inter´s (aqu´ β) y examinar el ajuste de la distribuci´n e ı. que se almacenan en b[i.]): > for (i in 1:muestras) { + y <. y.] [4. ] <. Lo que se hace es generar m´ ltiples a u muestras artificiales. + 12.] [2.1 (ejemplo de simulaci´n) o El c´digo que sigue tiene por objeto ilustrar c´mo examinar´ o o ıamos emp´ ıricamente la concordancia entre lo que la teor´ predice y lo que ıa podemos obtener en la pr´ctica. o Generemos en primer lugar la matriz de dise˜ o X. muestras.´ 74 CAP´ ITULO 6. 7.2] [. 0. REGRESION CON PERTURBACIONES NORMALES. 4) > Ey <. generando en cada pasada del bucle for un nuevo vector de perturbaciones ǫ (mediante rnorm).] [5. un nuevo vector de valores de ˆ ˆ la variable respuesta y y nuevas estimaciones β de los par´metros β a (fit$coefficients.] [3.c(2. + 3) > X [1. 1.lsfit(X. 3) e iteremos. 4. intercept = FALSE) + b[i. 3.100 > b <.1] [.X %*% beta Definiremos ahora una matriz b de dimensiones 100 × 3.

tipif.betas[1.solve(t(X) %*% X) Por consiguiente. La distribuci´n te´rica de los betas es Normal.´ 6. 3. o > beta1.1.tipif) [1] 0. 1). 4) y matriz de covarianzas (X ′ X)−1 (la varianza de las perturbaciones generadas por rnorm es 1 si no se especifica otra cosa). INTRODUCCION.beta[1])/sqrt(cov.tipif) [1] 1. Podemos por a o ejemplo comparar la media y varianza emp´ ıricas con las te´ricas.1125 dibujar el histograma > hist(beta1. + 1]) > mean(beta1. 1] . ylab = "Frecuencia absoluta".tipif <. 75 > cov. + main = "Histograma de beta1.tipif") . un modo de verificar que los resultados emp´ ıricos son congruentes con la teor´ consistir´ en tipificar las estimaciones de los ıa ıa par´metros y comparar su distribuci´n con una N (0.(b[.betas <.19871 > var(beta1. con vector de medias o o ′ (2.

Sin embargo. el llamado m´todo de Monte-Carlo.test(beta1.2334 alternative hypothesis: two-sided > shapiro. tiene una o enorme aplicaci´n pr´ctica por varias razones: o a .9874. p-value = 0. reducido a sus rasgos esenciales.tipif W = 0. p-value = 0.tipif 1 2 o llevar a cabo alg´ n contraste de normalidad especializado: u > ks.test(beta1. "pnorm") One-sample Kolmogorov-Smirnov test data: beta1.tipif Frecuencia absoluta 0 5 10 15 −2 −1 0 beta1.4679 Lo que antecede ilustra.tipif D = 0.1036.tipif.´ 76 CAP´ ITULO 6. REGRESION CON PERTURBACIONES NORMALES. Histograma de beta1. Puede parecer un ejercicio ocioso en el e ˆ caso que nos ocupa (ya “sab´ ıamos” c´mo se distribuye β ¿a que vieo ne comprobarlo mediante una simulaci´n?).tipif) Shapiro-Wilk normality test data: beta1.

Este es el caso m´s frecuente en la pr´ctica. la sin mulaci´n permite ver si la aproximaci´n asint´tica es aceptable o o o para un cierto tama˜ o muestral. Por ejemplo.2. o a o que no pueden escribirse de tal forma. ni siquiera la distribuci´n asint´tica es obteo o nible anal´ ıticamente. con a ayuda de una muestra. Todo lo que podemos e obtener te´ricamente es la distribuci´n asint´tica (la distribuci´n o o o o cuando el tama˜ o muestral tiende a infinito). El uso del m´todo de Monte-Carlo reposa en la posibilidad de genee rar mediante un ordenador n´ meros aleatorios con la distribuci´n que u o deseemos. En particular. mediante adecuada elecci´n de A se pueden hacer contrastes de nulidad de uno o varios par´metros. En otras ocasiones. o El problema que nos planteamos es el siguiente: dado el modelo lineal Y = X β + ǫ con los supuestos habituales m´s normalidad. como se ver´ en lo que sigue. (6. En este caso. Hay hip´tesis. a Observaci´n 6. Cualquier hip´tesis lineal sobre los par´metros o a se puede expresar en la forma (7. multitud de hip´tesis de inter´s admiten o e tal expresi´n. como casi cualquier otro paquete a estad´ ıstico.22). CONTRASTE DE HIPOTESIS LINEALES. (cosas como β1 2 . 1.22). En este ejemplo. queremos.´ 6. a a De nuevo el m´todo de Monte-Carlo proporciona un m´todo para e e obtener aproximaciones a la distribuci´n de cualquier estad´ o ıstico. sin embargo. contrastar la siguiente hip´tesis lineal o h : Aβ = c (rango de A = q < p). etc.22) siendo A de dimensiones q ×p. o a de igualdad de dos o m´s de ellos. restricciones de no negatividad sobre los par´metros (βi > 0) o sobre el m´dulo de β a o 2 + β 2 = 1). (R ofrece generadores de n´ meros aleatorios u de las distribuciones m´s usuales.1 Llamamos hip´tesis lineales a las que pueden o o expresarse del modo (7.2. En ocasiones no conocemos la distribuci´n te´rica de los estao o d´ ısticos de inter´s para muestras finitas. n 2.) Fin del ejemplo 77 6. Contraste de hip´tesis lineales. se ha empleado rnorm para generar variables aleatorias normales.

´ 78 CAP´ ITULO 6.27) Se ha hecho uso en el paso de (7. 2. la expresi´n (7.25) (6. Por otra parte.26) (6. El estad´ o ıstico de contraste y su distribuci´n se deducen del siguiente teorema: o ˆ Teorema 6.27) se cono a o vierte en: ˆ ˆ SSEh − SSE = (Aβ − c )′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c ). si el valor obtenido o o en el muestreo de dicho estad´ ıstico es “raro” de acuerdo con lo esperable cuando h es cierta. y SSEh = Y − X βh a Bajo los supuestos habituales m´s el de normalidad en las perturbaciones.N −p SSE/(N − p) en que q ≤ p es el rango de A. βh el vector de estimao ˆ 2 dores m´ ınimo cuadr´ticos condicionados por h.28) Esto finaliza la demostraci´n del primer apartado.2 Sea h : Aβ = c una hip´tesis lineal.11). rechazaremos la hip´tesis nula.25) a (7. REGRESION CON PERTURBACIONES NORMALES. se a verifica: 1. como o ˆ β = β + (X ′ X)−1 X ′ ǫ. ´ Demostracion: SSEh − SSE = = = = = ˆ 2 ˆ 2 Y − X βh − Y − X β (6. Haciendo uso de la ecuaci´n (5. (6. La forma de efectuar el contraste es la habitual.25). p´g. Se busca un estad´ ıstico que bajo la hip´tesis nula h siga una distribuci´n conocida. Qh = (SSEh − SSE)/q ∼ Fq. (6. ˆ ˆ SSEh − SSE = (Aβ − c )′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c ) Si h : Aβ = c es cierta. 58.26) de que ǫ es ortogonal a ˆ toda combinaci´n lineal de las columnas de X. lo que garantiza la nulidad o del producto interno en (7.24) 2 2 ˆ ˆ ˆ ˆ 2 Y − X β + X β − X βh − Y − X β ˆ ˆ ˆ +2 < (Y − X β ). (X β − X βh ) > ˆ ˆ 2 X β − X βh ˆ ˆ ˆ ˆ (β − βh )′ (X ′ X)(β − βh ). .23) 2 2 ˆ ˆ ˆ ˆ Y − X β + X β − X βh − Y − X β (6.

28) proporciona: SSEh − SSE = ǫ ′ X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ ǫ G h 79 (6. seg´n el Lema 7.30) Para demostrar que Qh en el enunciado es una variable aleatoria con distribuci´n F de Snedecor. el apartado 1) del Teorema 7. SSEh − SSE sigue una disu a tribuci´n σ 2 χ2 . para un nivel de significaci´n α. qu´ valores debemos consiu e derar en la regi´n cr´ o ıtica.2 garantiza por tanto la independencia. s´lo resta comprobar que numerador y denominador o o son independientes: pero ´sto es inmediato. o ˆ ˆ (Aβ − c) = (Aβ − Aβ ) = A(X ′ X)−1 X ′ ǫ. es claro que. Desde otro punto de vista.2 Hay cuestiones de inter´s sobre el Teorema o e 7. En a efecto. Por tanto. G El Lema 7. p´g.1) que: a SSE = Y ′ (I − PM )Y ∼ σ 2 χ2 −p N (6.2. cuando se verifica la hip´tesis h. Podr´ ıamos llegar a un resultado an´logo si a .2.2 muestra que el estad´ ıstico tiene en su numerador ˆ una forma cuadr´tica que crece al separarse Aβ de c. tenemos que. CONTRASTE DE HIPOTESIS LINEALES. sin otro apoyo que el sentido com´ n. a Observaci´n 6. con grados de libertad q iguales al rango de G (= rango(A)). o α la regi´n cr´ o ıtica estar´ formada por valores mayores que Fq. 69. ya que e (I − PM ) X(X ′ X)−1 A ′ [A(X ′ X)−1 A ′ ]−1 A(X ′ X)−1 X ′ = 0.1.3 La presentaci´n es puramente heur´ o o ıstica. o q Tenemos adem´s (Teorema 7.N −p .29) Esta expresi´n muestra que SSEh − SSE es una forma cuadr´tica en o a variables normales (las ǫ) de matriz G que f´cilmente comprobamos es idema potente. se ha propuesto el estad´ ıstico Qh y encontrado su distribuci´n. En primer lugar. son grandes discrepancias entre SSEh y SSE las que cabe considerar evidencia contra h. resultado que llevado a (7.´ 6. indic´no a dose. Observaci´n 6.

h <.h. Alternativamente.solve(t(X) %*% X) + axxa <. d. puede estimarse la a potencia por simulaci´n.solve(A %*% xxinv %*% t(A)) + betas. Qh sigue una distribuci´n F de Snedecor no central.h. Ello permite calcular f´cilmente la potencia de cualquier contraste a frente a alternativas prefijadas.d) + betas. X) a ˆ ˆ ˆ m´x ˆ g(βh . o SSEh (utilizando lscond).h) + names(betas.names(ajuste$coefficients) + return(list(betas = betas.function(X. REGRESION CON PERTURBACIONES NORMALES. + ajuste. si se dispone de tablas o ´bacos de la a F de Snedecor no central.1).lsfit(X.as. con o 2 = t ′ t (v´ase Ap´ndice B. o . betas. A.4 Del enunciado del teorema anterior se sigue o con facilidad que cuando h no es cierta (y en consecuencia Aβ − c = d = 0.ajuste$coefficients + xxinv <.betas . el estad´ ıstico Qh y su nivel de significaci´n.h = betas. y.h <.´ 80 CAP´ ITULO 6. y. intercept = beta0) + betas <. construy´ramos un estad´ e ıstico de contraste basado en la raz´n geneo ralizada de verosimilitudes: Λ= m´xβ g(β. En R se dispone de la funci´n pf que admite o un par´metro de no centralidad. X) a βh ˆ ˆ ˆ siendo βh aquellos β verificando h : Aβ = c. Observaci´n 6. beta0 = TRUE) { + ajuste <.h) <. p´g.inc = ajuste)) + } Definiremos ahora una nueva funci´n. a > lscond <.xxinv %*% t(A) %*% + axxa %*% (A %*% betas . 58.vector(betas. Nos sera o viremos de la funci´n lscond para realizar estimaci´n condicionada o o presentada en el Ejemplo 5. siendo e e par´metro de no centralidad δ a t = [A(X ′ X)−1 A ′ ]− 2 (Aβ − c ). o 1 R: Ejemplo 6. y. y. Ello proporciona una justificaci´n al estad´ o ıstico anterior. contraste. que calcula SSE.2 (contraste de una hip´tesis lineal) o Veamos el modo en que contrastar´ ıamos una hip´tesis lineal geo neral sobre los par´metros de un modelo de regresi´n lineal.1.

1] [. y. + 12. 1.value)) + } Generemos datos artificiales: > X <.3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2 81 > beta <. 1.´ 6.c(2.] [4. 6.function(X. que debiera ser rechazada.value <. 2).value = p. p. A.] [. y. 1.sum((y . que β1 = 3 y β2 = 4. beta0 = TRUE) { + lscond. 1. -1). 1.0 El contraste puede entonces llevarse a cabo as´ ı: .SSE/(nrow(X) .matrix(c(1.result$betas.] [3.matrix(c(0.1 . 4. 1. 7. 6. 3.(SSE. nrow(X) + ncol(X)) + return(list(Qh = Qh. 1. 3.h + SSE <.result <. + beta0 = beta0) + betas <. > contraste. Probaremos a continuaci´n a contrastar la hip´tesis o o β1 = β2 .X %*% beta + rnorm(6) “Sabemos”. 4) > y <.X %*% betas)^2) + SSE. d.ncol(X)) + Qh <. + 3) > X [1. d. nrow(A).sum((y . porque los datos han sido artificialmente generados.] [2.X %*% betas.2.2] [. 13.] [5.pf(Qh. CONTRASTE DE HIPOTESIS LINEALES.lscond.result$betas + betas.h . 0.h <.h <. 0. 4. A.numer/denom + p.SSE)/nrow(A) + denom <.] [6.lscond. La matriz A y vector c especificando dicha hip´tesis pueden construirse as´ o ı: > A <.lscond(X.h <. byrow = TRUE) > d <. 2. 1. 1.h)^2) + numer <.

11 > result$p. A = A.sum(lsfit(Xmod. 1]. y)$residuals^2) Xmod <.´ 82 CAP´ ITULO 6. d = d. para calcular el estad´ ıstico Qh as´ ı: .sum(lsfit(X. puede obtenerse SSEh de una regresi´n en que los regresores o correspondientes est´n ausentes. podr´ ıamos obtener SSE de la regresi´n o (7. REGRESION CON PERTURBACIONES NORMALES. o e a En el caso que nos ocupa. y.cbind(X[. Si en nuestro ejemplo quisi´ramos a e contrastar h : β1 = β2 = 0. X[.0010548. o Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hip´tesis de inter´s de manera m´s simple.value [1] 0.32) (6.SSE)/1)/(SSE/(nrow(X) ncol(X))) (6. 2] + X[.((SSE.0010548 Rechazar´ ıamos por consiguiente la hip´tesis contrastada para cualo quier nivel de significaci´n α > 0.h <. En el caso frecuente de hip´tesis de exclusi´n (alguno o varios betas iguales a o o cero). Y = β0 X0 + β1 X1 + β2 X2 + ǫ es equivalente a Y = β0 X0 + β1 (X1 + X2 ) + ǫ y las sumas de cuadrados SSE y SSEh podr´ obtenerse as´ ıan ı: > > > > + SSE <. > result <.31) y SSEh de la regresi´n o Y = β0 X0 + ǫ.31) Puede verse que el valor de Qh as´ calculado es id´ntico al obtenido ı e m´s arriba: a > Qh [1] 161. 3]) SSE. si realmente β1 = β2 .h(X.contraste.11 Esta t´cnica de calcular las sumas de cuadrados SSE y SSEh en dos e regresiones ad-hoc puede ser muy frecuentemente utilizada.h . + beta0 = FALSE) > result$Qh [1] 161. y)$residuals^2) Qh <.

2. y)$residuals^2) Qh <. 1]. σβi−1 ˆˆ ˆ ıstico t o t-ratio. > 1 .´ 6.33) Qh = σ2 ˆ donde (X ′ X)−1 = [A(X ′ X)−1 A ′ ] designa el elemento en la posici´n i-´sima o e ii ′ −1 de la diagonal principal de (X X) . y)$residuals^2) SSE. Contraste sobre coeficientes βi aislados.33) sigue una o distribuci´n F1.h <. nrow(X) .1.sum(lsfit(X[. ocupando el unico ´ “uno” la posici´n i-´sima (recu´rdese que los par´metros β se numeran a o e e a partir de β0 ). En tal caso.3193e-07 permite rechazar contundentemente la hip´tesis h : β1 = β2 = 0 o contrastada. > > > + > SSE <.34) La regla de decisi´n que se deduce de (7. Qh puede escribirse as´ ı: ˆ ˆ (βi−1 − 0)′ [(X ′ X)−1 ]−1 (βi−1 − 0) ii (6.N −p .ncol(X)) [1] 8.2 permite obtener como casos particulares multitud de contrastes frecuentemente utilizados.pf(Qh. la hip´tesis h : βi−1 = 0 puede o contrastarse tomando c = 0 y A = 0 · · · 1 · · · 0 . y como σ 2 (X ′ X)−1 = σβ tenemos que: o ˆ ˆ2 ii ˆ i−1 Qh = ˆ βi−1 ∼ σβi−1 ˆˆ F1. (7. 2. Fin del ejemplo 6. CONTRASTE DE HIPOTESIS LINEALES. Por ejemplo. a o . Bajo la hip´tesis h.h .sum(lsfit(X.N −p ∼ tN −p (6.2. De El estad´ ıstico |βi−1 /ˆβi−1 | recibe el nombre de estad´ σˆ forma an´loga se contrasta la hip´tesis h : βi−1 = c. El Teorema 7.SSE)/2)/(SSE/(nrow(X) ncol(X))) Qh 83 [1] 16956 El valor que dicho estad´ ıstico Qh deja en a su derecha en la distribuci´n o de referencia.((SSE.34) es: o Rechazar h : βi−1 = 0 al nivel de significaci´n α si o ˆ βi−1 α/2 > tN −p .

0 0 0 una matriz con (p − 1) filas y p columnas. Qh se distribuye como una Fp−1.4. .2.´ 84 CAP´ ITULO 6.2. y: c′ = 0 0 ··· 0 Pero SSEh en este caso particular es lo que hemos definido (Teorema 3. Por tanto. . N SSEh = i=1 (Yi − Y )2 en la forma Aβ = c siendo:  ··· 0 0 · · · 0 0  . . Construcci´n de intervalos de confianza o para la predicci´n. Cuando h es cierta. = 0 | I . . . . a . p´g. REGRESION CON PERTURBACIONES NORMALES. β0 —. o Supongamos de nuevo que trabajamos sobre el modelo Y = X β + ǫ con los supuestos habituales m´s el de normalidad en las perturbaciones.N −p.4. . salvo el correspondiente a la columna a de “unos”. 6. . a Qh = = = (SST − SSE)/(p − 1) SSE/(N − p) N − p (SST − SSE) × p−1 SSE N −p R2 × p−1 (1 − R2 ) siendo R el coeficiente de correlaci´n m´ltiple definido en el Teorema 3. o u a 31. nulidad de todos los par´metros.3. . . En este caso. 30) como SST . . El contraste de h requiere solamente conocer R2 . . 6. ··· 0 1 y la hip´tesis h puede expresarse o  0 1 0 0 0 1  A = . o Otra hip´tesis frecuentemente de inter´s es: h : β1 = · · · = βp−1 = 0 —es o e decir. p´g. Contraste de significaci´n conjunta de la regreo si´n.

Una.37) (6. Teorema 6. distinta de las que han servido para estimar β o e independiente de ellas). p´g.39) (6.36) a continuaci´n. la predicci´n Y a o ˆ en lugar de β .´ 6.35) y (7. Observemos que: o ˆ ˆ E(Y∗ − Y∗ )2 = E[x∗ ′ β + ǫ ∗ − x∗ ′ β ]2 ˆ = E[x∗ ′ (β − β) + ǫ∗ ]2 ˆ = E[x∗ (β − β)] + E[ǫ∗ ] ˆ ˆ = E[x∗ ′ (β − β)(β − β)′ x∗ ] + E[ǫ∗ ]2 = x∗ ′ Σβ x∗ + σ 2 ˆ ′ 2 2 (6.38) a (7.3. que la varianza del error de predicci´n es mayor o igual que la varianza de la perturbaci´n (ya que o o x∗ ′ (X ′ X)−1 x∗ es una forma cuadr´tica semidefinida positiva). La correspondiente Y∗ ser´: Y∗ = x∗ ′ β + ǫ∗ .38) (6.39) se ha hecho uso de la circunstancia de que ˆ ˆ β y ǫ∗ son independientes (β depende solamente de ǫ . INTERVALOS DE CONFIANZA PARA LA PREDICCION 85 Frecuentemente es de inter´s. adem´s de la estimaci´n de los par´metros. y ǫ∗ es perturbaci´n o ˆ de una observaci´n adicional. o Sea x∗ un vector p × 1 de valores a tomar por los regresores.36) ˆ Se dice que Y∗ es una predicci´n insesgada de Y∗ . al emplear β . ˆ E(Y∗ − Y∗ ) = 0 ˆ E(Y∗ − Y∗ )2 = σ 2 (1 + x∗ ′ (X ′ X)−1 x∗ ) ´ Demostracion: El apartado 1) se sigue inmediatamente de las ecuaciones (7.35) (6. 21).3 Se verifica lo siguiente: 1. a E(Y∗ ) = E(x∗ ′ β + ǫ∗ ) = x∗ ′ β ˆ ˆ E(Y∗ ) = E(x∗ ′ β) = x∗ ′ β (6.43) = x∗ ′ σ 2 (X ′ X)−1 x∗ + σ 2 = σ 2 [1 + x∗ ′ (X ′ X)−1 x∗ ] En el paso de (7. y.42) (6.43) muestra dos cosas. 2. adem´s.40) (6. Esto es l´gico: a o ˆ∗ incorpora una fuente ǫ∗ es del todo impredecible. la e a o a utilizaci´n del modelo con finalidad predictiva. adicional de error. consecuencia la primera de los supuestos habituales.2. Una predicci´n Y∗ del valor a tomar por a o ˆ ˆ ˆ la Y∗ es: Y∗ = x∗ ′ β. y la o ˆ segunda de la insesgadez de β (Teorema 3.41) (6. El examen de (7.

u Kennedy (1980). 7. Sobre la utilizaci´n de R. En el Ejemplo 5. o El empleo de dichas funciones. Stapleton (1995) Sec. Stapleton (1995) Sec. se o a han definido las funciones lscond y contraste. Lange (1998). que es objeto de atenci´n en el Cap´ o o ıtulo 8 a continuaci´n. Habr´ determinadas Y∗ cuya predicci´n ser´ m´s precisa que a o a a la de otras. 8.43) muestra que la varianza del error de predicci´n o ′ depende de x∗ . 3. 313 y para su aplicaci´n al contraste de hip´tesis o o lineales generales. puede verse Cox o and Hinkley (1974) p. n Sobre generadores de n´meros aleatorios. que tambi´n pueden obtenerse e f´cilmente de acuerdo con la teor´ esbozada en la Secci´n 7. en general.4. o . 6. Thisted (1988) y. (7.3. a Puede consultarse por ejemplo la documentaci´n de linear. pueden consultarse Knuth (1968). Cap. REGRESION CON PERTURBACIONES NORMALES. Draper and Smith (1998) Cap. Sobre la teor´ ıa. 4. Por lo que hace a intervalos de confianza.8.1. En a R hay funciones en varios paquetes que proporcionan an´loga funcionalidad.8. cualquier texto sobre computaci´n estad´ o ıstica. En el Cap´ ıtulo 10 volveremos sobre el particular. 58 y siguientes. sin embargo.h por motivos did´cticos. 3. p´g. Por otra parte.hypothesis (pao quete car) y glh. Lectura recomendada. Sobre el contraste raz´n generalizada de verosimilitudes. presupone familiaridad con la funci´n lm.´ 86 CAP´ ITULO 6.7 son unos cuantos. Pe˜a (2002) Sec.test (paquete gmodels). puede ser de a ıa o utilidad la funci´n confint (paquete stats). Pueden ser consultados los manuales repetidamente citados: Seber (1977).

29) con A e y (X ′ X) ambas de rango completo. LECTURA RECOMENDADA.6. entonces rango(G) = rango(A).1 Demu´strese que si G es la matriz definida en (7. Complementos y ejercicios 6.4. 87 .

´ 88 CAP´ ITULO 6. . REGRESION CON PERTURBACIONES NORMALES.

Tipolog´ de variables explicativas. a 7. categor´ sean exhaustivas. Las variables cualitativas se desglosan a su o e vez en nominales y ordinales. “America” y “Ocean´ Requeriremos que las ıa”. ıa Interesar´ distinguir dos tipos de variables: cualitativas (tambi´n llamaa e das categ´ricas) y num´ricas.Cap´ ıtulo 7 Estimaci´n del modelo de o regresi´n lineal con R.1. Una variable cualitativa nominal especifica una caracter´ ıstica o atributo que puede tomar un n´mero entero (y habitualmente peque˜o) de niveles u n o estados. para ilustrar tanto los conceptos te´ricos adquiridos como o la potencia del entorno de modelizaci´n proporcionado por R. Se presenta aqu´ la funci´n a ı o lm y algunas otras. Por ejemplo. 89 . o En los cap´ ıtulos anteriores han aparecido fragmentos de c´digo ilustrando o el modo de llevar a cabo diversos c´lculos en R. “Asia”. podemos crear una categor´ especial como “Otros” o ıa “Resto”. o Este cap´ ıtulo es eminentemente pr´ctico y puede ser omitido sin p´rdia e da de continuidad por lectores que no est´n interesados en utilizar R como e herramienta de c´lculo. Si es preciso. de forma que todo caso muestral pueda recibir ıas un valor. “Africa”. una variable Zona podr´ tomar los niveles o estaıa dos: “Europa”.

los sujetos podr´ ser m´s o ıan a veraces al encuadrarse en intervalos amplios de renta que al responder directamente sobre su valor. e o An´logamente. podr´ convenirnos redefinir ıa la variable renta en categor´ Los coeficientes estimados ser´n m´s ıas. En cierto sentido. que no a a fuerza una relaci´n lineal entre renta y consumo. Por ejemplo. en el ejemplo ıa ıa. si o la variable se obtiene por encuestaci´n. al precio de un cierto sacrificio de informaci´n: dos temperao turas de. en el orden en que se han descrito. tambi´n al precio de sacrificar cierta informaci´n. Ser´ el caso de u ıa variables como Peso ´ Temperatura (aunque en la pr´ctica el n´mero de o a u estados que pueden tomar es finito a causa de la precisi´n tambi´n finita de o e los instrumentos de medida que empleamos). puea de convenirnos hacerlo. no interesar´ “degradar” una vao a riable trat´ndola como un tipo inferior. medir la renta en euros da al coeficiente β asociado la interpretaci´n o de “Incremento de consumo asociado a un incremento de renta de un euro”. Adem´s. 80C y 93C podr´ ambas convertirse en “Caliente”. “Primarios”. el suponer a n a una dependencia lineal del consumo sobre la renta ser´ en la mayor´ a ıa de los casos poco realista. o a Las variables que hemos denominado num´ricas pueden en principio poe nerse en correspondencia con un intervalo de n´meros reales. ıan perdi´ndose la informaci´n de que la segunda es superior a la primera. en una o ıas. reflejan una mayor finura o contenido informativo: una variable num´rie ca puede convertirse en ordinal fijando intervalos: por ejemplo. haciena do abstracci´n de su orden. En tal caso. “Superiores”. tendr´ un valor muy peque˜ o. La diferencia esencial con las variables nominales es que hay una ordenaci´n entre los distintos niveles: o cada una de las categor´ en el orden en que se hay escrito implica “m´s” ıas a estudios que la categor´ precedente. REGRESION CON R Una variable cualitativa ordinal se diferencia unicamente de una nominal ´ en que hay una ordenaci´n natural entre las categor´ Por ejemplo. si examinamos la influencia de la renta sobre el consumo de un cierto bien en una muestra de familias. T´ ıpicamente. “Secundarios”.1 En general. Temperatura podr´ convertirse en una variable ordinal con niveles “Fr´ “Templado” ıa ıo”. los tres tipos de variables. y “Caliente”.) . anterior una ordenaci´n natural entre las zonas geogr´ficas. una variable ordinal puede tratarse como nominal. y tendremos un modelo m´s flexible. aunque en algunos casos. o e o Observaci´n 7. (Adicionalmente. variable como Nivel de estudios podr´ ıamos tener categor´ como: “Sin ıas estudios”. por ejemplo. No hab´ en cambio.90 ´ CAP´ ITULO 7. a a f´cilmente interpretables.

.2. FACTORES Y DATAFRAMES.as. hay que especificarlo. "Oceanía".chr) [1] "character" > class(Zona) [1] "factor" > str(Zona. Podemos preguntar la clase de objeto con la funci´n class o ver la structura con la funci´n str para ver la o o diferencia: > class(Zona. En la jerga de R.7. aune que uno es una cadena de caracteres y otro un factor. y factores ordenados (ordered factors). Observemos el siguiente fragmento de c´digo: o > Zona. una variable cualitativa se denomina factor.1 Para que una variable sea un factor. + "Africa". para variables cualitativas ordinales. "Europa".2.c("Europa". o R: Ejemplo 7.chr) > Zona. > str(Zona) "Africa" .chr <. Hay factores ordinarios. Factores y dataframes.chr y Zona se imprimen de manera similar.factor(Zona. La diferencia estriba en las comillas en el primer caso y la l´ ınea adicional especificando los niveles en el segundo. "Asia") > Zona <. "Asia".1 a continuaci´n ilustra la manera de operar con ellos.chr) chr [1:7] "Europa" "Europa" "Asia" . El Ejemplo 8.chr [1] "Europa" "Europa" "Asia" [5] "America" "Ocean´a" "Asia" ı > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Africa America Asia Europa Ocean´a ı Obs´rvese que Zona.. 91 7. R ofrece excelentes facilidades para tratar variables de diferentes tipos como regresores. "America". que permiten manejar variables cualitativas nominales.

+ "Medios".. "Superiores")) > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Ningunos < Primarios < . < Superiores ..ordered(c("Superiores". "Medios".92 ´ CAP´ ITULO 7. REGRESION CON R Factor w/ 5 levels "Africa". + "Medios". + "Medios"... "Ningunos". "Medios". "Primarios"). + "Primarios". lo que e es indeseable: > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos 4 Levels: Medios < Ningunos < .. "Ningunos")) Si no se especifica lo contrario. "Medios". "Primarios". "Primarios".chr) NULL > levels(Zona) [1] "Africa" "America" "Asia" [5] "Ocean´a" ı "Europa" Veamos ahora como definir un factor ordenado: > Estudios <. podemos crear el objeto Estudios as´ ı: > Estudios <.: 4 4 3 1 2 5 3 Un factor tiene definidos niveles. el orden de los niveles se determina por el orden alfab´tico de sus denominaciones."America". levels = c("Ningunos". < Superiores Para especificar un orden. en tanto una cadena de caracteres no: > levels(Zona. Esto har´ que en Estudios e ıa el nivel “Medios” precediera a “Ningunos”.ordered(c("Superiores".. y ´ste a “Primarios”.

Si.7. < Ningunos > Estudios. quea remos revertir el orden. levels = rev(levels(Estudios))) > Estudios. el nivel de referencia. "Ningunos")) o.1 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < .. FACTORES Y DATAFRAMES.2 <. podemos hacerlo as´ ı: 93 > Estudios. Podemos de modo an´logo reordenar los niveles.relevel(Zona.1 <. Comprobemos a continuaci´n que obtenemos en ambos casos el mismo objeto con el orden o de los niveles deseado: > Estudios. Definamos ahora dos variables num´ricas: e . + "Medios".2. sin necesidad de enumerarlos.. ref = "Asia") > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Asia Africa America Europa Ocean´a ı Veremos en el Ejemplo 8. "Primarios".ordered(Estudios. por ejemplo. levels = c("Superiores"..5 la utilidad de esto. mas simplemente podemos revertir el orden de los niveles mediante la funcion rev.2 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < . Podemos lograrlo c´modamente con la funci´n relevel o o > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Africa America Asia Europa Ocean´a ı > Zona <. < Ningunos Una manipulaci´n que deseamos hacer de ordinario con factores no o ordenados es la de poner en primer lugar uno de los niveles.ordered(Estudios..

o Podemos referirnos a sus t´rminos como a los elementos de una lista. 12345.006 0.005.004 0. num 0.004 3 Asia Medios 3456 0.02 0.frame(Zona. + Mortalidad) > Datos Zona Estudios Ingresos Mortalidad 1 Europa Superiores 13456 0.006 6 Ocean´a ı Medios 4567 0.c(13456.frame³: $ Zona : $ Estudios : $ Ingresos : $ Mortalidad: 7 obs. 4567. 0. 0.: 4 3 3 2 1 3 2 num 13456 12345 3456 1234 6789 .006.015) Podemos reunir variables de diferentes tipos en una dataframe..02.010 4 Africa Primarios 1234 0.005 0..003 0.: 4 4 1 2 3 5 1 Ord.c(0. 0.005 7 Asia Primarios 2300 0. 2300) > Mortalidad <. pero presenta la peculiaridad de que sus columnas pueden ser de diferentes tipos: > Datos <."Africa".004. + 6789. Estudios. 1234.data.003.factor w/ 4 levels "Ningunos"<"Primarios"<.. e o proporcionando ´ ındices de fila y columna: > Datos$Ingresos [1] 13456 12345 > Datos[[3]] [1] 13456 12345 3456 1234 6789 4567 2300 3456 1234 6789 4567 2300 > Datos[. of 4 variables: Factor w/ 5 levels "Asia". + 0. es como una matriz.01 0. 0.020 5 America Ningunos 6789 0. A todos los efectos.01. 0.94 ´ CAP´ ITULO 7..003 2 Europa Medios 12345 0. 3456.015 > str(Datos) ³data.015 Una dataframe tiene la misma representaci´n interna que una lista.. REGRESION CON R > Ingresos <. Ingresos. "Ingresos"] [1] 13456 12345 3456 1234 6789 4567 2300 .

tras invocar la funci´n attach sus columnas son o visibles como si variables en el espacio de trabajo se tratase: > attach(Datos) > Zona [1] Europa Europa Asia Africa America [6] Ocean´a Asia ı Levels: Asia Africa America Europa Ocean´a ı La funci´n detach revierte el efecto de attach: o > detach(Datos) Si un objeto existe en el espacio de trabajo. continuaci´n del o Ejemplo 8.1. "c") > attach(Datos) .2. Adicionalmente. R: Ejemplo 7. "b". No obstante. Ingresos.c("a". 2:3] 3 Estudios Ingresos Medios 3456 95 Fin del ejemplo Una dataframe provee un entorno de evaluaci´n. Mortalidad) Si ahora tecle´ramos el nombre de alguna de ellas obtendr´ a ıamos un error. FACTORES Y DATAFRAMES. El Ejemplo 8. Muchas funciones en R o admiten un argumento data que permite especificar la dataframe en la que es preciso buscar las variables que se nombran.2. Estudios.7. la instrucci´n attach hace que las columnas en una dataframe sean accesibles como o variables definidas en el espacio de trabajo. > Datos[3.2 Comencemos por eliminar del espacio de trabajo algunas variables: > rm(Zona. su valor oculta el de la columna del mismo nombre en una dataframe “attacheada”: > Zona <. lo ilustra.

3. e o Proporciona la matriz de dise˜o asociada al modelo que especificamos en la n f´rmula. especificar de modo simple modelos de regresi´n. o La funci´n model.matrix recibe como argumentos una f´rmula y. REGRESION CON R The following object(s) are masked _by_ .matrix(Mortalidad ~ Ingresos.96 ´ CAP´ ITULO 7.3 Supongamos que deseamos investigar la relaci´n entre la variable Mortalidad y la variable Ingresos. o R: Ejemplo 7.4). Podemos o construir la matriz de dise˜ o as´ n ı: > X <. opcioo o nalmente. un o o ejemplo en la Secci´n 8.model. simplemente nomo brando a la izquierda del s´ ımbolo ~ la variable respuesta. Permiten. regresi´n lineal generalizada (mediante la funci´n o o o glm) o regresi´n no lineal (mediante la funci´n nlme en el paquete del mismo o o nombre). entre otras o cosas. Por razones did´cticas. y a la derecha las variables regresores. una dataframe en la que los t´rminos de la f´rmula son evaluados. exploraremos primero el a modo en que los diferentes tipos de variables son tratados en una f´rmula o por la funci´n model. F´rmulas o Bastantes funciones en R hacen uso de f´rmulas. sin embargo.GlobalEnv : Zona > Zona [1] "a" "b" "c" Fin del ejemplo 7.matrix. + data = Datos) > X 1 2 3 4 (Intercept) Ingresos 1 13456 1 12345 1 3456 1 1234 . Una f´rmula puede proporcionarse como argumento directamente para o estimar un modelo de regresi´n lineal ordinaria (mediante la funci´n lm.

+ data = Datos) > X Ingresos 1 13456 2 12345 3 3456 4 1234 5 6789 6 4567 7 2300 attr(."assign") [1] 1 Obs´rvese que la variable Mortalidad no juega ning´ n papel en la e u conformaci´n de la matriz de dise˜ o. Podr´ o n ıamos omitirla y dar s´lo el o lado derecho de la f´rmula. data = Datos) > X (Intercept) Ingresos 1 1 13456 2 1 12345 3 1 3456 4 1 1234 5 1 6789 6 1 4567 7 1 2300 attr(.matrix(~Ingresos."assign") [1] 0 1 6789 4567 2300 97 Como podemos ver. FORMULAS 5 1 6 1 7 1 attr(. se ha a˜ adido autom´ticamente una columna de n a “unos”.3. > X <. podr´ u ıamos evitarlo incluyendo como regresor “-1”. Si esto fuera indeseable por alg´ n motivo.´ 7.matrix(Mortalidad ~ -1 + Ingresos. as´ o ı: > X <.model."assign") [1] 0 1 .model.

67082 0. Podemos construir su matriz de dise˜ o as´ n ı: > X <.4 Consideremos un modelo que tiene como regresores Zona. Ingresos y Estudios. + data = Datos) Las variables Zona y Estudios son cualitativas. cuando tenemos regresores cualitativos.22361 -0.67082 0.5 -0.22361 -0.C ı 0 0.22361 -0.5 -0.model.22361 -0.matrix as´ lo hace.67082 0 -0.98 ´ CAP´ ITULO 7.5 0.4 lo ilustra.22361 1 0.67082 0 -0. y la funci´n model.67082 Ingresos 13456 12345 3456 1234 6789 4567 2300 .22361 0 0. REGRESION CON R Fin del ejemplo La comodidad que proporciona la utilizaci´n de f´rmulas se hace m´s o o a evidente.67082 0 0. El Ejemplo 8.5 0.5 -0.matrix(~Zona + Estudios + Ingresos. R: Ejemplo 7. Veamos la o ı matriz de dise˜ o que proporciona: n > X 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 (Intercept) ZonaAfrica ZonaAmerica ZonaEuropa 1 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 ZonaOcean´a Estudios.5 0.5 -0.L Estudios. sin embargo. Requieren ser tratadas de manera especial.67082 0 -0.Q Estudios.22361 -0.

´ 7.3. FORMULAS
attr(,"assign") [1] 0 1 1 1 1 2 2 2 3 attr(,"contrasts") attr(,"contrasts")$Zona [1] "contr.treatment" attr(,"contrasts")$Estudios [1] "contr.poly"

99

La variable Ingresos (num´rica) ha sido dejada tal cual. La variable e Zona es cualitativa nominal, y requiere ser desglosada en tantas columnas como niveles tiene (as´ el β asociado a cada columna recoge el efecı, to del correspondiente nivel). Eso es lo que ha hecho model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido de otro modo. El nivel omitido (Asia) pasa as´ a formar parte del caso de referencia: la ı funci´n relevel (ver Ejemplo 8.1) permitir´ cambiar f´cilmente el o ıa a nivel que forma parte del caso de referencia. El tratamiento de las variables ordinales como Estudios es algo m´s elaborado. En una variable ordinal hay una noci´n natural de a o proximidad entre niveles: el nivel de estudios Medios est´ m´s cerca del a a nivel Superiores que el nivel Primarios. Lo que hace model.matrix es conceptualmente equivalente a hacer lo siguiente (detalles en la Observaci´n 8.2, p´g. 100): o a 1. Asignar a cada nivel de Estudios un valor entero, respetando el orden de la variable: “Ningunos”=1, “Primarios”=2, “Medios”=3 y “Superiores”=4. 2. Con la variable Estudios as´ codificada, crear tantas columı nas para la variable Estudios como niveles tenga, de la forma: (Estudios)0 , (Estudios)1 , (Estudios)2 , (Estudios)3 . La primera columna, que es constante, es autom´ticamente desechada a si en la matriz de dise˜ o existe columna de “unos”, para evitar la muln ticolinealidad. Las restantes son rotuladas con las letras “L” (Linear), “Q” (Quadratic), “C” (Cubic), y as´ sucesivamente. ı Si empleamos todas las columnas que model.matrix crea para una variable ordinal, obtenemos exactamente el mismo subespacio que habr´ ıamos obtenido con columnas de ceros y unos como las empleadas para una variable nominal: la ventaja de utilizar una base de dicho subespacio como la que model.matrix construye, es que permite en ocasiones realizar una modelizaci´n m´s simple: podemos, a voluntad, o a emplear en un modelo de regresi´n algunas, varias o todas las columnas o

100

´ CAP´ ITULO 7. REGRESION CON R
como regresores, para modelizar un efecto m´s o menos “suave” sobre a la variable respuesta. Fin del ejemplo

Observaci´n 7.2 Se indica en el Ejemplo 8.4 que el efecto de o
una variable ordinal se recoge de modo conceptualmente equivalente a construir potencias de orden creciente de la variable ordinal codificada por valores enteros que respetan el orden. Ayudar´ representar gr´ficaa a mente las columnas correspondientes de la matriz X frente a los enteros codificando los niveles de la variable Estudios. Para ello, eliminamos primero niveles duplicados y representaremos los restantes: > > > + + > > x <- as.numeric(Datos[, "Estudios"]) i <- !duplicated(x) plot(x[i], X[i, "Estudios.L"], type = "b", pch = "L", xaxp = c(1, 4, 3), xlab = "x", ylab = "Estudios.{L,Q,C}") points(x[i], X[i, "Estudios.Q"], pch = "Q") points(x[i], X[i, "Estudios.C"], pch = "C")

0.6

C Q

L Q

0.4

Estudios.{L,Q,C}

−0.2

0.0

0.2

L

C

C

L

−0.4

Q −0.6 L 1 2 x

Q C 3 4

´ 7.3. FORMULAS
Hemos dibujado una l´ ınea uniendo las “L” para destacar su crecimiento lineal. Las “Q” puede verse que se sit´ an sobre una par´bola y u a las “C” sobre una funci´n c´ bica. o u Un vistazo al gr´fico anterior muestra, sin embargo, que el t´rmino a e lineal, por ejemplo, no toma los valores 1, 2, 3 4, ni el cuadr´tico 1, 4, a 9, 16. En efecto, > X[i, 6:8] 1 2 4 5 Estudios.L Estudios.Q Estudios.C 0.67082 0.5 0.22361 0.22361 -0.5 -0.67082 -0.22361 -0.5 0.67082 -0.67082 0.5 -0.22361

101

En realidad se han rescalado las columnas y se han ortogonalizado: > round(crossprod(X[i, 6:8])) Estudios.L Estudios.Q Estudios.C Estudios.L Estudios.Q Estudios.C 1 0 0 0 1 0 0 0 1

Ello se hace por razones de conveniencia num´rica y de interpretaci´n. e o Aunque por razones did´cticas hemos construido primero la matriz a de dise˜ o y extraido luego un subconjunto de filas y columnas para n ver como se codificaba la variable Estudios, R proporciona un modo m´s simple de hacerlo: a > contrasts(Datos[, "Estudios"]) .L .Q .C Ningunos -0.67082 0.5 -0.22361 Primarios -0.22361 -0.5 0.67082 Medios 0.22361 -0.5 -0.67082 Superiores 0.67082 0.5 0.22361

Observaci´n 7.3 El anterior es el comportamiento “por omio
si´n” de la funci´n model.matrix. Podemos alterarlo especificando o o distintos modos de desdoblar los factores y factores ordenados. Ello se hace invocando la funci´n options de modo similar al siguiente: o

102

´ CAP´ ITULO 7. REGRESION CON R
options(contrasts=c("contr.treatment","contr.poly")) La primera opci´n en el argumento contrasts se aplica a los factoo res, la segunda a los factores ordenados. Por ejemplo, para los factores podemos especificar que se desdoblen en tantas columnas como niveles haya, sin incluir ning´ n nivel en el caso de referencia. Para ello, u deberemos proporcionar contr.sum como primer valor de contrasts: options(contrasts=c("contr.sum","contr.poly")) V´ase la documentaci´n de contrasts para m´s detalles. e o a Adicionalmente, podemos invocar directamente las funciones contr.sum, contr.treatment, contr.poly, contr.helmert para obtener informaci´n sobre el diferente modo en que quedar´ o ıa codificado un factor. Por ejemplo, > NivelEstudios <- levels(Datos[, "Estudios"]) > contr.sum(NivelEstudios) [,1] [,2] [,3] Ningunos 1 0 0 Primarios 0 1 0 Medios 0 0 1 Superiores -1 -1 -1 > contr.treatment(NivelEstudios) Ningunos Primarios Medios Superiores Primarios Medios Superiores 0 0 0 1 0 0 0 1 0 0 0 1

> contr.poly(NivelEstudios) .L .Q .C [1,] -0.67082 0.5 -0.22361 [2,] -0.22361 -0.5 0.67082 [3,] 0.22361 -0.5 -0.67082 [4,] 0.67082 0.5 0.22361 Obs´rvese que mientras contrasts se invoca tomando como argue mento un factor, las funciones contr.sum y similares toman como argumento el vector de niveles de un factor.

. 301 102 219 80 30 44 139 179 286 15 .matrix y estima el modelo deseado. y referidos al a˜ os 1960... Por ejemplo. 33 13 18 157 18 25 4 50 39 7 . podemos obtener o informaci´n detallada sobre los datos tecleando help(UScrime). o La funci´n lm es un instrumento potente y c´modo de utilizar para el o o an´lisis de regresi´n lineal. .. 58 103 45 149 109 118 82 115 65 71 .frame³: $ M : int $ So : int $ Ed : int $ Po1 : int $ Po2 : int $ LF : int $ M. Tras hacerlo. as´ o ı: ajuste <lm(y ~ x1 + x2 + x4. 91 113 89 121 121 110 111 109 90 118 . 56 95 44 141 101 115 79 109 62 68 ... suministrando un c´mulo de inu formaci´n sobre la estimaci´n.F : int $ Pop : int $ NW : int $ U1 : int $ U2 : int $ GDP : int 47 obs. data=datos) La funci´n lm construye entonces la matriz de dise˜o mediante la funci´n o n o model.. LA FUNCION LM. 510 583 533 577 591 547 519 542 553 632 .. 1 0 1 0 0 0 1 1 1 0 .. 394 557 318 673 578 689 620 472 421 526 .. 103 7.5 a continuaci´n proporciona o o o detalles. Se trata de datos correspondientes a 47 estados en EE. Puede utilizarse con tan solo dos argumentos: a o una f´rmula y una dataframe que suministra los valores para evaluar las o expresiones en dicha f´rmula. 108 96 94 102 91 84 97 79 81 100 .UU...5 Veamos en primer lugar los datos que utilizaremos...4.... R: Ejemplo 7. 1:5] M So Ed Po1 Po2 1 151 1 91 58 56 2 143 0 113 103 95 3 142 1 89 45 44 > str(UScrime) ³data. Forman parte del paquete MASS (soporte n del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instrucci´n library(MASS)).4.. 950 1012 969 994 985 964 982 969 955 1029 . La funci´n lm.. El Ejemplo 8..´ 7.. of 16 variables: 151 143 142 136 141 121 127 131 157 140 ... 41 36 33 39 20 29 38 35 28 24 .. o > library(MASS) > UScrime[1:3.

.0414 . algunas reales (num) y e otras enteras (int).8 -163. data = UScrime) > fit Call: lm(formula = y ~ Ineq + Prob + So.. sin embargo. Lo o que muestra en el fragmento anterior es que UScrime es una dataframe. La variable y (tasa de o criminalidad) podemos relacionarla con la desigualdad(Ineq). todas las variables son num´ricas.. proporcioo na un estadillo con informaci´n mucho m´s completa..0834 0. La funci´n str permite ver la estructura de cualquier objeto en R.99 Ineq -1. o a > summary(fit) Call: lm(formula = y ~ Ineq + Prob + So. proporciona una informaci´n muy suo maria: apenas la descripci´n del modelo ajustado y los coeficientes o estimados. 26.0296 0. REGRESION CON R 261 194 250 167 174 126 168 206 239 174 .. data = UScrime) Residuals: Min 1Q Median -662.. data = UScrime) Coefficients: (Intercept) 1538.0846 0.2 25.lm(y ~ Ineq + Prob + So. probabilidad de ser encarcelado (Prob) y con un indicador de Estado sure˜ o n (So): > fit <.3 24.9 21. a o o .8 -56.36 So 242. El empleo de la funci´n summary.4 No se afirma que el modelo que ensayamos sea el mejor en ning´ n sentido: es s´lo una u o ilustraci´n.. En este caso.5 1057.46 El objeto fit. El Cap´ o ıtulo 13 abordar´ la cuesti´n de c´mo seleccionar modelos.3 29.1 1 3Q Max 82.104 $ $ $ $ Ineq: Prob: Time: y : int num num int ´ CAP´ ITULO 7.0158 0. Probemos ahora a hacer una regresi´n1 .58 Prob -8698. 791 1635 578 1969 1234 682 963 1555 856 705 .3 . al imprimirlo. 0. Vemos tambi´n que tiene 47 filas (=observaciones) e y 16 columnas (=posibles regresores)..

Su estad´ ıstico t.81 0. La probabilidad bajo la hip´tesis nula H0 : βi = 0 de obtener un o valor del estad´ ıstico t tan o m´s alejado de cero que el obtenido a (bajo Pr(>|t|)). p-value: 0.46 2725. R2 (que toma el valor 0. Error t value Pr(>|t|) (Intercept) 1538.95 -0. el modelo ajustado y unos estad´ ısticos sobre los residuos (m´ ınimo. es decir.1589 105 (Intercept) *** Ineq Prob ** So --Signif.58 1.99 169. A continuaci´n. Finalmente. en primer lugar. 2. 50 % y 75 % de los residuos.0127 Desmenucemos la salida anterior.1 ³ ³ 1 Residual standard error: 353 on 43 degrees of freedom Multiple R-squared: 0. m´ximo a y cuartiles. 4.05 on 3 and 43 DF.0026 So 242. este ultimo estad´ ´ ıstico ser´ introducido en el a Cap´ ıtulo 13).4. Coefficients: Estimate Std. Su βi (bajo Estimate).4220 Prob -8698. Se imprime. los grados de libertad 2 N − p.45 6e-05 Ineq -1.05 ³.22) y R (Adjusted R-squared. Su σβi (bajo Std. tenemos el estad´ ıstico Qh para contrastar .84 4. (43 degrees of freedom). que estima σǫ .01 ³*³ 0. el segundo cuartil es la mediana).´ 7.³ 0. codes: 0 ³***³ 0.22.166 F-statistic: 4.19 0. ˆˆ 3. N −p (Residual standard error).001 ³**³ 0.43 0. LA FUNCION LM. Adjusted R-squared: 0.42 -3. valores dejando a su izquierda el 25 %. teo nemos un estadillo proporcionando para cada regresor mencionado al margen: ˆ 1. Error). A continuaci´n tenemos o SSE . ˆ βi σβ i ˆˆ (bajo t value).36 345.48 1.

43 una cola de probabilidad 0.h$residuals^2) y a continuaci´n el estad´ o ıstico Qh asociado a la hip´tesis y los grados o de libertad del mismo: "residuals" "rank" "assign" "df. o > fit.h <. Dicho valor deja a su derecha ı en una distribuci´n F3. 82: a ajustamos una segunda regresi´n eliminando los regresores Ineq y So.sum(fit$residuals^2) > SSE [1] 5363970 El estadillo anterior suger´ que el regresor Prob era muy significativo. cuyos nombres son autoexplicativos: > attributes(fit) $names [1] "coefficients" [3] "effects" [5] "fitted.0127. ıa en tanto los restantes no lo eran. para obtener la suma de cuadrados de los residuos.lm(y ~ Prob.106 ´ CAP´ ITULO 7. p´g. data = UScrime) calculamos la suma de cuadrados de sus residuos. Aqu´ toma el valor 4.h <.2. podr´ ıamos hacer: > SSE <. Podemos contrastar la hip´tesis H0 : o β Ineq = β So = 0 del modo sugerido al final del Ejemplo 7.2. que es el o nivel de significaci´n conjunto de la regresi´n ajustada.2 o o o (F-statistic).residual" "call" "model" .05. REGRESION CON R significaci´n conjunta de la regresi´n. o o El objeto compuesto fit contiene la informaci´n que ha permitido o imprimir todos los anteriores resultados y mucha otra.values" [7] "qr" [9] "xlevels" [11] "terms" $class [1] "lm" Podemos referirnos a los componentes de fit y emplearlos en c´lculos a subsiguientes.sum(fit. SSE. Por ejemplo. > SSE. como se indica en la Secci´n 7.

3616 lo que sugiere que podemos prescindir de dichos dos regresores. q.p)) Qh 107 [1] 1.³ 0.p) [1] 0.SSE)/q)/(SSE/(N . codes: 0 ³***³ 0.06 0.1 ³ ³ 1 con: > fit2 <.191 Prob 1 1040010 1040010 8.01 ³*³ 0.0028 ** .4.0417 La probabilidad que el valor 1.pf(Qh. La instrucci´n anova proporciona una descomposici´n de la suma o o de cuadrados de los residuos correpondiente a cada regresor cuando se introducen en el orden dado. > > > > > N <. data = UScrime) > anova(fit2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Prob 1 1257075 1257075 10.159 Residuals 43 5363970 124743 --Signif.h .34 0.77 0. N . Comp´rese por ejemplo.nrow(UScrime) q <.´ 7.08 0. a > anova(fit) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Ineq 1 220530 220530 1.4 Qh <.006 ** So 1 256417 256417 2.001 ³**³ 0.2 p <.((SSE.0417 del estad´ ıstico deja en la cola a su derecha es > 1 . LA FUNCION LM.lm(y ~ Prob + Ineq + So.05 ³.

ordered(cut(UScrime[. labels = c("Baja".lm(y ~ Prob + Ineq + So.05 ³. data = UScrime) > summary(fit3) Call: lm(formula = y ~ Prob + Ineq + So. dividiremos su recorrido en tres intervalos. "Sur")) Para la segunda variable.01 ³*³ 0. tos puramente ilustrativos re-estimaremos la regresi´n anterior convirtiendo o previamente la variable indicadora So (Estado del Sur) en una variable nominal y la variable Ineq en una variable ordinal (o factor ordenado). basta que reemplacemos la columna So de la dataframe del siguiente modo: > UScrime[.factor(UScrime[.4 3Q Max 124.5) o > fit3 <. codes: 0 ³***³ 0.9 -195.06 0.5 . y a continuaci´n definimos un factor ordenado con tres categor´ o ıas: > Temp <. "Media".³ 0. data = UScrime) Residuals: Min 1Q Median -641. + breaks = 3).5 -55.001 ³**³ 0. "Ineq"] <.3 1059. + labels = c("Norte".Temp Podemos ahora repetir la estimaci´n anterior: o R: Ejemplo 7.6 (continuaci´n del Ejemplo 8. "So"]. "So"] <. + "Alta")) > UScrime[.108 ´ CAP´ ITULO 7.8684 So 1 256417 256417 2.03 0.1589 Residuals 43 5363970 124743 --Signif. REGRESION CON R Ineq 1 3466 3466 0.1 ³ ³ 1 Fin del ejemplo No hay ninguna necesidad ni aparente ventaja en hacerlo as´ pero a efecı. "Ineq"]. Para lo primero.

sum".lm(y ~ Prob + Ineq + So. Adjusted R-squared: 0.0 8.159 F-statistic: 3. A t´ ıtulo ilustrativo.8 8.7 -3.6 110.7 -3.17 on 4 and 42 DF.³ 0.9238 SoSur 284. Coefficients: Estimate Std. podemos ajustar la anterior regresi´n empleando un diferente desdoblamiento o del regresor cualitativo So: > options(contrasts = c("contr. La variable a nominal So se desglosa tambi´n en dos: el nivel “Norte” se integra en e el caso de referencia y el par´metro restante mide el efecto deferencial a del nivel “Sur” respecto al nivel “Norte”.32 0. lineal y cuadr´tico).1 ³ ³ 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.Q -10.7 151. p-value: 0. LA FUNCION LM. Error t value Pr(>|t|) (Intercept) 1212.32 0.0019 . "contr.4 3Q Max 124.232.0019 Ineq.3 1059.8 2717.6e-11 Prob -9013.08 0.1298 109 (Intercept) *** Prob ** Ineq.55 0.9 -195.0229 La variable ordinal Ineq da lugar a tres t´rminos (constante.L Ineq.Q SoSur --Signif.5 -55.001 ³**³ 0.8 184.97 2. omitido e por colineal con la columna de unos. data = UScrime) Residuals: Min 1Q Median -641.4e-11 Prob -9013.2866 Ineq.10 0.´ 7.5 Coefficients: Estimate Std.99 2.2 132.4 -0. codes: 0 ³***³ 0. data = UScrime) > summary(fit4) Call: lm(formula = y ~ Prob + Ineq + So.01 ³*³ 0.4.3 1. Error t value Pr(>|t|) (Intercept) 1354.8 2717.poly")) > fit4 <.4 134.05 ³.L -143.7 -1.

sum fuerza los coeficientes asociados a un regresor nominal a sumar cero. el e o o primer nivel de So. Fin del ejemplo 7.5. vemos que son id´nticos.³ 0. Si observamos los dos ajustes.L Ineq.4 sobre el nivel promedio de Norte y Sur.3.1298 (Intercept) *** Prob ** Ineq. o Sec.8.4 92. respecto de la tasa prevalente en un Estado del Norte de an´logas caracter´ a ısticas. . u Puede encontrarse una discusi´n exhaustiva de las diferentes opo ciones de parametrizaci´n disponibles en Venables and Ripley (1999a). Adjusted R-squared: 0. la criminalidad desciende en -142. La parametrizaci´n en el model o fit4 expresa lo mismo de otro modo: en un Estado del Norte. En fit3.7 110.L Ineq.17 on 4 and 42 DF. Una excelente referencia es Venables and Ripley (1999a). Son ya bastantes las obras que es posible consultar sobre la utilizaci´n de R como herramienta para los c´lculos que requiere la regresi´n o a o lineal. mientras que en un Estado del Sur aumenta en 142.55 0. Sobre R.1 -1. el asociado al segundo nivel es su opuesto.Q So1 -143.0229 (V´ase la Observaci´n 8.9238 0.05 ³.6 -142.110 Ineq. Lo unie ´ co que se altera es la interpretaci´n de los par´metros. Exclusivamente orientado a modelos lineales es Faraway (2005).) Vemos un s´lo regresor asociado a So1.1 ³ ³ 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0. codes: 0 ³***³ 0.2866 0.8.10 -1. p-value: 0.Q So1 --Signif. Lectura recomendada. el o a tratarse de un Estado del Sur ten´ como efecto incrementar la tasa ıa de criminalidad en 284.08 -0.001 ³**³ 0.01 ³*³ 0.2 -10.4 ´ CAP´ ITULO 7. REGRESION CON R 132.4. 6.232. ya que contr.2. La diferencia entre ambos niveles contin´ a siendo 284.159 F-statistic: 3.

lo m´s plausible es que H0 no sea a cierta. o a 2. 4. 8.” 111 .1.2 veremos que el m´todo ha sido el habitual en Estad´ o e ıstica no bayesiana. rechazar H0 .1. Seleccionar un estad´ ıstico cuya distribuci´n sea conocida cuando H0 es o cierta y que se desv´ de modo predecible de dicha distribuci´n cuando ıa o H0 no es cierta.Cap´ ıtulo 8 Inferencia simult´nea. Calcular el valor del estad´ ıstico en una determinada muestra. Los pasos se pueden esquematizar as´ ı: 1. La l´gica subyacente es: “Como cuando H0 es cierta es dif´ que se de o ıcil un valor del estad´ ıstico como el observado. Fijar una hip´tesis H0 sobre los par´metros de un modelo. 3. Problemas que plantea el contrastar m´ lu tiples hip´tesis simult´neas o a Evidencia contra una hip´tesis o Si examinamos la teor´ sobre contrastes de hip´tesis presentada en la ıa o Secci´n 7. Si el valor de dicho estad´ ıstico es an´malo respecto de lo que o esperar´ ıamos bajo H0 .1. a 8.

en la literatura inglesa. INFERENCIA SIMULTANEA.1 Llamamos nivel de significaci´n emp´ o o ırico asociado al valor observado de un estad´ ıstico a la probabilidad de obtener en el muestreo (bajo H0 ) valores tan o m´s raros que el obtenido.1 Para una muestra X1 .05. supongamos que H0 : µ = 0.196 (= 1. o 1 O p-value. . podemos ordenarlos de m´s a menos “raros” de acuerdo con su densidad a respectiva. todos los posibles valores del estad´ o ıstico X tienen probabilidad cero. . Ejemplo 8. Fin del ejemplo Tendr´ inter´s en lo que sigue la noci´n de nivel de significaci´n emp´ a e o o ırico 1 . Consideraremos a ıas o estos ultimos “raros” y favoreciendo el rechazo de H0 . . Sea una muestra con n = 100. Supongamos conocida σ 2 = 1. σ 2 /n)— genera de modo frecuente observaciones en las cercan´ de µ. σ 2 ).96 × 100−1 ). la distribuci´n de dicho estad´ o ıstico —una N (µ. No obstante. Tienen densidad ´ menor que los cercanos a µ. y s´lo raramente valores en las colas. Fin del ejemplo Si en ocasiones al abordar un contraste de hip´tesis prefijamos de anteo mano el nivel de significaci´n que deseamos utilizar (y la regi´n cr´ o o ıtica). Xn procedente de una distribuci´n N (µ. porque baıa jo H0 hay probabilidad 0. . Niveles de significaci´n o e o emp´ ıricos muy peque˜os habr´ as´ de entenderse como evidencia contra la n ıan ı hip´tesis nula objeto de contraste.05 de observar valores de X igual o m´s a alejados de µ que el que se ha presentado. e ima√ ginemos que obtenemos un valor de X de 0. El nivel de significaci´n emp´ o ırico (u observado) ser´ 0. a Ejemplo 8.1.2 En el Ejemplo 9. es muy frecuente realizar el contraste sin una regi´n cr´ o ıtica preespecificada y tomar el nivel de significaci´n emp´ o ırico como una medida del acuerdo (o desacuerdo) de la evidencia con la hip´tesis de inter´s.112 ´ CAP´ ITULO 8. No obstano te. . todos los valores posibles tienen probabilidad cero. Definici´n 8. Cuando el estad´ ıstico que empleamos en el contraste tiene una distribuci´n continua.

Fin del ejemplo El ejemplo anterior. si todos los conjuntos de 635. (8. ¿C´mo de “raro” ha de ser algo para ser realo mente “raro”? El siguiente ejemplo2 ilustra que un resultado aparentemente muy raro puede no serlo tanto. De hecho. Algo.1. Supongamos que hay 26 letras m´s caracteres de a puntuaci´n. MULTIPLES HIPOTESIS SIMULTANEAS 113 8. del trabajo de 10955771 monos esperar´ ıamos obtener en torno a 5. haci´ndoles teclear a su entero arbitrio 635. Lo observado no es raro en absoluto. de 635000 digitaciones. Componer o o Hamlet totalmente al azar consistir´ en apretar la tecla correcta suıa cesivamente 635. nos topamos con que el mono n-´simo ¡ha compuesto Hamlet! ¿Lo separar´ e ıamos de sus cong´neres para homenajearlo como reencarnaci´n de Shakese o peare? Claramente no.1. etc.000 a e digitaciones. n por puro azar. Espec´ ıficamente. imaginemos 10955771 monos. haya tecleado Hamlet.2.3 Consideremos un mono frente a una m´quina de a escribir.1) La observaci´n de un mono que teclea Hamlet ser´ pr´cticamente o ıa a imposible bajo H0 : habr´ ıamos de rechazar H0 y pensar en alguna alternativa (¿quiz´ Shakespeare reencarnado en un mono?) a Imaginemos ahora una multitud de monos a los que situamos frente a m´quinas de escribir. totalizando 32 posibilidades de digitaci´n. Ejemplo 8. Supongamos que una obra como Hamlet requiriera. pero 2 Par´frasis de un c´lebre comentario de Bertrand Russell.8045 transcripciones exactas de Hamlet. suponiendo las 32 posibilidades de digitaci´n equiprobables. La probabilidad de que golpeando al azar el teclado un mono logre tal cosa es rid´ ıculamente baja. tendr´ probabilidad: o ıa p= 1 32 635000 ≈ 5.804527 × 10−955771 .000 digitaciones son equiprobables. algo que. entre blancos y caracteres.´ ´ ´ 8. a e . aparentemente lo mismo. ilustra un punto importante. no es extra˜ o que uno. puede ser raro o no dependiendo del contexto. Observar un mono tecleando Hamlet es rar´ ısimo. Supongamos que examinando el trabajo de cada uno de ellos. porque.000 veces. deliberadamente extremo e inveros´ ımil. entre tantos. tal resultado es abo solutamente inveros´ ımil. Imaginemos que tras un periodo de tiempo observamos el conjunto de folios tecleados por el mono y constatamos que ¡ha escrito sin una s´la falta de ortograf´ Hamlet! o ıa Bajo la hip´tesis nula H0 : “mono irracional”.

bajo H0 .0030138 = 0.” atribuyendo a esta decisi´n un nivel de significaci´n o o de 5.99. y seleccionar como interesante la evidencia que nos lo parezca. hacer an´lisis exploratorio: examinar nuesa tros datos. sin embargo. no podemos extra˜arnos o n de que sea rara! Cuando seleccionamos la evidencia. De otro modo. . si seleccionamos el mono entre una mir´ ıada de ellos precisamente porque ha tecleado Hamlet.3 intenta transmitir. hemos de tenerlo en cuenta al hacer inferencia. An´lisis exploratorio e inferencia a Es importante entender lo que el Ejemplo 9. acontece con probabilidad mayor que 0. El error. Es el valor de p que reportamos el que resulta completamente irreal a menos que corrijamos el efecto de la selecci´n. o Ejemplo 8. bajo H0 ) ¡es tan grande como 1 − 0.1. Por tanto. Fin del ejemplo Nada nos impide.114 ´ CAP´ ITULO 8. ¡Hemos seleccionado la observaci´n por su rareza. frecuente en el trabajo aplicado. construir tal o cual intero o valo con confianza (1 − p). la probabilidad de que ninguno de los monos hubiera tecleado Hamlet ser´ ıa: p0 = (1 − p)10 = 1− 955771 955770 635000 10 1 32 ≈ 0. Imaginemos la segunda situaci´n descrita en que uno entre los 10955771 monos examinados o compone Hamlet.3. INFERENCIA SIMULTANEA. la probabilidad de observar una o m´s transcripciones de Hamlet (un suceso tan raro o m´s raro que el a a observado.804527). ya no podemos juzgar el suceso observado del mismo modo.0030138. es seleccionar la evidencia e ignorar este hecho al producir afirmaciones o resultados de tipo inferencial como rechazar tal o cual hip´tesis con nivel de significaci´n p. 8. Por el contrario. Ser´ incorrecto rechazar la hip´tesis H0 : “Los monos ıa o son irracionales. el ultimo valor calculado haciendo uso de una aproximaci´n de Poisson ´ o (con media λ = 5.9969862! Dif´ ıcilmente considerar´ ıamos evidencia contra la hip´tesis nula algo o que.804525 × 10−955771 .4 Regresemos al Ejemplo 9.3. estaremos prejuzgando el resultado.

6 Supongamos el modelo Y = β0 X 0 + β1 X 1 + . . rechazar la hip´tesis H0i . reportando un nivel de significaci´n α. influye sobre la respuesta. o Lo que es reprobable es seleccionar el unico mono que teclea Hamlet ´ y reportar el hallazgo como si ese mono fuera el unico observado. por simplicidad. Dicho modelo n tiene su origen en nuestra completa ignorancia acerca de cu´l de las a cien variables regresoras consideradas. Si quisi´ramos contrastar la hip´tesis H0 : βi = 0. Ser´ del mayor inter´s que ese ıa e mono produjera a continuaci´n Macbeth. ´ 115 Fin del ejemplo 8. Seguramente o le invitar´ ıamos a seguir escribiendo. y por u consiguiente H0 . o 2. hemos de hacer uso de modelos con un n´mero u grande de par´metros. . MULTIPLES HIPOTESIS SIMULTANEAS Ejemplo 8. Ejemplo 8.5 De nuevo en el Ejemplo 9. si es que alguna. . normalidad de las perturbaciones y ortogonalidad de las columnas de la matriz de dise˜ o. i = 0. objeto de e e o nuestro estudio? Bastante. . 84. Podr´ o a ıamos ser m´s ambia ciosos e intentar al mismo tiempo ver cu´l o cuales βi son distintos de a cero. .1. 99.2. El siguiente ejemplo lo aclara. hemos de ser conscientes de que algunas hip´tesis ser´n objeto de rechazo con una probabilidad mucho mayor o a que el nivel de significaci´n nominal empleado para contrastar cada una de o ellas. hay muchas hip´tesis que podea o mos plantearnos contrastar.3.4. Si lo hacemos. + β99 X 99 + ǫ . .2.1. no hay nada reprobable en examinar el trabajo de cada uno de los monos y detenernos con toda atenci´n a examinar al animal que produce Hamlet. Si alg´ n t-ratio excede tN −p .´ ´ ´ 8. e o podr´ ıamos (si se verifican los supuestos necesarios) emplear el contraste presentado en la Secci´n 7. En ocasiones. Inferencia simult´nea y modelo de regresi´n lia o neal ordinario Pero ¿qu´ tiene ´sto que ver con el modelo de regresi´n lineal. o α/2 . Ser´ incorrecto operar as´ ıa ı: 1. Contrastar las hip´tesis H0i : βi = 0 al nivel de significaci´n α o o α/2 comparando cada t-ratio en valor absoluto con tN −p . Cuando ello ocurre. Supongamos. p´g.

Pensemos en el investigador que hace multitud de regresiones. a De nuevo es preciso insistir: no hay nada objetable en la realizaci´n de o miles de regresiones. ello es muy sensato.05. es f´cil que su trabajo pase por ciencia. u (8. INFERENCIA SIMULTANEA. a cu´l m´s descabellada. al no lograrlo a —el R2 alto era casualidad—. Lo que es objetable es reportar dichas regresiones e como si fueran las unicas realizadas. todo lo que sus colegas o a podr´n hacer es reproducir sus resultados con la unica muestra a mano. el que tenemos es o de 0.2) α/2 mayor (en ocasiones mucho mayor ) que α. Tomemos por ejemplo el caso examinado en que p = 100 y supongamos α = 0.9940. o Fin del ejemplo El problema de inferencias distorsionadas es grave y muchas veces indetectable. n 3 . Lo que es inadmisible es dar un nivel de significaci´n incorrectamente calculado.116 ´ CAP´ ITULO 8. cabe esperar que otros investigadores tratar´n de replicarlo y. Lejos de tener un nivel de significaci´n de α = 0. quiz´ estimando un a modelo restringido con muestra adicional. quiz´ con car´cter exploratorio. Por puro azar. La probabilidad de obtener alg´ n t-ratio fuera de l´ u ımites es 1 − 0. la supercher´ quedar´ al descubierto.9940. en que con o frecuencia una y s´lo una muestra est´ disponible. por ejemplo. encuentra una pocas con R2 a a muy alto. Tampoco es objetable el a a concentrar la atenci´n en la unica (o las pocas) que parecen prometedoras.05. Si el experimento es reproducible. Es f´cil ver por qu´ es incorrecto. Si nuestro prop´sito fuera puramente exploratorio. Al o ´ rev´s.95100 = 0. escribe un art´ ıculo y lo publica. nada debe dio suadirnos de estimar el modelo con los cien regresores y examinar luego las variables asociadas a t-ratios mayores.9940. Pero la probabilidad de que alg´n t-ratio exceda de tN −p es3 u Prob(Alg´ n βi = 0) = 1 − (1 − α)p . hip´tesis que se veo o rifica por la normalidad de las perturbaciones y la ortogonalidad entre las columnas de la matriz de dise˜ o. Bajo H0 hay probabilidad tan s´lo a e o α/2 α de que un t-ratio prefijado exceda en valor absoluto de tN −p . Ciencias Sociales. dando la impresi´n de que la evidencia muestral sustenta o Bajo la hip´tesis de independencia entre los respectivos t-ratios. quiz´ a miles. Contrastar la hip´tesis H0 de este modo tiene una probao bilidad de falsa alarma de 0. A a ´ menos que el primer investigador tenga la decencia de se˜alar que el alto R2 n obtenido era el m´s alto entre miles de regresiones efectuadas (lo que permia tir´ calcular correctamente el nivel de significaci´n y apreciar de un modo ıa o realista su valor como evidencia). Pero ıa a si la investigaci´n versa sobre. el resultado de estimar un modelo prefi´ jado de antemano.

6). tendr´ e ıamos que la probabilidad de que todos los βi fueran cubiertos por sus respectivos intervalos. . 117 una hip´tesis o modelo pre-establecidos. Xp−1 a y quisi´ramos obtener intervalos de confianza simult´neos α para los par´e a a metros β0 . Por ejemplo. . .3) como desigualdad de Bonferroni de primer orden. (i = 1.05 = 0. cuando lo cierto es que la hip´tesis o o o modelo han sido escogidos a la vista de los resultados. . sino que tan s´lo podr´ ıa o ıamos afirmar que es mayor que 1 − kα.2. ser muy inferior a la de uno cualquiera de ellos. (i = 1.2. Ello se logra. ser´ claramente incorrecto emplear los que aparecen en ıa (9. todo cuanto podemos asegurar acerca de Prob{∩k Ei } es que su probabilidad es superior a 1 − kα.3).50. a .95 = 1 − 0. Desigualdad de Bonferroni. Designamos por E i el complementario del suceso Ei .3) Se conoce (9. Muestra que la probabilidad conjunta de varios sucesos puede. ser´ mayor. α/2 ˆ Ek : [(βk ± σ ˆ t ˆ ) βk N −p cubre β1 ] (8. Si regres´ramos Y sobre X0 . βp−1. Si actu´semos de este modo. . .4)–(9. En lo que sigue veremos procedimientos para lograr el mismo resultado con intervalos en general m´s estrechos. . . sin embargo.5) cubre βk ] (8. . . . al coste de ensanchar el intervalo de confianza correspondiente a cada βi quiz´ m´s de a a lo necesario. sin embargo. el nivel de confianza conjunto no a ser´ el deseado de 1 − α. que 1 − kψ = 1 − k( k ) = 1 − α. en general. · · · .05. Ei . 8. La probabilidad de que todos los sucesos Ei . si k = 10 y Prob{Ei } = 0. Haciendo ´sto. Si queremos intervalos de confianza simult´neos al nivel 1 − α.4) (8. de acuerdo con ıa α (9. .8. Consideremos k sucesos. i=1 Consideremos ahora el modelo Y = X β + ǫ y los siguientes sucesos: α/2 ˆ E1 : [(β1 ± σβ1 tN −p ) ˆˆ . podr´ a ıamos construir intervalos para cada uno de los par´metros con un nivel de confianza a α ψ = k . cada uno de ellos con probabilidad (1 − α). . k) acaezcan simult´a neamente es: Prob{∩k Ei } = 1 − Prob{∩k Ei } = 1 − Prob{∪k Ei } ≥ 1 − kα i=1 i=1 i=1 (8. Es una igualdad si los Ei son disjuntos. la desigualdad anterior solo permite garantizar que Prob{∩k Ei } ≥ 1 − 10 × 0. i=1 Las implicaciones son importantes. DESIGUALDAD DE BONFERRONI. k).6) Cada Ei por separado es un suceso cuya probabilidad es 1 − α. De acuerdo con (9. .3).

Entonces. e e . k) fueran independientes. Es importante se˜alar que. El comparar cada una de las o a α/2 ′ˆ (i = 1. la probabilidad conjunta en el lado izquierdo de (9. . tk con distribuci´n t-Student. a Prob{∩k [|ti | ≤ uα ]} = 1 − α.3.n. t1 .7) ˆ σ ˆ Es claro que ai ′ β/ˆai ′ β (i = 1. . .n resulta superado con probabilidad α por m´x{|t1 |. i=1 k. Supongamos que tenemos k variables aleatorias independientes. . .ρ pondiente. en caso de que no conozcamos ρ. . o ´sta no sea constante.7) con uα reemplazado por uα .2. La vao u u riable aleatoria m´x{|t1 |.7) es mayor que 1 − α). y la hip´tesis nula o ′ h : ai β = 0 (i = 1. En caso de que conozcamos ρ. . . tendr´ ıamos que: k Prob i=1 ˆ ai ′ β ≤ uα k. . . . k) no son independientes. k) fuera cierta. . 8. Intervalos de confianza basados en la m´a xima t. por ej. extra´ ´ste ultimo de la tabla corresıdo e ´ k. .) a A´n cuando la correlaci´n ρ por pares de t-ratios no sea siempre la misma. 77.118 ´ CAP´ ITULO 8. podemos e utilizar uα . Ap´ndice E.ρ=0 (9. acota simult´neaa a k. y f´cil de calcular. . podemos emplear la expresi´n o (9. si nuestro objetivo es contrastar una hip´tesis n o del tipo h : Aβ = c con rango(A) > 1. INFERENCIA SIMULTANEA.n dado que si uα acota con probabilidad 1 − α al m´ximo. y n´mero com´n n de grados de libertad. k) con una tN −p supone σ ˆ variables aleatorias (ai β − ci )/ˆai ′ β 4 V´ase. como el de ciertos dise˜os de n An´lisis de Varianza equilibrados: la correlaci´n ρ entre parejas de t-ratios a o es la misma. |tk |} sigue una distribuci´n que se halla tabua o lada4 . . la distribuci´n aludida del m´ximo valor absoluto de k variables t de Student o a est´ tambi´n tabulada cuando dichas variables tienen correlaci´n ρ por pares. tenemos que emplear un contraste como el descrito en la Secci´n 7. . ˆ σ ˆ Si ai ′ β/ˆai ′ β (i = 1. un valor que o k.7) es de utilidad. . . es decir. p´g. u o (9.n σai ′ β ˆ ˆ = 1−α (8.n k. . Sea uα el cuantil 1 − α de dicha distribuci´n. . a e o (Esto sucede en algunos casos particulares. Suministra intervalos simult´neos de confianza aproxia mada 1 − α. lo que hace en general los intervalos calculados con ayuda de k.7) conservadores (es decir. . . |tk |}. Sin embargo. . Seber (1977). . . . . .n..n mente con la misma probabilidad la totalidad de las variables aleatorias.

k) con uk. < u. v >2 u 2 v 2 ≤ 1 (8. Supongamos que tenemos k hip´tesis lineales a e e o .9) y (9.11) −1 (8.´ ´ 8.4. existe una matriz R cuadrada no singular tal que: L = RR′ .8) ´ Demostracion: Siendo L definida positiva.10) entonces sustituyendo (9. tal contraste tendr´ un nivel de significaci´n ıa o sensiblemente superior a α. y c. o 8. es o inadecuado contrastar la hip´tesis h : β1 = · · · = βp = 0 comparando cada o α/2 uno de los t-ratios con tN −p . podr´ e ıamos comparar α ′ˆ u o (ai β − ci )/ˆai ′ β (i = 1. Se verifica que: sup c=0 [c ′ b]2 c ′ Lc = b ′ L−1 b (8.11) obtenemos (9. . en especial si p es grande. En el caso de que el contraste conjunto rechace h : Aβ = c y queramos saber qu´ filas de A son culpables del rechazo.4.9) (8.10) en (9. M´todo S de Scheff´. e b vectores k-dimensionales cualesquiera. Podemos ahora abordar la construcci´n de intervalos de confianza simulo t´neos por el m´todo de Scheff´.n (k = n´mero de filas de A). de manera muy simple.1 Sea L una matriz sim´trica de orden k × k definida positiva. Como caso particular. 119 emplear un nivel de significaci´n mayor que α. . e e Este m´todo permite la construcci´n de un n´mero arbitrario de intervalos e o u de confianza simult´neos. . METODO S DE SCHEFFE. N´σ ˆ tese que es perfectamente posible rechazar la hip´tesis conjunta y no poder o rechazar ninguna de las hip´tesis parciales correspondientes a las filas de A. . Necesitaremos el siguiente a lema: Lema 8.8). Si definimos: v = R ′c u = R b y tenemos en cuenta que por la desigualdad de Schwarz.

14) c c σ α = Prob (ˆ − c )′ L−1 (ˆ − c ) ≤ qˆ 2 Fq. INFERENCIA SIMULTANEA. Teniendo en cuenta el Lema 9.15) en que L = [A(X ′ X)−1 A′ ]. . en que d = rango A y p = rango(X ′ X). ı ˆ Llamemos c a Aβ. . obtenemos:   2 1 − α = Prob  h =0 h        1 c  h ′ (ˆ − c ) 2 α 2 = Prob ≤ (qˆ Fq. . Las inversas pueden ser inversas generalizadas. Cuando h es cierta.N −p c c σ α (8. p). cuantos intervalos para h ′ c construyamos de la forma: h ′c ± ˆ (h ′ Lh )(qˆ 2 Fq.2) que: o ˆ ˆ (Aβ − c)′ [A(X ′ X)−1 A ′ ]−1 (Aβ − c) ∼ Fq.N −p ) σ α (8.N −p σ α   (8.N −p )  σ  1   2  h =0 h ′ Lh 1 sup [h (ˆ − c )] c ′ ′ Lh 2 ≤ qˆ 2 Fq.N −p (8.120 ´ CAP´ ITULO 8.13) siendo q = m´ ın(d.1.17) La ecuaci´n (9. o sabemos (Secci´n 7. si los rangos de las matrices as´ lo exigen.12) dichas k hip´tesis se pueden escribir como h : Aβ = c.17) muestra que (qˆ 2 Fq.18) h ′ Lh Por consiguiente. Bajo h. hi : ai ′ β = ci (i = 1.N −p) 2 es un valor que acota con o σ α probabilidad 1 − α un n´mero arbitrariamente grande de cocientes como: u h ′ (ˆ − c ) c (8. sabemos que: ˆ 1 − α = Prob (ˆ − c )′ [A(X ′ X)−1 A ′ ]−1 (ˆ − c ) ≤ qˆ 2 Fq. k) cuyo contraste conjunto deseamos efectuar.19) .N −p qˆ 2 σ (8. . Si denominamos:  a1 ′ a ′  A= 2  · · · ak ′   c1 c  c= 2 · · · ck  (8.16) (8.

F´cilmente se ve que el contraste de todas las hip´tesis de inter´s a o e agrupadas (h : Aβ = c ) no es de gran inter´s: no nos interesa sae ber si hay algunas variedades de semilla diferentes. R: Ejemplo 8.´ ´ 8. los par´metros βi ser´ a ıan interpretables como la productividad de las diferentes variedades de semilla (suponemos que no hay otros factores en juego.4. las parcelas son todas homog´neas).N −p) (8. 5) > X . por ejemplo.1 (uso del m´todo de Scheff´) e e El siguiente c´digo implementa el m´todo de Scheff´ para contraso e e tar la igualdad entre todas las parejas de par´metros intervinientes a en un modelo. ya que obtendremos intervalos menos amplios. . incluso para un n´ mero moderado de a e u variedades de semilla. La matriz de dise˜ o es una matriz de ceros y unos. sino cu´les son. rep(0. ck —. Obs´rvese que. los intervalos de e confianza en (9. a a Esto es m´s de lo que necesitamos —pues s´lo quer´ a o ıamos intervalos de confianza simult´neos para c1 . de lo estrica tamente necesario). . en general. 25)). en el caso particular en que A = Ip×p . Cuando el conjunto de hip´tesis o a a o simult´neas que se contrastan configure una matriz A de rango q < p. Xkl fuera “uno” cuando la k-´sima parcela se siembra e con la variedad l-´sima de semilla y la variable respuesta recogiera las e cosechas obtenidas en las diferentes parcelas. . .20) expresi´n que ser´ frecuente en la pr´ctica. n Si. 5). + 25. METODO S DE SCHEFFE.matrix(c(rep(1. El m´todo de Scheff´ proporciona a e e intervalos de confianza conservadores (m´s amplios. e a Comencemos por construir una matriz de dise˜ o y generar artifin cialmente las observaciones: > X <. ser´ a a sin embargo conveniente tener en cuenta este hecho. a F´cilmente se ve tambi´n que. Aquellas parejas para o las que no se rechazase corresponder´ a variedades de semilla no ıan significativamente diferentes. 121 tendr´n confianza simult´nea 1 − α. e En una situaci´n como la descrita tendr´ inter´s contrastar too ıa e das las hip´tesis del tipo: hij : βi − βj = 0. hay bastantes parejas que podemos formar y el realizar m´ ltiples contrastes como hij : βi − βj = 0 requerir´ el uso de u a m´todos de inferencia simult´nea.19) se reducen a: ˆ h ′β ± σ α (h ′ (X ′ X)−1 h )(pˆ 2 Fp.

4.] [3.] [11.3] [.3] [.] [9.] [3.2] [.] > q <.] [4.1)) A [.] [10.] [5.] [8.cbind(1. 4. [.] [6.c(3.nrow(A) .] [23.1) Construyamos la matriz definiendo la hip´tesis conjunta Aβ = c : o > > > > p <.1] [. INFERENCIA SIMULTANEA.] [18.] [22.nrow(X) A <.] [19.4] [.1] [.5] 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 [1.] [12. 5.] [7.] [25.] [24.5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 [1.] > b <. p . sd = 0.X %*% b + rnorm(25.] [2.] [14. 5) > y <.ncol(X) N <.4] [. diag(-1.] [13.122 ´ CAP´ ITULO 8.2] [.] [4.] [17.] [16.] [2.] [21.] [15.] [20.

] [3.3] [. habr´ un total de p(p−1) compaa 2 raciones a efectuar.cbind(1.] [5.] [4.] [8.4.] [9.matrix(0.20) y los imprime: .j + i } H [.] 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 5 -1 -1 -1 -1 123 que es equivalente a la A precedente. Construimos una matriz cada una de cuyas filas corresponde a una comparaci´n: o > > > + + + + > H <.2] [.] [7. hay funciones standard que permiten hacerlo con mayor comodidad.] [3.] [6.] [2.4] [.1):1)) { H[(j + 1):(j + i).i):p] <.factor(1:5))) > A [1. i)) j <.5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 0 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 0 1 -1 0 0 0 1 0 -1 0 0 0 1 -1 [1.] [10. METODO S DE SCHEFFE. (p . > A <.´ ´ 8. Aunque por motivos did´cticos hemos constru´ A del modo que a ıdo se ha visto.0 for (i in ((p .1] [.] El siguiente fragmento de c´digo construye ahora todos los intero valos de la forma dada por (9. Habiendo p betas a comparar. p * (p . p) j <. diag(-1.] [4.] [2.t(contrasts(as.1)/2.

035591 ) -1.0670 .0779 . comp. comp. d + z.96834 ) * -1.t(H[i.94141 ) * -1.0732 .q * s2 * qf(0. -0. 0.9515 ) * -0. como esper´bamos.solve(t(X) %*% X) for (i in 1:nrow(H)) { cat("Intervalo comp. " .95825 ) * -2. 0. -0.9622 ) * -0. Los correspondientes a β2 − β3 y β4 − β5 si lo hacen.05. ]) %*% xxi %*% H[i. intercept = FALSE) betas <.p) xxi <.sum(fit$residuals^2)/(N . -0.124 > > > > > > + + + + + + + + + + ´ CAP´ ITULO 8. 1 1 1 1 0 0 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 1 -1 0 0 1 0 -1 0 1 0 0 -1 0 1 -1 0 0 1 0 -1 0 0 1 -1 es: es: es: es: es: es: es: es: es: es: ( ( ( ( ( ( ( ( ( ( -1. -0.0886 . -1.0947 . ")") if ((d .9837 ) * -2.z. d . ya que en ambas parejas los par´metros han sido fijados a a al mismo valor. comp.0463 . comp. comp. q. fit <.98989 ) * -1. ".0631 .lsfit(X. H[i. -1.069268 .073979 ) Vemos que la mayor´ de intervalos de confianza simult´neos no cubren ıa a el cero. -0. Fin del ejemplo .z < 0) && (d + z > 0)) cat("\n") else cat(" * \n") } Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo comp. -0. ]) z <.p) qsf <.fit$coefficients s2 <. ".sqrt(t(H[i. comp. y. INFERENCIA SIMULTANEA.97305 ) * -1. N . comp. ]) %*% betas cat(" es: (". ] * qsf) d <.0564 . comp.030881 . comp.

Sec. en cambio. estemos interesados en m´ltiples contrastes (o intervalos de u confianza) y queramos que el nivel de significaci´n conjunto sea 1 − α. Esta situaci´n es muy frecuente en el an´lisis o a exploratorio. en general. y comparar a dicho t-ratio con una t de Student con grados de libertad adecuados. 5 y Cox and Hinkley (1974). 5 Puede consultarse tambi´n Troc´niz (1987a) Cap. Ser´ incorrecto. . Las notas siguientes esbozan o 5 algunas ideas sobre el particular .4. seleccionar aquel βi con el m´ximo t-ratio. el segundo ser´. caso de que se produzca. 125 8. en que situaciones es de aplicaci´n. pero tiene la ventaja o de arrojar luz sobre cuales de las “subhip´tesis” ai ′ β = ci son respono sables del rechazo.5. puede no ser obvio.2) y el que hace uso de (9. o Esta situaci´n se presenta con relativa rareza en la pr´ctica estad´ o a ıstica. emplearemos los m´todos anteriores cuando la elecci´n a e o de hip´tesis o par´metros objeto de contraste o estimaci´n se haga a o a o la vista de los resultados. Empleo de m´todos de inferencia simule t´nea. conviene resaltar la diferencia entre el contraste de varias ´ hip´tesis simult´neas ai ′ β = ci agrupadas en Aβ = c mediante Qh o a (Secci´n 7. M´s importante.7). Esta informaci´n queda o sumergida al emplear Qh . y por cualquier a motivo. conservador —menos rechazos de a los que sugiere el nivel de significaci´n nominal—. e o 7. Emplearemos inferencia simult´nea cuando a priori. estimar una ecuaci´n con ıa o ˆ veinte regresores. EMPLEO DE METODOS DE INFERENCIA SIMULTANEA. 20. a Si el desarrollo anterior es formalmente simple. e hemos de comparar ´ste con los cuantiles de la distribuci´n del m´ximo e o a de k (k = 20 en este caso) variables aleatorias con distribuci´n t de o Student (uα −20 ). por ejemplo.´ ´ 8.N Por ultimo.5. ˆ Dado que hemos seleccionado el βi de inter´s como el de mayor t-ratio. El primero es perfectamente o utilizable.

β200 = 0 o y comparar con F200. + β200 X200 + ǫ.0003”.500−201.126 ´ CAP´ ITULO 8.α . se plantea contrastar la a hip´tesis como H0 : β1 = . acono tecer´ por azar con probabilidad 0. Aparece un caso llamativo: en la escuela X con 650 ni˜ os hay tres n que han contraido la enfermedad. Complementos y ejercicios 8. lo que. = β200 y considera las siguientes posibio lidades: ˆ σ Comparar cada uno de los t-ratios βi /ˆ ˆ con el cuantil tN −p . . . e indica con cu´l (o cu´les) de a a ellos tendr´ ıamos garantizada una probabilidad de error de tipo I no superior al α prefijado. con grados de libertad apropiados. Un evento o como el registrado en la escuela X s´lo se presentar´ por azar con o ıa probabilidad 0. INFERENCIA SIMULTANEA. .α/2 . Y = β0 + β1 X1 + . Cree razonable proponer como modelo explicativo. ˆ ˆ Calcular el estad´ ıstico Qh para la hip´tesis H0 : β1 . . .1 Un investigador sospecha que la concentraci´n de una toxio na en la sangre puede estar relacionada con la ingesta de alg´ n tipo de u alimento.2 Preocupado por el posible impacto de las antenas de telefon´ m´vil sobre la salud de los ni˜ os. . Comenta. Tras estimar los 201 par´metros del mismo. .0003. . Realiza un completo estudio en que para N = 500 sujetos mide la concentraci´n de dicha toxina y las cantidades consumidas o de 200 diferentes tipos de alimento. βi Idem con el cuantil correspondiente de una distribuci´n del m´o a ximo de k variables t de Student. de acuerdo con los c´lculos a realizados por nuestro pol´ ıtico. Juzga los diferentes procedimientos. asistido por un epidemi´logo. Al d´ siguiente acude al ıa ıa Parlamento y pide la dimisi´n del Ministro de Sanidad: “Hay —dice– o evidencia concluyente de que las antenas de telefon´ m´vil influyen ıa o en la prevalencia de la leucemia entre la poblaci´n infantil. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia que se han registrado en dichas escuelas. 8. un pol´ ıa o n ıtico solicita un listado completo de las 15320 escuelas del pa´ a menos de 500 metros de una ıs antena. .

pero no hay una unica estimaci´n de β . la proyecci´n de y sobre M = n o R(X) sigue siendo unica. ¿Como escoger la matriz de dise˜o X —u observaciones adicionales a la n misma— si el objetivo es estimar determinadas combinaciones lineales c ′ β con varianza m´ ınima? Responder a la primera requiere que caractericemos las formas lineales estimables. ¿De qu´ a o e depende la precisi´n con que pueden estimarse distintas combinaciones o lineales de los par´metros? a 3. o Hemos visto (Cap´ ıtulo 4) que. 9. a 1 Este Cap´ ıtulo analiza esta cuesti´n con mayor detalle. la primera cuesti´n incluye. ¿cu´l es la varianza de la estimaci´n?. Dec´ ´ ´ o ıamos entonces que el vector de par´metros no estaba identificado. N´tese que cuando c es un vector de ceros con un 1 en una o unica posici´n. o aborda las siguientes cuestiones: 1. a 1 Basado en Silvey (1969). ¿Es estimable una cierta combinaci´n lineal c ′ β de los par´metros? o a 2. en presencia de multicolinealidad exacta entre las columnas de la matriz de dise˜o X. Si c ′ β es estimable. En particular. 127 . la de si un ´ o o par´metro concreto es estimable.1.Cap´ ıtulo 9 Multicolinealidad. Introducci´n. como caso particular.

Puede comprobarse que ˆ ˆ PM y = β0 X0 + β1 X1 (9. o si podemos hacerlo. todo es estimable.3 1.1 recoge sendas situaciones de multicolinealidad exacta (en el panel superior) y multicolinealidad aproximada (en el inferior). son las de estimaci´n n o m´s imprecisa.1) Puede comprobarse que X0 = 0. Una aproximaci´n intuitiva o La Figura 10.95 X1 = 1. Conıa secuentemente. si c ′ β es una forma lineal de inter´s. Admitido que algunas formas lineales quiz´ s´lo pueden ser estimadas o a o con gran varianza ¿c´mo habr´ que escoger o ampliar X en los casos en que o ıa somos libres de ampliar la muestra? El principal hallazgo al responder a las dos primeras cuestiones ser´ que a combinaciones lineales c ′ β con c aproximadamente colineal a un vector propio de (X ′ X) de valor propio asociado “peque˜o”.128 CAP´ ITULO 9. o a Mientras que desde un punto de vista formal la matriz de dise˜o es de rango n deficiente o no lo es. pero algunas formas a a lineales c ′ β lo son con gran imprecisi´n: la varianza de su mejor estimador o lineal insesgado depende de la direcci´n del vector c en R(X ′ X).9 X0 = 2. en n un sentido que se aclarar´ m´s abajo.5 × X1 . no n ′ haya vectores propios de (X X) con valor propio peque˜o aproximadamente n en la misma direcci´n de c .3). Recurriremos para ello a ampliar la muestra. o La tercera cuesti´n hace referencia a un tema de gran inter´s.475 (9. Realizaremos un an´lisis formal de la multicolinealidad en las Seccioa nes 10.4 y siguientes.2) y examinar los s´ o ıntomas que evidencian problemas de multicolinealidad en una matriz de dise˜o (Secn ci´n 10. los estimadores MCO de los par´metros β0 y β1 no est´n a a un´ ıvocamente determinados. o a procedimientos ad-hoc de manipulaci´n de dichos o valores propios peque˜os para obtener estimadores diferentes del MCO. en la pr´ctica interesa distinguir aqu´llas situaciones en a e que la matriz de dise˜o es de rango “casi” deficiente. Cuando esto ocurra.65 0. En el panel superior. PM y = 5.325 0. por lo que la matriz de dise˜o n que tuviera a ambos vectores por columnas ser´ de rango deficiente. La segunda cuesti´n introducir´ la idea de multicolinealidad aproximada.2. o 9. La consecuencia ser´ que haremos lo posible en nuestros dia a e se˜os experimentales para que. Previamente ser´ de inter´s abordar la cuesti´n desde a e o una perspectiva informal (en la Secci´n 10.2) . Esta n cuesti´n se estudia en el Cap´ o ıtulo 11. MULTICOLINEALIDAD. el de dise˜o o e n ´ptimo.

y X0 X1 PM y y X0 X1 PM y .1: Multicolinealidad exacta (panel superior) y aproximada (panel inferior).´ 9. UNA APROXIMACION INTUITIVA 129 Figura 9.2.

2). a o Tenemos as´ que si en situaciones de multicolinealidad exacta los par´ı a metros (o algunos de entre ellos) son radicalmente inestimables. Un leve cambio en la posici´n de PM y hace que sea mucho m´s colineal con un regresor que con o a ˆ ˆ otro.263X0 + 1. 0. 9.9544X0 + 1. .3 1. que no permite deslindar con precisi´n el efecto de cada regresor sobre o la variable respuesta.4) tendr´ ıamos que la soluci´n unica ser´ PM y = 1. y provoca una dr´stica modificaci´n en los valores de β0 y β1 . β1 verificando β0 + 2β1 = 2 son una soluci´n de (10. en esencia. pero tienen una colinealidad acusada.75 X1 = 1. pero imprecisa. PM y = 5. o La multicolinealidad aproximada es. a medio o a camino entre la multicolinealidad exacta y la ortogonalidad entre los regresores.1.525 .675 (9. PM y fuera ligeramente diferente.8 X0 = 2.3) puede comprobarse que ahora PM y = 0. De hecho.1. Es una situaci´n muy frecuente en la pr´ctica. o ˆ ˆ ˆ ˆ cualesquiera β0 . ˆ ˆ ˆ ˆ se verifica con β0 = 2 y β1 = 0 ´ con β0 = 0 y β1 = 4.7544X1 . Decimos que o estamos ante una situaci´n de multicolinealidad aproximada.75 0.75 X1 = 1.675 (9. podemos entender f´cila mente lo que sucede: los regresores son linealmente independientes y generan el plano horizontal. Si examinamos el panel inferior de la Figura 10. con los mismos regresores.130 CAP´ ITULO 9. MULTICOLINEALIDAD. Si. o En el panel inferior de la Figura 10. La Secci´n que sigue detalla algunos s´ o ıntomas que permiten percibir su existencia. la estimaci´n es posible. una matriz de dise˜o pon bre.2632X1 . Detecci´n de la multicolinealidad aproo ximada Hay algunos indicios y estad´ ısticos que pueden ayudar en el diagn´stico o de multicolinealidad. PM y = 5. Una o ´ ıa peque˜a perturbaci´n en PM y ha originado un cambio dr´stico en los valores n o a de los estimadores.9 X0 = 2.4 1.525 0. por ejemplo. pero algunas de sus columnas son acusadamente colineales.3.75 0. cuando el rango de la matrix X es completo. no obstante.

un R2 muy elevado en una o m´s de dichas regresiones evidencia una relaci´n lineal aproximaa o da entre la variable tomada como regresando y las tomadas como regresores. La multicolia nealidad aproximada se pone de manifiesto en elevadas varianzas de los par´a metros estimados que. definiu o do como λ1 /λp . Otra pr´ctica muy usual a consiste en regresar cada columna de X sobre las restantes.1 El nombre de “factores de incremento de vao rianza” tiene la siguiente motivaci´n. a e o puede recurrirse a calcular los valores propios de la matriz (X ′ X). Supongamos que X tiene sus o . como consecuencia. en particular. Hay que notar.90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las restantes columnas de X. son de ordinario no significativos y frecuentemente toman signos contrarios a los previstos. depende de la escala en que se miden las respectivas columnas de la matriz X —algo perfectamente arbitrario—. Los m´todos usuales para examinar el condicionamiento de a e una matriz en an´lisis num´rico son por tanto de aplicaci´n. Factores de incremento de varianza (VIF).´ 9. en que todos e o los par´metros en β son no significativos y sin embargo R2 es muy elevado. DETECCION DE LA MULTICOLINEALIDAD APROXIMADA 131 Elevado R2 y todos los par´metros no significativos. que se trata de un indicador relativo. a ¡Parece que ning´n regresor ayuda a ajustar el regresando. y sin embargo u todos en conjunto lo hacen muy bien! Ello se debe a que la multicolinealidad no permite deslindar la contribuci´n de cada regresor. Observaci´n 9. La existencia u o de relaciones lineales aproximadas entre las columnas de X se traduce en relaciones lineales aproximadas entre las columnas de (X ′ X) (ver nota al pie de la p´gina 127). sin embargo. (9. que. Una situaci´n t´ o ıpica es aqu´lla. en caso de multicolinealidad perfecta) n son indicativos de multicolinealidad aproximada. n´meros de condici´n “grandes” evidencian gran disparidad u o entre el mayor y menor valor propio. A menudo se calcula el “n´mero de condici´n” de la matriz (X ′ X). En particular. uno o mas valores propios muy peque˜os (cero. Se define el factor de incremento de varianza (variance inflation factor) VIF(i) as´ ı: 1 def VIF(i) = . Llamemos R2 (i) al R2 resultante de regresar X i sobre las restantes columnas de X.5) 1 − R2 (i) valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0.3. o Valores propios y “n´mero de condici´n” de (X ′ X). y consiguientemente multicolinealidad aproximada. aparentemente parad´jica.

1.4.6) (9. .7) (9. a p´g. Se puede demostrar que (X ′ X)ii = (1 − R2 (i))−1 . basta comprobar que toda dependencia o lineal entre las columnas de X ′ X es una dependencia lineal entre las columnas de X. siendo d = Xa. pues si v ∈ R(X ′ X) ⇒ ∃a : v = X ′ Xa = X ′ d.11) (9. y solo si. El paso de (10.132 CAP´ ITULO 9.10) a (10. por tanto. Si X tuviera sus columnas ortogonales. columnas normalizadas de modo que (X ′ X) es una matriz de correlaˆ ci´n (elementos diagonales unitarios). 47.1 La forma lineal c ′ β es estimable si. X ′ X b = 0 ⇒ b′ X ′ X b = d′ d = 0 ⇒ d = 0 ⇒ X b = 0.9) (9. establece la demostraci´n. (X ′ X) (y por tanto (X ′ X)−1 ) ˆ ser´ matrices unidad y Var(βi ) = σ 2 . 9.10) (9. pues ambos tienen la misma dimensi´n. . En efecto. que puede recorrerse en ambas a direcciones. Teorema 9.11) hace uso del hecho de que tanto las columnas de X ′ como las de X ′ X generan el mismo subespacio2 de Rp . . Para verlo. La siguiente cadena de implicaciones.12) siendo v1 . . 2 . La Es inmediato ver que R(X ′ X) ⊆ R(X ′ ). lo que muestra que se trata precisamente del VIF(i).8) (9. MULTICOLINEALIDAD. o c ′ β estimable ⇐⇒ ∃d : c ′ β = E[d ′ Y ] ⇐⇒ c ′ β = d ′ X β ⇐⇒ c = d X ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ c=Xd c ∈ R(X ′ ) c ∈ R(X ′ X) c = α1 v1 + · · · + αp−j vp−j ′ ′ ′ (9. Caracterizaci´n de formas lineales estio mables. ´ Demostracion: Observemos que el enunciado no es sino una par´frasis del Teorema 4. c es una combinaci´n lineal de los vectores propios de X ′ X asociados a valores propios no o nulos. (X ′ X)ii recoge el ıan ˆ factor en que se modifica en general Var(βi ) respecto de la situaci´n o de m´ ınima multicolinealidad (= regresores ortogonales). vp−j los vectores propios de (X ′ X) asociados a valores propios no nulos. La varianza de βi es σ 2 (X ′ X)ii . R(X ′ X) no es subespacio propio de R(X ′ ). Por otra parte. o ′ ii denota el elemento en la fila y columna i de la matriz en que (X X) (X ′ X)−1 .

... Por consiguiente. .. que β = V γ . . Sin p´rdida de generalidad los supondremos ordenados de forma que e los p − j primeros λ′ s son no nulos. .. . . .  0 0  0 0 .. Las ecuaciones normales al estimar γ son: (Z ′ Z)ˆ = Λˆ = Z ′ y γ γ o en forma desarrollada:  λ1 0  0 λ2 . .16) siendo Λ una matriz cuya diagonal principal contiene los valores propios de X ′ X.. λp−j . . 0 0 (9. Hay una forma alternativa de llegar al resultado anterior. . El cambio de variables y par´metros ha convertido la matriz de dise˜o en a n una matriz de columnas ortogonales: Z ′ Z = (XV )′ (XV ) = V ′ X ′ XV = Λ (9. 0 (9. . . y los restantes j son cero: λp = λp−1 = · · · = λp−j+1 = 0. que resulta interesante en s´ misma y util para lo que sigue. y definamos: Z = XV γ = V β ′ (9. . pues el conocimiento de un vector permite con facilidad recuperar el otro.11) y (10. . ..12) hace uso del hecho de que los vectores propios de R(X ′ X) asociados a valores propios no nulos generan R(X ′ X). .. . .14) se deduce.. dado que V es ortogonal. 133 equivalencia entre (10. 0 .14) Entonces. . .´ 9. ..  . . .. .13) (9. . es equivalente el problema de estimar β al de estimar γ . . CARACTERIZACION DE FORMAS LINEALES ESTIMABLES.15) y por consiguiente el modelo Y = X β + ǫ se transforma en: Y = Zγ + ǫ . 0 γ = Z ′ y ˆ  . . 0  . como V V ′ = I tenemos que: X β = XV V ′ β = Zγ (9.4.18) . .. . 0 0 . . Sea V la matriz diagonalizadora ı ´ de X ′ X. .  .17) . . . .. 0 . .. Observemos que de (10. 0 . . 0 .

20) (9. podemos sin embargo ıa o esperar que formas lineales que son estrictamente estimables lo sean muy imprecisamente.18) es indeterminado.18). no depende de vectores propios de (X ′ X) asociados a valores propios nulos. c debe poder escribirse como combinaci´n lineal de los vectores propios de (X ′ X) que no figuran en (10. solo los (p − j) primeros γ ′ s pueden ˆ obtenerse de ´l.22) (9. mostrando que si c depende de vectores o propios de valor propio cercano a cero. Por o a ˆ ′ ˆ tanto.21) (9. la forma lineal c ′ β ser´ estimable a s´lo con gran varianza.19) ˆ y consiguientemente una estimaci´n de c ′ β vendr´ dada por (V ′ c )′ γ . Tenemos que: c ′ β = c ′ V V ′ β = (c ′ V )γ = (V ′ c )′ γ (9. Toda forma estimable debe por tanto ser expresable as´ ı: c ′ β = (α1 v1 + · · · + αp−j vp−j )′ β .2. (i = 1. en el caso de rango (p − j) corresponˆ diente a las ecuaciones normales (10.23): c = α1 v1 +· · ·+αp−j vp−j . . es decir. Tal como suger´ la Secci´n 10. .20)–(10. o si c ′ β depende s´lo de aquellos a ˆ o γ ′ s que pueden ser estimados. resultado al que hab´ ıamos llegado. La Secci´n o que sigue formaliza esta intuici´n. o (9. Es decir. . .24) . Consideremos una forma lineal cualquiera c ′ β .134 CAP´ ITULO 9. . c ′ β podr´ estimarse si (V ′ c)′ tiene a nulas sus ultimas j coordenadas. Recapitulemos: una forma lineal c ′ β es estimable si c = α1 v1 + · · · + αp−j vp−j . en situaciones de multicolinealidad aproximada. Obs´rvese adem´s que de (10. c β ser´ estimable si γ es estimable.18 ) se deduce que var(ˆi ) e e a γ ∝ 1/λi . c ⊥ vp−j+1 (9.23) o Para que c ′ β sea estimable. . lo que a su vez implica: ´ c ⊥ vp c ⊥ vp−1 . El sistema (10. MULTICOLINEALIDAD. p − j).

26) y (10.24).25) se deduce que: ˆ var(vi ′ β) = Adem´s. Varianza en la estimaci´n de una forma o lineal. . tenemos: ˆ vi ′ (X ′ X)β = vi ′ X ′ Y ˆ λi vi ′ β = vi ′ X ′ Y y tomando varianzas a ambos lados: ˆ λ2 var(vi ′ β) = i = = = De la igualdad (10. . para cualquier i = j se tiene: a ˆ ˆ cov(vi ′ β.26) var(vi ′ X ′ Y ) vi ′ X ′ σ 2 IXvi vi ′ X ′ Xvi σ 2 λi σ 2 (9. ˆ Si premultiplicamos ambos lados de las ecuaciones normales (X ′ X)β = ′ X Y por vi .28) . y haciendo uso de (10. 135 9. p − j).5.25) (9.27) La varianza de cualquier forma estimable c ′ β . .5. ser´: a ˆ ˆ var(c ′ β) = var[(α1 v1 + · · · + αp−j vp−j )′ β] ˆ ˆ = α2 var(v1 ′ β) + · · · + α2 var(vp−j ′ β) 1 p−j 2 = α1 = σ2 σ σ2 2 + · · · + αp−j λ1 λp−j 2 2 αp−j α1 +···+ λ1 λp−j 2 (9. (i = 1. . VARIANZA EN LA ESTIMACION DE UNA FORMA LINEAL.´ 9. vj ′ β) = vi ′ Σβ vj ˆ = = = = vi ′ (X ′ X)−1 vj σ 2 vi ′ λj −1 vj σ 2 σ 2 λj −1 vi ′ vj 0 σ2 λi (9. teniendo en cuenta que puede escribirse como en (10.27).

los correspondientes sumandos tender´n a dominar la expresi´n (10. Los m´todos de regresi´n sesgada del Cap´ e e o ıtulo 11 hacen expl´ ıcita esta idea. a o a Supongamos que tenemos un conjunto de N observaciones (y | X). La expresi´n (10. con varianza: a ˆ ˆ var(c ′ β) = var[(α1 v1 + · · · + αp−j vp−j )′ β] ˆ ˆ = α2 var(v1 ′ β) + · · · + α2 var(vp ′ β) 1 p 2 = α1 2 σ 2 σ + · · · + αp λ1 λp 2 2 αp α1 +···+ λ1 λp 2 (9.28). 4 Los resultados se pueden generalizar al caso en que (X ′ X) es de rango deficiente. la varianza en la estimaci´n de una forma lineal c ′ β depeno de. para guareo cernos de varianzas muy grandes en la estimaci´n de algunas formas lineales. Emplearemos los sub´ a ındices N + 1 y N para designar estimaciones respectivamente con y sin esta observaci´n o O suprimi´ndolos. Hemos razonado en esta Secci´n y la precedente en el caso de que j valores o propios de X ′ X son exactamente cero. incremena n 3 t´ndolos . o Supondremos tambi´n en lo que sigue (X ′ X) de rango completo. o 3 . Si c = α1 v1 + · · · + αp−j vp−j y los α′ s multiplicando a vectores propios con reducido valor propio son sustanciales.29) = σ2 (9. y nos planteamos ampliar X con una fila adicional xN +1 ′ (e y con el correspondiente valor observado de Y ) de modo que se reduzca al m´ximo la varianza en la a ′ estimaci´n de una determinada forma lineal c β en que estamos interesados. de cu´n colineal es c con vectores propios de reducido a valor propio. examinamos esta cuesti´n con m´s detalle.28) es reveladora. fundamentalmente.30) 9. la varianza en la estimaci´n de c ′ β deo o 2 pender´ de la varianza de la perturbaci´n σ y de la direcci´n de c. a o En definitiva.136 CAP´ ITULO 9. o debemos actuar sobre los valores propios m´s peque˜os de (X ′ X).28) y comentario posterior muestran que. o o La expresi´n (10. En lo que sigue.6. aunque e quiz´ con acusada multicolinealidad4 . c ′ β no es estimable. Si c no a o o puede expresarse como combinaci´n lineal de los vectores propios con valor o propio no nulo. MULTICOLINEALIDAD. y s´lo mediante la nueva fila xN +1 ′ se hace c ′ β estimable. Elecci´n ´ptima de observaciones. todas las formas lineales ser´n estimables. Es claro que si todos los valores propios son mayores que cero.

31) (9.42) 1+ i Obs´rvese que el problema de maximizar (10.39) Pero (v´ase Teorema A.´ ´ 9. Denominemos: a = V ′c z = V ′ xN +1 D = V ′ (X ′ X)V Entonces.40) en (10.37) (9.38) = σ 2 c ′ V V ′ [(X ′ X)−1 − (X ′ X + xN +1 xN +1 ′ )−1 ]V V ′ c = σ 2 a ′ [D −1 − V ′ (X ′ X + xN +1 xN +1 ′ )−1 V ]a = σ 2 a ′ [D −1 − (V ′ (X ′ X + xN +1 xN +1 ′ )V )−1 ]a = σ 2 a ′ [D −1 − (D + z z ′ )−1 ]a (9.35) carece de sentido si no e imponemos restricciones.42) es mon´tona o o . Tenemos entonces que: ΣβN = σ 2 (X ′ X)−1 ˆ ΣβN+1 = σ 2 (X ′ X + xN +1 xN +1 ′ )−1 ˆ 2 σc ′ β ˆ N 137 (9. (10.36) (9.2.41) = σ2 i ai zi λi 2 zi λi (9. Sea V la matriz o que diagonaliza a (X ′ X). p´g.33) (9.35) puede transformarse as´ ı: 2 2 σc ′ β − σc ′ β ˆ ˆ N N+1 (9.34) = σ 2 c ′ (X ′ X)−1 c 2 σc ′ βN+1 = σ 2 c ′ (X ′ X + xN +1 xN +1 ′ )−1 c ˆ Entonces.39): 2 2 σc ′ βN − σc ′ βN+1 = σ 2 a ′ ˆ ˆ D −1 z z ′ D −1 1 + z ′ D −1 z (9. adicional. 230): e a (D + z z ′ )−1 = D −1 − Sustituyendo (10.6.35) y el problema es encontrar xN +1 maximizando esta expresi´n. ELECCION OPTIMA DE OBSERVACIONES.40) D −1 z z ′ D −1 a 1 + z ′ D −1 z 2 (9. 2 2 σc ′ β − σc ′ β ˆ ˆ N N+1 = σ 2 c ′ [(X ′ X)−1 − (X ′ X + xN +1 xN +1 ′ )−1 ]c (9.32) (9. pues la expresi´n equivalente (10.

138 CAP´ ITULO 9. . . Formando entonces el lagrangiano. p) (i = 1. a puede despejarse: A2 2 σ K 2B2 y por consiguiente de (10. . . en tanto s´lo una parte del denominador lo hace. . (i = 1. p) (9. creciente al multiplicar z por una constante k mayor que la unidad5 . . . obtenemos p igualdades de la forma: ai zi λi ai 1 + λi 1+ i 2 zi λi 2 zi λi 2 − i 2 σ2 i i ai zi λi zi λi − µzi = 0 (9.46) B = 1+ i las p igualdades anteriores toman la forma: ai A zi A2 µzi − − 2 =0 (9.50) 1 1 + 2 λi K = B ai A λi Observemos que al multiplicar z por k el numerador queda multiplicado por k 2 . Es pues claro que el numerador crece m´s o a que el denominador. ´ 2 Φ(z ) = σ 2 i ai zi λi 2 zi i −µ i 2 zi − K 2 (9. . y el cociente en consecuencia aumenta.48) (i = 1.47) λi B λi B 2 σ Multiplicando por zi cada una de las anteriores igualdades y sum´ndolas. p). . MULTICOLINEALIDAD. .49) (9. . Necesi2 tamos una restricci´n del tipo z ′ z = i zi = K 2 para obtener una soluci´n o o unica.45) (9. .43) 1+ λi y derivando respecto a zi .44) Denominando: A = i ai zi λi 2 zi λi (9.47) se obtiene: µ= ai A zi A2 A2 − − 2 2 zi = 0 λi B λi B 2 K B zi 5 (9. .

6. Cabe hacer dos comentarios sobre esta ultima afirmaci´n. podemos determinar la direcci´n de z .53) incrementar el m´dulo de xN +1 equivale a incrementar |mi |.51) para i = 1.42) hace evidente que una norma tan grande como sea posible es lo deseable. y haciendo o |mi | ≫ ǫi podemos reducir en t´rminos relativos el peso de ǫi en yi . hay un l´ a ımite al valor de |mi |. la fila a a˜adir a X para mejorar al m´ximo la estimaci´n de c ′ β n a o ser´: a xN +1 = (por (10. El examen de (10. . . si el moo delo intenta ajustar una constante biol´gica como funci´n lineal de ciertos o o tipos de nutrientes. En definitiva. . Si σ 2 es fija. . p. es claro que siempre preferiremos filas de o ı m´dulo muy grande.52) Por tanto.p−1 + ǫi (9.36)) = = = Vz V (I + K −2 D)−1 a V (I + K −2 D)−1 V ′ V a V (I + K −2 D)−1 V ′ c [V (I + K −2 D)V ′ ]−1 c [I + K −2 (X ′ X)]−1 c Recordemos que hemos obtenido una soluci´n unica para z (y en cono ´ secuencia xN +1 ) s´lo mediante la imposici´n de una restricci´n de escala o o o 2 2 o i zi = K . pues si: o Yi = mi + ǫi = β0 + · · · + βp−1 xi. e En la pr´ctica. Las anteriores p igualdades pueden expresarse en notaci´n o matricial as´ ı: z ∝ (I + K −2 D)−1 a (9. El primero. hay un l´ ımite pr´ctico a los valores que pueden tomar los a regresores: el impuesto por las cantidades que los sujetos bajo estudio pueden ingerir. Por ejemplo. cuyo crecimiento desaforado podr´ llevarnos a regiones en las que las Yi dejan de ser ıa una funci´n aproximadamente lineal de los regresores. pero no su norma. que ´ o es l´gico que as´ sea. ELECCION OPTIMA DE OBSERVACIONES.52)) ∝ = (por (10. o sea: zi ∝ ai λi 1 + 1 λi K2 = ai λ 1 + Ki 2 139 (9. sin embargo. el desarrollo anterior suministra la direcci´n en que debe o tomarse una observaci´n adicional para mejorar al m´ximo la varianza en o a .´ ´ 9. Es decir.

o e ´ una estrategia sensata consistir´ en tomar observaciones de forma que se ıa incrementasen los menores valores propios de la matriz (X ′ X). 6 V´ase Silvey (1980). la estimaci´n de c ′ β . e ıa n o . MULTICOLINEALIDAD. e Este criterio se conoce como de D-optimalidad6. Podr´ ıamos tambi´n aceptar como criterio el de maximizar el determinante de (X ′ X). Tomaremos xN +1 tan grande como sea posible en o dicha direcci´n.140 CAP´ ITULO 9. Si no tuvi´ramos una forma estimable unica como objetivo. una monograf´ que trata el tema de dise˜ o ´ptimo.

p´g.1). 21). tendr´ un ECM menor. o 10. o De acuerdo con el teorema de Gauss-Markov (Teorema 3. ıa producido por una disminuci´n en la varianza capaz de compensar el segundo o sumando en (11.Cap´ ıtulo 10 Regresi´n sesgada. a Si consideramos adecuado como criterio en la elecci´n de un estimador c o ˆ def su error cuadr´tico medio. Cualesquiera otros que consideremos.1) podemos plantearnos la siguiente pregunta: ¿Es posible reducir el ECM en la estimaci´n tolerando un sesgo? Si la respuesta fuera afirmativa. a los estimadores m´ ınimo cuadr´ticos ordinarios (MCO) son los de varianza a m´ ınima en la clase de los estimadores lineales insesgados. si son lineales y de varianza menor. habr´n de ser sesgados. podr´ o ıamos preferir el estimador resultante que. ECM = E[ˆ − c]2 . aunque sesgado.1. y reparamos en que: a c E[ˆ − c]2 = E [ˆ − E[ˆ] + E[ˆ] − c]2 c c c c 2 = E [ˆ − E[ˆ]] + E [E[ˆ] − c]2 + 2 E [ˆ − E[ˆ]] [E[ˆ] − c] c c c c c c =0 = var(ˆ) + (sesgo c) c ˆ 2 (10. Introducci´n.2. a 141 . Analizaremos ahora a las implicaciones del an´lisis realizado. El Cap´ ıtulo 10 pon´ de manifiesto que vectores propios de (X ′ X) con ıa valor propio asociado nulo o muy peque˜o eran responsables de la inestimabin lidad (en el caso extremo de valores propios exactamente cero) o estimaci´n o ′ muy imprecisa de formas lineales c β en los par´metros.

a a es util ver sobre un ejemplo simple las ideas que explotan. que no requieren la toma de observaciones adicionales (ridge regression). p´g. Incrementarlos mediante observaciones adicionales. Denominaciones alternativas son regresi´n o o regularizada o m´todos de estimaci´n por encogimiento (“shrinkage e o estimators”).2) 2 . Existe incluso un resultado (Teorema 11. REGRESION SESGADA. seg´n se indic´ en u o la Secci´n 10. Si se utilizan.1 Consideremos la siguiente situaci´n. es mucho mayor que σ1 Es claro que 1 µ = (X1 + X2 ) ˆ (10.1 De ah´ la denominaci´n colectiva de m´too ı o e dos de regresi´n sesgada. los procedimientos que dise˜emos habr´n perdido la condici´n de n a o insesgados. simplemente. De acuerdo con los comentarios anteriores. Prescindir. 136. X2 . caben varias soluciones: 1. la reducci´n de varianza que se obtiene compensa la o introducci´n de sesgo. Tenemos dos o 2 2 poblaciones con media com´ n µ y varianzas respectivas σ1 . Si los valores propios peque˜os son causantes de elevada varianza en las n estimaciones. Una aproximaci´n intuitiva. est´ ultima abarcando un conjunto de estimadores mua´ cho m´s amplio que el considerado aqu´ a ı. a 10. Sabemos adem´s que σ2 o e a 2. σ2 .2. su aplicaci´n pr´ctica est´ limitada por el hecho de o a a que no es inmediato saber cu´l precisamente es este estimador. p´g. Nuesu tro objetivo es estimar µ.1. o ıces Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para reducir la varianza de los estimadores.6. es con la fundada creencia de que. 3. ´ Ejemplo 10. o a 2. Incrementarlos mediante procedimientos “ad-hoc”. de ellos (regresi´n en componentes principales o y regresi´n en ra´ latentes). Sean ´stas X1 . Observaci´n 10. 147) o a que demuestra la existencia de un estimador sesgado que domina (en t´rmie nos de ECM) al MCO.142 ´ CAP´ ITULO 10. o Antes de introducir los estimadores sesgados m´s utilizados en la pr´ctica. para lo que contamos con dos observaciones. en presencia de multicolinealidad acusada. 2 una de cada poblaci´n.

Fin del ejemplo El ejemplo anterior pretende ilustrar dos principios.3). pero esta condici´n es o . y en general puede ser sumamente 2 2 ineficiente. De (11. debemos ponderar las dos observaciones o dando m´s peso a la m´s fiable. no obtendr´ ıamos µ. El estimador insesgado de varianza m´ ınima es por tanto: 1 99 X1 + X2 . mientras que µ∗ = X .2. ser´ tambi´n insesgado con Var(µ ıa e La conclusi´n a la que llegamos es que es mejor prescindir de la o observaci´n X2 —dando muy imprecisa informaci´n acerca del valor o o de µ— que utilizarla en pie de igualdad con X1 . prescind´ directamente de X2 . que σ1 = 1 y σ2 = 99. UNA APROXIMACION INTUITIVA. 2 2 es un estimador insesgado de µ. F´cilmente se comprueba que se traa ta de un m´ ınimo. Su varianza ser´ Var(ˆ ) = σ1 /4+σ2 /4. ejemplo. Imaginemos. Si examinamos el ejemplo con m´s cuidado. La segunda conclusi´n a que llegamos a a o es que cuando tengamos observaciones con grado de precisi´n muy o variable. µ∗∗ . como requiere la condici´n de insesgadez). o Podemos a continuaci´n plantearnos cu´les son δ1 y δ2 = 1 − δ1 o a o ´ptimos. µ∗∗ = ˆ 100 100 El resultado parece l´gico. por mantener el ejemplo simple. a µ ¿Es de m´ ınima varianza? No. que se resumen en uno: es mejor prescindir de informaci´n imprecisa que hacerle demasiado o caso. se serv´ de dicha observaci´n pero haci´ndole poco caso. entonces.´ 10. convendr´ ponderarlas de forma inversamente proporcional a a sus respectivas varianzas. por ejemplo. El primer estimador construido. µ∗ . por ˆ Var(ˆ ) = (σ1 µ 1 2 ˆ∗ ) = 1. 2 + σ 2 )/4 = (1 + 99)/4 = 25.3) deducimos que 2 2 2 2 Var(ˆ∗∗ ) = δ1 σ1 + δ2 σ2 µ 2 = δ1 · 1 + (1 − δ1 )2 · 99 2 = 99 − 198δ1 + 100δ1 Derivando respecto a δ1 e igualando a cero obtenemos δ1 = 99/100 y consecuentemente δ2 = 1/100. el ˆ ıa segundo. se nos hace evidente a que podemos hacerlo mejor: si nos limitamos a estimadores lineales —por simplicidad— cualquier estimador insesgado ser´ de la forma a ∗∗ µˆ = δ1 X1 + δ2 X2 143 con δ1 + δ2 = 1 (pues de otro modo al tomar valor medio en (11. ˆ ıa o e Se ha razonado sobre estimadores a los que hemos impuesto la condici´n o de ser insesgados.

el estimador ridge de la Secci´n 11.1. . podemos tener inter´s en prescindir de algunas de estas “observae ′ˆ ciones” v i β. . 10. . p´g.144 ´ CAP´ ITULO 10.5. v ′p β. 135. .3.3 aten´a las v ′i β m´s inestables. de c β ) en un modelo lineal? Recordemos la discusi´n en la Secci´n 10.26). definiremos como ECM del a estimador MCO: ′ ˆ ˆ ˆ ECM(β) = E[(β − β ) (β − β )] (10.) ˆ e ¿Qu´ implicaciones tiene lo anterior sobre la estimaci´n de β (o. v ′2 β. a Tenemos pues c ′ β puede escribirse como combinaci´n lineal de “observao ′ˆ ciones” v i β con varianzas muy diferentes. ´ atenuarlas. p´g.29). . (De hecho. o u Volveremos de nuevo sobre la cuesti´n en la Secci´n 11. ello acontecer´ o a cuando los valores propios λi sean muy peque˜os.3. como veremos a continuaci´n.3.4 prescinde de alguo ′ˆ ˆ a nas v i β. Como E[β] = β 1 Independientes. o u a a ′ˆ 1 v i β para i = 1. 136. Adem´s. si se verifica el supuesto de normalidad.1 al estimar µ. (10.3) que podemos ver tambi´n como el valor medio del cuadrado de la distancia e ˆ eucl´ ıdea ordinaria entre β y β . . en genee o ′ ral. Supondremos (X ′ X) de rango total. seg´n muestra (10. 158. o o a 10. y por ′ −1 ˆ tanto que (X X) existe (este supuesto se puede relajar). .4. todav´ ser´ posible o ıa ıa ∗∗ mejorar µ en t´rminos de ECM si tolerasemos un sesgo. o Error cuadr´tico medio del estimador m´ a ınimo cuadr´tico ordinario a Dado que hay varios par´metros a estimar. REGRESION SESGADA. Al igual que en el Ejemplo 11. o El estimador en componentes principales de la Secci´n 11. . si sus varianzas son muy grandes. Regresi´n ridge. inesencial. o o ′ El estimador de cualquier forma lineal c β puede escribirse como combinaˆ ˆ ˆ ci´n lineal de v ′1 β. p son variables aleatorias incorreladas con varianzas ˆ respectivas Var(vi ′ β) = σ 2 /λi . n Los estimadores que se presentan a continuaci´n hacen precisamente esto. . p´g.

6) siendo Z = [I + k(X ′ X)−1 ] . y los valores propios de una los inversos de los de la otra.1.7) .´ 10.) 10.3.1 a continuaci´n.3. λi (10.4) en que los λi son los valores propios de la matriz (X ′ X). Clase de estimadores ridge ˆ β (k) = (X ′ X + kI)−1 X ′ Y (10. La e relaci´n entre ambos para un valor arbitrario de k queda de manifiesto en la o siguiente cadena de igualdades: ˆ β (k) = (X ′ X + kI)−1 (X ′ X)(X ′ X)−1 X ′ Y ˆ = (X ′ X + kI)−1 (X ′ X)β −1 ˆ = (X ′ X)−1 (X ′ X + kI) β = I + k(X ′ X)−1 ˆ = Zβ −1 −1 ˆ β (10.1 Definiremos el estimador ridge de par´metro k as´ o a ı: siendo k una constante positiva a determinar. tenemos que: ˆ ′ ˆ ˆ ˆ ECM(β) = E[traza (β − β ) (β − β )] ′ ˆ ˆ = E[traza (β − β )(β − β ) ] 145 = σ 2 traza (X ′ X)−1 = σ 2 traza (X ′ X)−1 V V ′ = σ 2 traza V ′ (X ′ X)−1 V p (V = diagonalizadora de (X ′ X)−1 ) = σ 2 i=1 1 . que muestra la superioridad del estimador ridge sobre el MCO para alg´n valor de k. El estimador ridge es id´ntico al MCO en el caso particular en que k = 0. (Recu´rdese que e ′ ′ −1 los vectores propios de las matrices (X X) y (X X) son los mismos. es consecuencia del Lema 11.1 El error cuadr´tico medio del estimador ridge de par´metro k a a viene dado por la expresi´n o p def ECM[β ˆ(k) ] = σ 2 i=1 λi + (λi + k)2 p i=1 2 k 2 αi (λi + k)2 (10. y Σβ = σ 2 (X ′ X)−1 . u o Lema 10. REGRESION RIDGE. El Teorema 11.5) Definici´n 10.2.

21). p´g.11) (10. E[(β − β )(β − β )] = σ (X ′ X)−1 (Teorema 3. siendo V una matriz cuyas columnas son vectores propios de (X ′ X). En el paso de (11.12) = σ 2 traza V ′ [(X ′ X) + 2kI + k 2 (X ′ X)−1 ]−1 V = σ2 i=1 p 1 λi + 2k + λ−1 k 2 i λi .146 ´ CAP´ ITULO 10.10) (10.6)) = E[(Z β − β )′ (Z β − β )] ˆ ˆ = E[(Z β − Z β + Z β − β )′ (Z β − Z β + Z β − β )] ˆ ˆ = E[(Z β − Z β )′ (Z β − Z β )] + (Z β − β )′ (Z β − β ) (a) (b) (10. as´ como del hecho de que si β es el esı ′ 2 ˆ ˆ timador MCO y X X es de rango completo. (λi + k)2 = σ2 i=1 La obtenci´n de la expresi´n (11. mientras que (b) es la suma de los sesgos al cuadrado de dichos elede β mentos. REGRESION SESGADA. en que los λi son los valores propios de la matrix (X ′ X) y α = V ′ β .9) hace uso de el habitual intercambio de o o ˆ los operadores de traza y valor medio.9) I + k(X ′ X)−1 −1 −1 = σ 2 traza (X ′ X) + kI + kI + k 2 (X ′ X)−1 = σ 2 traza p (X ′ X) + 2kI + k 2 (X ′ X)−1 −1 VV′ (10.8) Obs´rvese que el primer t´rmino (a) es la suma de varianzas de los elementos e e ˆ(k) .10) a (11.11) se ha empleado el a hecho de que si V diagonaliza a (X ′ X) diagonaliza tambi´n a cada una de las e .4) es: ˆ ˆ ˆ ECM[β (k) ] = E[(β (k) − β )′ (β (k) − β )] ˆ ˆ (por (11. ´ Demostracion: El ECM del estimador ridge que habremos de comparar con (11.2. Examinemos por separado los dos sumandos de la expresi´n anterior: o ˆ ˆ (a) = E[(β − β )′ Z ′ Z(β − β )] ˆ ˆ = E[traza{(β − β )′ Z ′ Z(β − β )}] ˆ ˆ = E[traza{(β − β )(β − β )′ Z ′ Z}] ˆ ˆ = traza{E(β − β )(β − β )′ Z ′ Z} = σ 2 traza [(X ′ X)−1 Z ′ Z] = σ 2 traza (X ′ X)−1 I + k(X ′ X)−1 −1 (10.

12) est´ a u o a . o Sustituyendo (11.8) se obtiene (11.4).4). (10.15) Una percepci´n intuitiva del resultado anterior la proporciona la compao raci´n de las expresiones (11. Tomando ahora el segundo t´rmino de (11.13) = k 2 α′ (Λ + kI)−2 α = traza k 2 α′ (Λ + kI)−2 α p = i=1 2 k 2 αi (λi + k)2 (10. y por consiguiente a la matriz inversa de la contenida en el corchete. ˆ Teorema 10. 147 matrices en el corchete.8). para k = 0 la expresi´n (11.7) El Teorema 11.14) en (11.14) El paso a (11. valores medios respectivamente de o ˆ − β )′ (β − β ) y (β (k) − β )′ (β (k) − β ). Se observa que (11.7) debe o coincidir con (11. es f´cil comprobar que la derivada en k = 0 existe y a p −2 2 es −2σ i=1 λi .1 se sigue casi inmediatamente del resultado anterior. el estimador ridge β (k) coina cide con el MCO.4) y (11.1 Hay alg´n valor de k > 0 para el ECM[β (k) ] dado por (11. Derivando (??) respecto de k. siempre podremos (incrementando ligeramente k) lograr que: ˆ ˆ ˆ ECM[β (k) ] < ECM[β (0) ] = ECM[β] lo que demuestra el teorema. Por consiguiente.4) puede hacerse ˆ ˆ ˆ (β arbitrariamente grande si λi ≈ 0 para alg´n i. Por consiguiente.13) desde la expresi´n anterior hace uso de que α = V ′ β . claramente negativa.8).´ 10. e (b) = (Z β − β )′ (Z β − β ) = β ′ (Z − I)′ (Z − I)β = β′ I + k(X ′ X)−1 −1 ′ −I I + k(X ′ X)−1 −1 −I β (10. La expresi´n (11.7) u es estrictamente menor que el ECM del estimador MCO dado por (11. REGRESION RIDGE. como en efecto puede comprobarse que sucede.3. ´ Demostracion: ˆ Hemos visto m´s arriba que cuando k = 0.12) y (11.

10 0. Las l´ ıneas ˆ de trazos y puntos representa respectivamente la varianza y (sesgo)2 de β (k) ˆ en funci´n de k. Como t´rmino de come ˆ paraci´n se ha representado mediante una l´ o ınea horizontal la varianza del β MCO (igual a su varianza.1 muestra en un caso concreto c´mo var´ en funci´n de o ıan o k los componentes (a) y (b) de (11.05 0.1 establece. Puede verse que.148 ´ CAP´ ITULO 10. La l´ o o ınea horizontal ˆ es la varianza (y ECM) del estimador β MCO.00 0.10 cobijo de tal eventualidad. .02 0.039 ciende por debajo del ECM(β).30 ECM ridge (a) + (b) ECM. puesto que es insesgado). ˆ Figura 10.08 0.04 k 0. pues ninguno de los sumandos puede crecer por encima de λi /k 2 . y su suma.06 0. REGRESION SESGADA. La Figura 11. La curva s´lida representa ECM[β (k) ]. aproximadamente.25 ECM MCO Sesgo ridge (b) 0.15 Var ridge (a) 0. 0.1: Componentes del ECM(β (k) ) en el estimador ridge. tal ˆ como el Teorema 11.35 0.20 0.8). hay valores de k en que el ECM(β (k) ) desˆ ocurre para valores de k menores que 0. varianza y (sesgo)2 0.00 0.

o o e aunque computacionalmente algo laboriosa. Es un o o criterio estrechamente emparentado con el anterior. REGRESION RIDGE.3. En principio. a kCV = arg m´ CV (k). En la pr´ctica. Elecci´n de k o Sabemos que existe un k (de hecho. El u decidir d´nde ocurre esto es. se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. o Elecci´n de k por validaci´n cruzada.´ 10. En la pr´ctica. Se prueban diversos valores de k represent´ndose a las diferentes estimaciones del vector β (trazas ridge). se recurre a alguna o varias a a de las siguientes soluciones: Uso de trazas ridge. Sean A(k) = X((X ′ X) + kI)−1 X ′ ˆ y = X β (k) = A(k)y . La idea es intuitivamente atrayente: peque˜os incrementos de k partiendo n de cero tienen habitualmente un efecto dr´stico sobre β . un intervalo de valores de k) mejorando el ECM del estimador MCO. ın k y la idea es emplear este valor kCV . CV (k) es la suma de cuadrados de los residuos obtenidos al ajustar cada observaci´n con una regresi´n que la ha dejado fuera al estimar los o o par´metros. Elecci´n de k por validaci´n cruzada generalizada (GCV). al coste de introducir a alg´n sesgo. el c´lculo puede agilizarse de modo cono a a siderable. Entonces. bastante subjetivo. calcular CV (k) para un valor de k requerir´ llevar a cabo N regresiones.k la predicci´n que haceˆ o mos de la observaci´n yi cuando empleamos el estimador ridge de par´metro o a k obtenido con una muestra de la que excluimos la observaci´n i-´sima. Sea y(i). Deo e finamos N CV (k) = i=1 (yi − y(i).k )2 .3. 149 10.3. ˆ es decir. no obstante. excluyendo cada vez una ıa observaci´n distinta. La idea es tambi´n muy simple. ˆ . pero nada en la discusi´n anterior nos o permite decidir cu´l es su valor. Incrementaremos k por tanto hasta que parezca que su influencia u sobre β se aten´a —hasta que las trazas ridge sean casi horizontales.

p es el oro den y rango de la matrix (X ′ X).16) contin´a siendo una suma de cuadrados de u los residuos y el denominador el cuadrado del n´mero de grados de libertad u equivalentes. no podemos entrar aqu´ en detalles. Nos limitamos a mencionarlos. e o n es aconsejable antes de emplear el procedimiento normalizar los regresores. una expresi´n cuya minimizaci´n parece razonable. ver detalles en Brown (1993). ′ kHKB = (p − 2)ˆ 2 /β β σ ˆ ˆ (10.18) fue propuesto en Lawless and Wang (1976). r < p.2 En las ecuaciones (11.19) λi − k + k2 λi (λi + k) i αi ˆ2 (λi + k)2 El criterio (11. Alternativamente podr´ reproducirse el desarrollo anterior empleando como ıa . p´g. En caso de que (X ′ X) sea de rango deficiente r. [traza(I − A(k))]2 (10. a 10. Para otros valores o o de k el numerador de (11.17)–(11. Por ello.3.17) fue propuesto por Hoerl et al. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimaci´n. elegimos kGCV ´ CAP´ ITULO 10. por ejemplo. como resulta inmediato de la definici´n de o A(k). El criterio (11. 63. Baste decir que la ı expresi´n que se minimiza en (11. REGRESION SESGADA. Comentarios adicionales Es evidente que la forma del ECM propuesto pondera por igual las discrepancias en la estimaci´n de un βi cuyo valor real es muy grande que o aqu´llas en la estimaci´n de uno cuyo valor real es muy peque˜o.18) (10.16) se reduce a SSE/(N −p)2 cuando k = 0 o (m´ ınimos cuadrados ordinarios).16) Sobre la justificaci´n de dicha elecci´n puede verse Eubank (1988) o Brown o o (1993). (1975) y tiene una justificaci´n bayesiana. puede sustituirse ´ste por p tomando como β el ese timador m´ ınimo cuadr´tico de m´ a ınima longitud.19). = arg m´ ın k ||(I − A(k))y ||2 . o Observaci´n 10.150 entonces. o El criterio (11.4. Otros criterios.17) ′ ˆ ˆ kLW = (p − 2)ˆ 2 traza(X ′ X)/(pβ (X ′ X)β) σ kM U R = arg m´ σ 2 ın ˆ k i (10.

a Finalmente. El par´metro β0 se sustrae as´ al proceso de estimaci´n ridge. ] Unemployed Armed.mco <.2. empleando una m´trica distinta de la eucl´ e ıdea ordinaria para medir la disˆ crepancia entre β y β .1 (ejemplo de regresi´n ridge) o El siguiente c´digo muestra el uso de regresi´n ridge sobre un cono o junto de datos acusadamente colineal.6 Year Employed 1947 60.6 y 5.0 232. data = longley) Residuals: Es decir. se ha trazado una recta vertical al nivel de kGCV . en la l´ ınea esbozada en los Ejercicios 5. El primero es pr´cticamente id´ntico a ıan a e kGCV y no se ha representado en la Figura 11.32 1948 61.3. M = (X ′ X) ser´ una elecci´n natural. siendo M una matriz definida o ˆ positiva adecuada2 “tipificando” los (β − β ).17 y GNP 1947 83.5 259.ridge e o y podr´ haberse utilizado..6 1948 108.6 159. ıa o 2 . es de inter´s se˜alar que el estimador ridge puede verse dese n de distintos puntos de vista.12 1949 60. el segundo s´ ı. > > > > > > options(digits = 4) options(columns = 40) library(MASS) data(longley) names(longley)[1] <.6 1949 109.3 1948 88. REGRESION RIDGE."y" longley[1:3.8 > longley. La Figura 11.lm(y ~ . Es habitual no s´lo normalizar sino tambi´n centrar tanto las columnas o e de X como y .4 1949 88. p´g. que comparten la escaa la de abscisas.2 161. 151 ˆ ˆ ECM una expresi´n del tipo: (β− β )′ M(β − β ).5 145.6 368.0 234. En ambas gr´ficas.2 muestra las trazas ridge de los seis par´metros estimados y el valor del criterio GCV a para distintos valores de k. Uno de ellos lo interpreta como un estimador bayesiano.´ 10. 61. Los valores de kHKB y kLW son tambi´n output de la funci´n lm. a ı o restaur´ndolo al final.mco) Call: lm(formula = y ~ .2 258.. longley) > summary(longley.7. a R: Ejemplo 10.Forces 235.1 Population 1947 107.

00 0.120 0.10 Criterio GCV kGCV kLW GCV 0.140 0. REGRESION SESGADA.02 0.06 0.08 0.02 0.00 0 10 0.152 ´ CAP´ ITULO 10.130 0. Figura 10.06 0.04 k 0.10 .2: Trazas ridge y GVC para los datos longley Trazas ridge kGCV 20 βi −10 0.04 k 0.08 0.

48 Employed 0.515 0.³ 0.8564 5647. aparente en los reducidos t-ratios o y elevada R2 . Error t value (Intercept) 2946.863 --Signif. deben coincidir las estimaciones con las obtenidas por MCO. longley.58 Year -1.3039 0.21 Armed.614 GNP 0.993.1 variando de mil´sima en mil´sima.18 Pr(>|t|) (Intercept) 0. 0.3.43e-09 N´tese la fuerte multicolinealidad.1082 2.009 -0.030 * Year 0. codes: 0 ³***³ 0.001 ³**³ 0.988 F-statistic: 203 on 6 and 9 DF.0155 0.rr <. Adjusted R-squared: 0.44 Unemployed 0.2313 1.1 ³ ³ 1 Residual standard error: 1.01 ³*³ 0.1.Forces 0. > longley.05 ³.550 153 Estimate Std. Probemos ahora regresi´n ridge con valores de k (= o lambda) entre 0 y 0.19 on 9 degrees of freedom Multiple R-squared: 0.52 GNP 0.641 Employed 0.72 Population -1. REGRESION RIDGE.0302 1. Cuando k = 0.488 Population 0.7370 0.258 Armed.ridge(y ~ ..2635 0.0365 0.001)) > summary(longley. Imprimiremos e e a continuaci´n las estimaciones correspondientes a los tres primeros o valores de k ensayados.6738 -2. Min 1Q Median -2.9446 -0.Forces 0.113 Coefficients: 3Q 0.0112 0.038 * Unemployed 0.lm. + lambda = seq(0. p-value: 4.rr) Length coef 606 scales 6 Inter 1 lambda 101 Class -none-none-none-noneMode numeric numeric numeric numeric .9766 0.423 Max 1. 0.´ 10.4188 2.

154
ym xm GCV kHKB kLW 1 6 101 1 1 -none-none-none-none-none-

´ CAP´ ITULO 10. REGRESION SESGADA.
numeric numeric numeric numeric numeric

> coef(longley.rr)[1:3, ] GNP Unemployed Armed.Forces 0.000 2947 0.2635 0.03648 0.011161 0.001 1896 0.2392 0.03101 0.009372 0.002 1166 0.2210 0.02719 0.008243 Population Year Employed 0.000 -1.737 -1.4188 0.23129 0.001 -1.644 -0.8766 0.10561 0.002 -1.565 -0.5011 0.03029

La funci´n select aplicada al objeto que devuelve lm.ridge devuelve o los valores ´ptimos de tres de los criterios mencionados m˜ as arriba. o n > select(longley.rr) modified HKB estimator is 0.006837 modified L-W estimator is 0.05267 smallest value of GCV at 0.006

Podemos seleccionar el k ´ptimo de acuerdo, por ejemplo, al criterio o GCV, y hacer regresi´n ridge con ´l: o e > nGCV <- which.min(longley.rr$GCV) > lGCV <- longley.rr$lambda[nGCV] > lm.ridge(y ~ ., longley, lambda = lGCV) GNP 1.765e-01 Population -1.328e+00 Unemployed 1.937e-02 Year 2.556e-01

-3.144e+02 Armed.Forces 6.565e-03 Employed -5.812e-02

El c´digo a continuaci´n genera las gr´ficas en la Figura 11.2. o o a

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.
> > + + > > > > + + > > > >

155

par(mfrow = c(2, 1)) matplot(longley.rr$lambda, t(longley.rr$coef), type = "l", xlab = expression(k), ylab = expression(beta[i])) abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) title(main = "Trazas ridge") plot(longley.rr$lambda, longley.rr$GCV, type = "l", xlab = expression(k), ylab = "GCV", main = "Criterio GCV") abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) abline(v = longley.rr$kLW) mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)

Fin del ejemplo

10.4.
10.4.1.

Regresi´n en componentes principales. o
Descripci´n del estimador o

Consideraremos, por conveniencia notacional, el modelo habitual en que la columna de “unos”, si existe, ha sido segregada, y los restantes regresores han sido centrados y normalizados. Esto tiene por unico efecto multiplicar ´ los par´metros —y sus estimadores— por constantes respectivamente iguales a a la norma de las columnas de X afectadas. Con este convenio, el modelo de regresion lineal que consideramos se puede escribir as´ ı: y = 1β0 + W β ∗ + ǫ (10.20)

Supondremos, consistentemente con la notaci´n anterior, que β ∗ es un o vector (p − 1) × 1, y W una matriz N × (p − 1). La matriz W ′ W es una matriz con “unos” en la diagonal principal, sim´trica, y definida no negativa. e Existe siempre una diagonalizadora ortogonal V tal que: V ′ (W ′ W )V = Λ (⇐⇒ W ′W = V ΛV ′ ) (10.21)

156

´ CAP´ ITULO 10. REGRESION SESGADA.

Sean v1 , . . . , vp−1 los vectores columna de V . Llamaremos componentes principales de W a los vectores u1 , . . . , up−1 definidos as´ ı: u1 u2 up−1 o abreviadamente: U = WV (10.23) = W v1 = W v2 . . . = W vp−1 (10.22)

La matriz U es N × (p − 1), con columnas combinaci´n lineal de las de o W . Es adem´s aparente que las columnas de U son ortogonales: U ′ U = a V ′ (W ′W )V = Λ, y que generan el mismo subespacio de RN que las de W . Siendo V ortogonal, (11.20) puede transformarse as´ ı: y = 1β0 + W β ∗ + ǫ = 1β0 + W V V β + ǫ = 1β0 + Uγ ∗ + ǫ
′ ∗

(10.24) (10.25) (10.26)

Teniendo en cuenta (ver Problema 11.2) que 1 ⊥ ui , (i = 1, . . . , p − 1), el vector de estimadores puede escribirse as´ ı: ˆ β0 γ∗ ˆ = y (U ′ U)−1 U ′ y = y Λ−1 U ′ y (10.27)

Todo lo que hemos hecho hasta el momento es tomar una diferente base del espacio de proyecci´n —la formada por las columnas de U en lugar de o la formada por las columnas de W —. Llegados a este punto, tenemos que recuperar los estimadores de los par´metros originales β ∗ a partir de γ ∗ . Si a ˆ lo hacemos mediante ˆ β∗ = V γ∗ ˆ estaremos obteniendo exactamente los estimadores MCO. La idea del estimaˆ∗ dor en componentes principales βCP es emplear s´lo algunos de los t´rminos o e ∗ en γ : ˆ ˆ∗ βCP = V γ(q) ˆ∗ . 0 (10.28)

Necesitamos por tanto criterios para escoger los estimadores γi que incluimos ˆ ∗ en γ(q) y los que reemplazamos por cero en (11.28). ˆ

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.

157

10.4.2.

Estrategias de selecci´n de componentes prino cipales

Hay varias estrategias. Una discusi´n m´s pormenorizada que el resumen o a a continuaci´n puede encontrarse en Brown (1993) o en Jolliffe (1986). o Elecci´n basada en λi . Como quiera que la varianza de γi∗ es σ 2 λ−1 (v´ase o ˆ e i ∗ (10.26), p´g. 135), una estrategia consistir´ en tomar los γi asociados a λi a ıa ˆ m´s grande (es decir, con menos varianza), despreciando los restantes. El a n´mero de componentes principales a retener (= el n´mero de λi ’s “grandes”) u u es en buena medida subjetivo. N´tese que puede ocurrir que componentes asociadas a par´metros γi∗ con o a ˆ mucha varianza —y por tanto desechados— tengan no obstante gran poder predictivo de y . En este caso, podr´ ser preferible emplear la estrategia a ıa continuaci´n. o Elecci´n basada en el contraste de nulidad de los γi∗ . Se procede as´ o ˆ ı: 1. Se calcula PU y
2

= U γ∗ ˆ

2

= γ1 u1 ˆ ∗2

2

+ · · · + γp−1 up−1 ˆ ∗2

2

,

(10.29)

la ultima igualdad haciendo uso de la ortogonalidad entre las columnas ´ de U. Entonces, SSR = PU y 2 , y SSE = y − y 2 − U γ ∗ 2 . ˆ 2. Se contrasta la hip´tesis de nulidad para cada uno de los par´metros, o a (Hi : γi∗ = 0, i = 1, . . . , p − 1), mediante el estad´ ˆ ıstico: Qi = ˆ N − p γi∗2 ui × 1 SSE
2

∼ F1,N −p

(10.30)

que sigue la distribuci´n indicada bajo los supuestos habituales m´s o a normalidad cuando Hi es cierta. Obs´rvese que, gracias a ser ortogonales las columnas de U, la fracci´n e o de SSR atribuible a cada regresor es independiente de los que pueda haber ya incluidos en la ecuaci´n de regresi´n; por tanto, la diferencia o o de suma de cuadrados explicada con y sin el regresor ui es precisamente γi∗2 ui 2 . ˆ 3. Se introducen todos los regresores cuyo estad´ ıstico Qi supere un nivel prefijado. Sin p´rdida de generalidad, supondremos que ´stos son los q e e ∗ primeros, formando el vector γ(q) . ˆ

158

´ CAP´ ITULO 10. REGRESION SESGADA.

ˆ∗ 4. Los βCP se obtienen mediante la transformaci´n (11.28). o N´tese que mientras que la estrategia precedente consist´ en desechar o ıa componentes principales asociadas a reducido λi , la presente propone desechar las asociadas a reducido Qi ; frecuentemente, no suele haber conflicto entre ambos objetivos: ui 2 = λi ≈ 0 ⇒ Qi ≈ 0 a menos que simult´neaa mente γi∗ ≫ 0. Puede ocurrir, sin embargo, que una componente principal ˆ asociada a un λi muy peque˜o tenga apreciable valor predictivo (si γi∗ es n ˆ grande). Proceder´ incluir dicha componente principal como predictor si el ıa valor de Qi lo justifica y la predicci´n es el objetivo del an´lisis3 . o a Estrategia mixta. Propuesta por Jolliffe (1986), ordena los γi∗ de menor ˆ a mayor λi y realiza en este orden un contraste como el del apartado anterior sobre cada uno de ellos. Cuando se encuentra el primer γi∗ significativo, se ˆ retiene junto a todos los que le siguen (con λi mayor, por tanto). Todos los γi∗ retenidos componen el vector γ(q) . ˆ ˆ∗ Validaci´n cruzada. Computacionalmente muy laboriosa. Puede ocurrir o que al omitir distintas observaciones, dos componentes principales permuten su orden. V´anse detalles en Brown (1993). e

10.4.3.

Propiedades del estimador en componentes principales

ˆ∗ El sesgo de βCP es: ˆ∗ E[βCP − β ∗ ] = E V y su matriz de covarianzas: Σβ ∗ ˆ
CP

γ(q) ˆ∗ γi∗ vi ˆ −Vγ∗ =− 0 i=q+1

p−1

(10.31)

= V = σ
2

σ2
q

I 0 Iq 0 Λ−1 q 0 0 0 0 λ−1 vi vi ′ i

V′

(10.32) (10.33) (10.34) (10.35)

i=1 p−1

≤ σ2
i=1 2 ′

λ−1 vi vi ′ i

= σ (W W )−1
3

Pero este criterio no es un´nimemente compartido. V´ase Hocking (1976). a e

´ 10.4. REGRESION EN COMPONENTES PRINCIPALES.

159

en que el s´ ımbolo ≤ indica elementos no mayores en la diagonal principal. La diferencia entre la matriz de covarianzas de los estimadores MCO y la de los estimadores en componentes principales es:
p−1

σ

2 i=q+1

λ−1 vi vi ′ i

(10.36)

y ser´ importante si entre las componentes principales exclu´ a ıdas como regresores hay alguna asociada a un λi muy peque˜o. n Las expresiones (11.31) y (11.32)–(11.35) muestran el conflicto varianzasesgo en el caso de la regresi´n en componentes principales. De (11.31) se o deduce la siguiente expresi´n para la suma de los sesgos al cuadrado: o
p−1 ′ ˆ∗ ˆ∗ [E(βCP ) − β ∗ ] [E(βCP ) − β ∗ ] =

(ˆi∗ )2 γ
i=q+1

(10.37)

Es interesante comparar el estimador en componentes principales con el proporcionado por el estimador ridge, y examinarlo a la luz del an´lisis a efectuado en el Cap´ ıtulo 10. En realidad, todo cuanto hace el estimador en componentes principales es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores de los par´metros originales despreciando informaa ∗ ci´n (algunos γi ) de gran varianza (si se sigue el criterio de despreciar sin o ˆ m´s componentes principales con peque˜o λi ) o de reducido Qi ∝ (ˆi∗ )2 λi ; a n γ este ultimo estad´ ´ ıstico puede contemplarse como relaci´n se˜al/ruido. o n El estimador ridge no hace una elecci´n tan dr´stica sino que, mediante o a la introducci´n del par´metro k, aten´a las componentes principales reso a u ˆ ponsables en mayor medida de la varianza de β. Esto se hace evidente si comparamos la siguiente expresi´n: o ˆ∗ βCP = V Iq 0 ∗ γ =V ˆ 0 0 Iq 0 Λ−1 U ′ y 0 0 (10.38)

con la del estimador ridge equiparable4 : ˆ β (k) = (W ′W + kI)−1 W ′ y = V V ′ (W ′ W + kI)−1 V V ′ W ′ y = V (Λ + kI)−1 U ′ y (10.39) (10.40) (10.41)

En (11.38) s´lo q columnas de U ′ y se utilizan; en (11.41), todas, si bien las o que corresponden a componentes principales con λi m´s peque˜o reciben una a n
Es decir, tras haber centrado y normado los regresores y segregado la columna de “unos”.
4

160

´ CAP´ ITULO 10. REGRESION SESGADA.

ponderaci´n menor, al ser divididas por λi +k en lugar de por λi . Por ejemplo, o si λ1 = 5, λ4 = ,002 y k = 0,01, la primera columna de U ′ y ser´ dividida ıa por 5,01 ≈ 5, mientras que la cuarta resultar´ dividida por 0,012 ≫ 0,002, ıa es decir, su ponderaci´n se reducir´ a la sexta parte de la original. o ıa R: Ejemplo 10.2 (regresi´n en componentes principales) o
La funci´n regCP que sigue traduce directamente de la teor´ exo ıa puesta el m´todo para llevar a cabo estimaci´n en componentes prine o cipales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos: tomar: Vector de ´ ındices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar´ las tres primeras. ıa sig: Nivel de significaci´n de las componentes principales a reo tener. Se toman todas aqu´llas –sea cual fuere su valor propio e asociado– significativas al nivel sig. La funci´n es ineficiente, no hace comprobaci´n de errores y tiene s´lo o o o inter´s did´ctico. e a > regCP <- function(X, y, tomar = NULL, + sig = 0.05) { + X.c <- scale(X, scale = FALSE) + y.c <- scale(y, scale = FALSE) + W <- scale(X.c, center = FALSE)/sqrt(nrow(X) + 1) + WW <- crossprod(W) + factores.escala <- X.c[1, ]/W[1, ] + N <- nrow(X) + p <- ncol(X) + res <- eigen(WW) + V <- res$vectors + landas <- res$values + U <- W %*% V + gamas <- (1/landas) * t(U) %*% y.c + if (is.null(tomar)) { + fit <- lsfit(X.c, y.c, intercept = FALSE) + SSE <- sum(fit$residuals^2) + qi <- (N - p) * (gamas * landas)^2/SSE + tomar <- (1:p)[sig > (1 - pf(qi, + 1, N - p))] + } + betasCPstar <- V[, tomar] %*% gamas[tomar] + betasCP <- betasCPstar/factores.escala

m.usadas [1] 1 2 3 Una comprobaci´n util consiste en ver que el estimador en CP.c(beta0.731e+02 Armed.c("Intercept". Ve´moslo: a > regCP(X.2517070 0.239e-01 $landas [1] 4.Y .´ 10.953e-03 Year 4.X * betasCP) betasCP <. betasCP) names(betasCP) <.as.matrix(longley[. y.apply(X.391e-01 Unemployed 9.03648 . dimnames(X)[[2]]) return(list(betasCP = betasCP.Forces 1. frecuentemente empleados como banco de pruebas por su muy acusada multicolinealidad: > > > > > library(MASS) data(longley) y <. y.mean(y) beta0 <.4.0018422 0.0124261 [5] 0.Y <. 2.967e-01 $betasCP Intercept -9. REGRESION EN COMPONENTES PRINCIPALES.usadas = tomar)) Veamos el modo de emplearla. tomar = 1:ncol(X)) $betasCP Intercept 2946. + + + + + + + + } 161 m. CP. -1]) regCP(X.sum(m. cuando o ´ se utilizan todas las componente principales.26353 Unemployed 0.553e-02 Employed 7. con los datos longley.5478430 1.X <. 1] X <.longley[.85636 GNP 0.1858692 0. mean) m. landas = landas. tomar = 1:3) GNP 2.0003126 $CP. coincide con el estimador MCO.459e-02 Population 3.

0124261 [5] 0.0003126 $CP.usadas [1] 1 2 3 4 5 6 > lsfit(X.2517070 0.0124261 [5] 0.1) $betasCP Intercept -961.usadas [1] 1 2 Fin del ejemplo .Forces 0.162 Armed.23129 GNP 0.23129 ´ CAP´ ITULO 10.01116 Employed 0.73703 Unemployed 0.41880 $landas [1] 4.41880 Para que la funci´n seleccione aquellas componentes principales con o un nivel de significaci´n de sus par´metros asociados prefijado.Forces 0.85636 Armed. REGRESION SESGADA.73703 Year -1. la ino a vocamos as´ ı: > regCP(X.66205 GNP 0.49223 $landas [1] 4.02372 Population 0.37468 Armed.0018422 0.1858692 0.03648 Year -1.01373 Year 0.01116 Employed 0.26353 Population -1. sig = 0. y.1858692 0.5478430 1.0003126 $CP.2517070 0.33197 Unemployed 0. y)$coefficients Intercept 2946. Population -1.0018422 0.5478430 1.Forces 0.01991 Employed 0.

´ 10.42) Consideramos el modelo: o alternativamente: y∗ = Wβ ∗ + ǫ (10. d´nde vj o (0) (0) (10.46).45) (j = 1. utilizando (11.44) tenemos que la matriz (A′ A) es una matriz de correlaci´n (tiene “unos” en la o diagonal principal. Como por otra parte e Avj 2 = vj ′ (A′ A)vj = λj .43) en que tanto los regresores como la variable respuesta y ∗ han sido normalizados y centrados.44). y ∗ = η −1 (y − y) siendo η 2 = N (yi − y)2 . Es decir. tenemos Avj = v0j y ∗ + W vj . . Avj 2 = = v0j yi∗ + W vj N (0) 2 p−1 2 yi∗ v0j + i=1 (0) k=1 Wik vkj (10. es sim´trica y semidefinida positiva). p) (10.48) . vj Tomando norma al cuadrado de (11. . .5.5. Sea V = (v1 | · · · | e vp ) la matriz que la diagonaliza: V ′ (A′ A)V = Λ ⇐⇒ V ΛV ′ = A′ A Entonces. . (10.47) en que vkj es la k-´sima coordenada de vj .46) es vj desprovisto de su primer elemento: vj = v0j (0) . Regresi´n en ra´ o ıces latentes y = 1β0 + W β ∗ + ǫ (10. REGRESION EN RA´ ICES LATENTES 163 10. Si i=1 constru´ ımos la matriz N × p siguiente: A = [y ∗ | W ] (10.

52).52) η2 2 v0j (10. adem´s. hacen uso exclusivamente de una parte de la informaci´n o disponible. .50) y suma de cuadrados de los o o residuos en (11. y = y + ηy ∗ y denominando y(j) = y + ηˆ(j) ˆ y∗ tenemos: (y − y(j) ) ′ (y − y(j) ) = η 2 (y ∗ − y(j) ) ′ (y ∗ − y(j) ) ˆ ˆ ˆ∗ ˆ∗ = (v0j y ∗ − v0j y(j) ) ′ (v0j y ∗ − v0j y(j) ) ˆ∗ ˆ∗ = (Avj ) ′ (Avj ) = λj η 2 2 v0j η2 2 v0j (10.49) Si. podemos escribir: a −1 y ∗ ≈ −v0j W vj (0) def = y(j) ˆ∗ (10.51) N´tese que la aproximaci´n de y ∗ en (11. . . . v0j = 0.164 ´ CAP´ ITULO 10. . REGRESION SESGADA.47) y (11. .50) y (11. debidamente o ˆ ponderadas por coeficientes di a determinar: p y = ˆ i=1 p di y(i) ˆ di y + W (−v0i −1 vi η) i=1 p p (0) [usando (11. de (11. p). N] (10.48) deducimos que si λj ≈ 0 p−1 ∗ yi v0j ≈− k=1 Wik vkj ∀i ∈ [1.50) Como y ∗ = η −1 (y − y). la de que λj es aproximadamente cero para un determinado j. .51)] = = i=1 di y + W − i=1 di v0i −1 vi η (0) Por otro lado. igualando (11.42) tenemos ˆ ˆ β0 1 + W β ∗ . . Podemos pensar en hacer uso de toda la informaci´n disponible aproximano do y mediante una combinaci´n lineal de y(i) (i = 1.

57) permiten (multiplicando cada igualdad en (11. Podemos ahora minimizar la expresi´n (11.53) se deduce i=1 di = 1.54) obtenemos la suma de cuadrados de los residuos: (y − y ) ′ (y − y ) = η 2 (y ∗ − y ∗) ′ (y ∗ − y ∗ ) ˆ ˆ ˆ ˆ p ′ p = η 2 y +W i=1 p ∗ di v0i −1 (0) vi y +W i=1 ′ (0) ∗ di v0i −1 vi (0) = η2 i=1 p di v0i di v0i di v0i λi d 2 i v0i 2 (y ∗ v0i + W vi ) (y ∗ v0i + W vi ) ′ p (0) × i=1 p = η 2 i=1 p Avi i=1 di v0i Avi (10. (11. . .58) . Φ(d ) = η cuyas derivadas 2 i=1 λi d 2 i v0i 2 p −µ i=1 di − 1 (10.52).56) ∂Φ(d ) = 2η 2 ∂di d i λi v0i 2 −µ=0 (i = 1. .54) ˆ β ∗ = −η ˆ Como los regresores W est´n centrados.53) (10. y (11. es claro que β0 = y.55) sujeta a que o El lagrangiano es: p di = 1. Haciendo uso de (11. y por tanto a p de (11. .55) p i=1 = η2 i=1 .´ 10.5.53).57) por v0i 2 λ−1 y sumando) i obtener: p µ = 2η 2 i=1 2 v0i λi −1 (10. REGRESION EN RA´ ICES LATENTES que junto con la igualdad precedente proporciona: p 165 ˆ β0 = y i=1 p di di v0i −1 vi i=1 (0) (10. p) (10.

Llevando (11.62) t´rminos muy inestables. aqu´llas en e que v0i ≫ 0 que llamaremos (multicolinealidades predictivas). si parece evidente que se trata de una multicolinealidad o no predictiva.53)–(11.10.62) Podr´ ıamos detenernos aqu´ pero hay m´s. y aqu´llas en e que v0i ≈ 0 (multicolinealidades no predictivas).60) i=1 Los estimadores deseados se obtienen llevando (11. si adem´s vi a “se aproxima” a un vector propio de W ′ W . (0) El estimador anterior pondera cada vi en proporci´n directa a v0i e o inversa a λi . .60) a (11. cuando v0i y λi son ambos e muy peque˜os. . . REGRESION SESGADA. a las multicolinealidades m´s a fuertes (en que la igualdad aproximada (11. a multicolinealidades entre las columnas de la matriz [y ∗ | W ].49) es m´s ajustada). .57) obtenemos: λi 2η 2di 2 = µ = 2η 2 v0i y por tanto: v2 di = 0i λi p 2 v0i λi −1 p 2 v0i λi −1 (10. Cabe distinguir dos tipos de ı.10 y v0i < 0.63) siendo P un subconjunto de (1. Pero podea mos eliminar en (11. La determinaci´n de P es una tarea eminentemente subjetiva. se suele o (0) desechar una multicolinealidad cuando λi < 0. lo segundo. y son aprovechables para la predicci´n.58) a (11. p).61) v0i v (0) i λi 2 v0i p i=1 λ i (10. para evitar que el sumando correspondiente en (11.62) se transformar´ entonces en: o a ˆ∗ i∈P β = −η v0i v (0) i λi 2 v0i i∈P λi (10.166 ´ CAP´ ITULO 10. La relaci´n (11. Es lo sensato: lo primero.59) i=1 (10. en tanto las segundas son o multicolinealidades fundamentalmente entre los regresores.62) reciba n gran ponderaci´n. prima las multicolinealidades predictivas sobre las que lo son menos. .54): ˆ β0 = y β ˆ∗ = −η p i=1 (10. las primeras permiten despejar y ∗ .

3.10. 3. Cap.) o Gunst and Mason (1980). Hay tambi´n descripciones completas del m´todo en manuales e e como Troc´niz (1987a) (p´g. LECTURA RECOMENDADA 167 10. (1974). Sec. (1975)). 10 ´ Pe˜a (2002) Sec. o a . estudiaremos en e el Cap´ ıtulo 13 estimadores como el LASSO y garrote no negativo que pueden tambi´n verse como m´todos de regresi´n sesgada. que relaciona el o o n estimador ridge con un estimador bayesiano. Lectura recomendada Sobre regresi´n ridge. Pueden verse por ejemplo Brown (1993).6. 4.2. e e o El trabajo original regresi´n en ra´ o ıces latentes puede verse en Webster et al. 247 y ss. el trabajo original es Hoerl and Kennard (1970) (ver o tambi´n Hoerl et al. Cap. Hay una enorme literatura sobre los estimadores e ridge y en componentes principales. 10. Los m´todos de regresi´n sesgada se contemplan a veces como alternativas e o a los m´todos de selecci´n de variables en situaciones de acusada multicolie o nealidad: v´ase por ejemplo Miller (2002).6.4. De hecho. Troc´niz (1987a) Cap. 8.

o a o 10. . se vee rifica que 1 ⊥ ui .ridge. X1 . Demu´strese que. . .2 Demu´strese que si ui es definida como en (11.22). se puede formar X a˜ adiendo a X las filas de una matriz unidad. N .5 Supongamos una muestra formada por pares de valores (yi . para alo e g´ n c. Complementos y ejercicios 10.3 se propon´ emplear un criterio o ıa del tipo ˆ ˆ (β − β )′ M (β − β ) con M = (X ′ X). y realizar regresi´n ponderada (dando a cada obsero vaci´n “normal” peso unitario y a las p seudo-observaciones a˜ adidas o√ n peso k).67) −1 ˜ n Alternativamente. Este ser´ de ordio a nario el m´todo a utilizar cuando hayamos de probar muchos valores e diferentes de k y dispongamos de un programa para hacer regresi´n o m´ ınimo cuadr´tica ponderada. La librer´ MASS contiene no obstante la funci´n lm. ıa o que hace estimaci´n ridge de modo m´s c´modo para el usuario.4 Es f´cil realizar regresi´n ridge incluso con programas pena o sados s´lo para hacer regresi´n m´ o o ınimo cuadr´tica ordinaria. ¿Es esto un caso particular de alguno de los procedimientos de estimaci´n examinados en este cap´ o ıtulo? 10.64) kI 0 ) (10. . D´se una justificaci´n para esta elecci´n de M . 10. . REGRESION SESGADA. e o o 10. La variable Y es peso. Al hacer regresi´n ordinaria de y soı o ˜ ˜ bre X obtenemos: ˆ ˜′˜ ˜ ′˜ β = (X X)−1 X y = (X X + kI) = (X X + kI) ˆ = β (k) ′ ′ −1 (X y + X y ′ ′ √ (10.3 Sea una muestra formada por n observaciones. Las funciones lsfit y lm (disponibles a en R) admiten ambas el uso de pesos y por tanto se prestan al uso descrito. Llamamos X e y a la matriz de regresores y vector respuesta as´ ampliados. i = 1. . xi ). . la variable X es edad. Basta a prolongar el vector √ con p ceros. generadas por una distribuci´n con media. . u a ECM) que X. La alteraci´n de los pesos es habitualmente m´s c´moda o a o que la creaci´n de una nueva matriz de regresores. Xn .168 ´ CAP´ ITULO 10. cX es mejor estimador (en terminos de error medio cuadr´tico.1 Al final de la Secci´n 11.65) (10. y la matriz X con p filas adicionay ˜ ˜ les: las de la matriz kIp×p .66) (10. .

. . .  . LECTURA RECOMENDADA y las observaciones corresponden a N diferentes sujetos. = βp−1 = 0 (tendena cia no m´s que cuadr´tica). . xp−1 N y contrastar hip´tesis tales como H0 : β2 = β3 = . . H0 : β3 = . Otra posibilidad es sustituir las potencias creciente de xi en las columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977). Sucede sin embargo. . . . . 1 xN x2 N x3 N . para la finalidad perseguida en el Ejere cicio 11. . pero sin problemas de multicolinealidad. . como es f´cil a a a comprobar. . etc.6 (↑ 11. .5) ¿Por qu´. para obtener una nueva matriz de dise˜ o. xN . n 169 10.5. xp−1 1 1 1  p−1   1 x2 x2 x3 . .6. . . .68) X =  1 x3 x3 x3 . . x2  2 2  p−1  3 2 (10.   . Estamos interesados en especificar la evoluci´n del peso con la edad. Podr´ ıamos ortogonalizar los vectores columna de la matriz de dise˜ o (por ejemplo mediante el procedimiendo de Gram-Schmidt: v´ase n e Grafe (1985) o cualquier libro de Algebra Lineal). Dahlquist and Bj¨rck (1974). Los nuevos vectores columna generan el misn mo espacio y el contraste puede hacerse del mismo modo que con los originales. no ser´ de utilidad hacer regresi´n en componentes princiıa o pales? . a e Ambos procedimientos tienen por finalidad encontrar una base ortogonal o aproximadamente ortogonal generando el mismo espacio que los vectores columna originales de la matriz de dise˜ o. .  . x3    . o o cualquier texto de An´lisis Num´rico). = βp−1 = 0 o (tendencia no m´s que lineal). Podr´ o ıamos construir la matrix de dise˜ o n   1 x1 x2 x3 . sean cuales fueren los valores x1 . que una matriz como la anterior adolece de una acusada multicolinealidad.10. . .

170 ´ CAP´ ITULO 10. REGRESION SESGADA. .

o Ya hemos visto en lo que precede estad´ ısticos para evaluar la bondad de 2 ısticos que dan una ajuste de un modelo. como se ha indicado ya en el Cap´ ıtulo 13. o 11. considerando instrumentos o para examinar el ajuste localmente (para observaciones individuales). pero se trata de estad´ 2 idea global del ajuste. Belsley et al. no conocemos la forma en que se generan los valores de la variable respuesta Y . Barnett and Lewis (1978). An´lisis de residuos. Puede ocurrir que un R encubra el hecho de que localmente —para unas ciertas observaciones— el ajuste es muy deficiente.1. o 171 . en el sentido de condicionar de modo o importante la estimaci´n del modelo. a En general. como R . (1980). o Diagn´sticos. Myers (1990) y Troc´niz (1987a). Todos los modelos que ajustemos son en alguna medida provisionales. El desarrollo que se hace a continuaa ci´n sigue principalmente a Cook and Weisberg (1982). Examinaremos tambi´n la cuesti´n ´ e o ıntimamente relacionada de cu´ndo una oba servaci´n (o varias) son muy influyentes. En lo que sigue abordaremos esta cuesti´n. Otras referencias de o utilidad son Hawkins (1980). y su adecuaci´n o a los datos debe ser objeto de an´lisis.Cap´ ıtulo 11 Evaluaci´n del ajuste.

incluso cuando las a perturbaciones lo son. homosced´sticos. Teorema 11. ´ Demostracion: Σǫ = E[(ˆ − E(ˆ))(ˆ − E(ˆ))′ ] ǫ ǫ ǫ ǫ ˆ Como E(ˆ) = 0. dado que (I −P ) es una matriz no diagonal. ′ (11. en general. Sea. ǫi recoger´ con desigual fidelidad el valor de ǫi . e a . 2. La forma m´s natural de examinar el ajuste consiste en considerar los a residuos ˆ ǫ = y − X β = (I − X(X ′ X)−1 X ′ )y = (I − X(X ′ X)−1 X ′ )ǫ ˆ (11. En particular.4) (11. en general. incluso cuando las perturbaciones lo son. (12. Dependiendo de los valores que tomen estos coeficientes. ˆ a Los valores pij dependen s´lo de la matrix de dise˜o y son del mayor o n inter´s. DIAGNOSTICOS.5). EVALUACION DEL AJUSTE. Los residuos no son. el residuo i-´simo es un promedio ponderado de la perturbaci´n e o correspondiente a dicha observaci´n y las de todas las dem´s observaciones.2) se reduce a: ǫ Eˆˆ ′ = E[(I − X(X ′ X)−1 X ′ )yy ′ (I − X(X ′ X)−1 X ′ ) ] ǫǫ = (I − X(X ′ X)−1 X ′ )σ 2 I = σ 2 (I − P ). o a con ponderaciones (1 − pii ) y (−pij ).6) un elemento gen´rico de la matriz P (xi ′ denota la i-´sima fila de X).7) Por tanto. Veremos sin o embargo que.1) se deduce: ǫi = (1 − pii )ǫi − ˆ i=j pij ǫj (11. El apartado 2) del enunciado es inmediato a partir de (12. s´lo vagamente reproduce ǫ el comportamiento de o ˆ ǫ. Los residuos no son. De la e e igualdad (12.172 ´ ´ CAP´ ITULO 11. como veremos m´s abajo.2) (11. pij = xi ′ (X ′ X)−1 xj (11.1 Bajo los supuestos habituales se verifica que: 1. incorrelados.5) que en general no tiene elementos iguales a lo largo de la diagonal principal.3) (11. en general.1) Podemos contemplar los ǫi como “estimaciones” de las perturbaciones ǫi ˆ (inobservables) que han intervenido en la generaci´n de las Yi .

Por tanto. se prestan mejor a ser examinados gr´ficamente para identificar posibles observaciones an´malas o outliers. ǫi ˆ + σ 2 (i)(1 − pii ) ˆ Definidos por: ti = (11. sin embargo. Tomaremos. los ri no siguen una distrio buci´n t de Student. Esto permite. . 1 (N − p − 1)). ANALISIS DE RESIDUOS. N son residuos de varianza com´n. por causa de su heterocedasticidad.1. Los residuos MCO definidos en (12. con la unica salvedad de haberse tomado e ´ 2 en el denominador un estimador σ (i) de σ 2 que no hace uso de ǫi . . o 2 Al tener los ri la misma varianza. Se denomina internamente studentizados o o a los residuos definidos en (12. a 1 2 ri /(N − p) sigue una distribuci´n beta B( 2 . 173 11. Mediante ˆ ˆ una elecci´n adecuada de σ 2 (i) puede lograrse que ti siga una distribuci´n o ˆ o t de Student con (N − p − 1) grados de libertad.´ 11. . . pues numerador y denominador no son independientes o (ˆi ha intervenido en el c´mputo de σ 2 ). desaconsejables para la detecci´n de observaciones anormales o o diagn´stico de modelos de regresi´n.2.3. entre otras cosas. De (12. Es de notar que. 118) para contrastar la o e o a presencia de outliers. Es f´cil demostrar. a pesar de su denominaci´n.1.5) se deduce que una estimaci´n de la varianza de o ǫi viene dada por σ 2 (1 − pii ). que ǫ o ˆ a bajo los supuestos habituales m´s el de normalidad en las perturbaciones.1) son. hacer uso de la distribuci´n del m´ximo de k variables t de Student o a con correlaci´n por pares ρ (v´ase Secci´n 9. Residuos internamente studentizados. p´g. . ˆ ˆ ri = ǫi ˆ + σ 2 (1 ˆ − pii ) (11.1. a o 11. Se llama studentizaci´n a u o la eliminaci´n del efecto de un par´metro de escala (aqu´ σ 2 ) mediante divio a ı si´n por una estimaci´n adecuada. σ 2 (i) = ˆ ǫ′ ˆ − ˆi (1 − pii )−1 ǫi ˆǫ ǫ ˆ (N − p − 1) (11. Es sin embargo f´cil corregir dicha heo o a terocedasticidad. Residuos externamente studentizados.10) lo que permite probar el siguiente.9) son formalmente id´nticos a los ri .8).1.8) para i = 1.

es tambi´n f´cil comprobar que B es idempoa e a tente. Llamando ´ o e a A = G′i (I − P ) tenemos que: ǫ ˆi = Aǫ Por otra parte. Alternativamente. lo que demuestra el Teorema.11) = ǫ Bǫ ′ (11. ´ Demostracion: Podemos escribir ǫi = G′i (I − P )ǫ siendo G′i de dimensi´n 1 × N.2 Con σ 2 (i) definido como en (12. ǫi ˆ σ 2 (i)(1 − pii ) ˆ = = ǫi / σ 2 (1 − pii ) ˆ σ 2 (i)/σ 2 ˆ ǫi / σ 2 (1 − pii ) ˆ ǫ ′ Bǫ /(N − p − 1)σ 2 (11. salvo que o a podamos calcular f´cilmente su correlaci´n por pares. . Por consiguiente. con rango (= traza) (N − p − 1).10). Por otra parte. 118).12) Es f´cil comprobar que AB = 0.13) (11.14) hay respectivamente una variable aleatoria N(0.3.3. DIAGNOSTICOS. EVALUACION DEL AJUSTE.9) (externamente studentizados) siguen una distribuci´n t de Student o con (N − p − 1) grados de libertad. p´g. p´g. ambas independientes. Para contrastar la hip´tesis de presencia de outliers. con ˆ o un unico “uno” en posici´n i-´sima y ceros en los dem´s lugares. podemos comparar el mayor residuo internamente studentizado con los valores cr´ ıticos en las tablas de Lund (1975). podemos comparar o el mayor de los residuos externamente studentizados con el cuantil apropiado de la distribuci´n del m´ximo valor absoluto de k variables aleatorias t de o a Student (Secci´n 9. 1) y una χ2 dividida entre sus grados de libertad.10) deducimos: (N − p − 1)ˆ 2 (i) = ǫ ′ [I − Gi [G′i (I − P )Gi ]−1 G′i ]ˆ σ ˆ ǫ ′ ′ = ǫ (I − P )[I − Gi [Gi (I − P )Gi ]−1 G′i ](I − P ) ǫ B (11.14) Pero en el numerador y denominador de (12. como sucede a menudo a o en An´lisis de Varianza. 71). los residuos ti definidos a en (12. o emplear la desigualdad de Bonferroni. de (12. El texto Seber (1977) reproduce en su Ap´ndice E a e tablas adecuadas. bajo los supuestos haˆ bituales m´s el de normalidad en las perturbaciones. luego ǫi y σ 2 (i) son independientes (Lema a ˆ ˆ 7.174 ´ ´ CAP´ ITULO 11. Supondremos que son incorrelados. Teorema 11.

1. tanto interna como externa. 2 1 . 5. denominados BLUS (o ELIO). No es posible obtener un o vector de N residuos incorrelados y ortogonales a las columnas de X. Residuos BLUS.1. son de utilidad para contrastar homoscedasticidad (suministrando una alternativa al conocido m´toe do de Goldfeld-Quandt). Residuos borrados.1. es decir. Cap. a dependiendo del subconjunto de (N − p) residuos que escojamos. y su matriz de covarianzas de rango (N − p) (supuesta X de rango completo). Si es posible. sin embargo. de hecho. Su distribuci´n en n o N R es degenerada. y de media 0. e a Una denominaci´n alternativa frecuente en la literatura es la de residuos PRESS (preo dictive sum of squares residuals).15) Un di muy peque˜o o nulo indicar´ que la observaci´n i-´sima no se n ıa o e separa en su comportamiento del recogido por la regresi´n sobre las restantes o N − 1 observaciones.´ 11. hay multitud de maneras de hacerlo1 .4.3. normalidad. elimina la heterocedastio cidad de los residuos. Lo contrario es cierto si di es muy grande. obtener (N − p) residuos incorrelados. p´g. β o (i) (i) residuos borrados (deleted residuals) a los di definidos as´2 : ı ˆ di = yi − xi ′ β(i) (11. 11. La studentizaci´n. 175 11. Se llama obtenido sin dicha observaci´n. Tales residuos. Hay una relaci´n muy simple que permite calcular los di sin necesidad de o realizar N regresiones diferentes sobre todos los conjuntos posibles de N − 1 V´ase Theil (1971). Un tratamiento detallado puede encontrarse en Theil (1971). La raz´n o se ve f´cilmente: ǫ ⊥ R(X) es un vector aleatorio de N coordenadas. Sean X(i) e Y (i) la matriz de dise˜o y vector respuesta desprovistos de n ˆ(i) el vector de estimadores de los par´metros la observaci´n i-´sima. 202 y ss. ANALISIS DE RESIDUOS. pero a ˆ constre˜ido a yacer en un subespacio (N − p) dimensional. pero no la mutua correlaci´n. etc. Ninguna transformaci´n ortogonal puede convertir tal o matriz en diagonal de rango N. Sea β o e a ˆ(i) = (X ′ X(i) )−1 X ′ Y (i) . homosced´sticos.

An´lisis de influencia. 230.17) hace uso del Teorema A.18) (11. es necesario particionar la muestra o replantear el modelo.1 pone de manifiesto. DIAGNOSTICOS. 12.2. el punto a tiene una notable influencia en la estimaci´n de o la pendiente de la recta. EVALUACION DEL AJUSTE. En efecto. brutos o studentizados. pero s´lo en parte: puede haber observaciones extraordinariao mente influyentes que resulten muy bien ajustadas por la regresi´n. En general. a Veremos en lo que sigue que di est´ relacionado con la influencia que la a observaci´n i-´sima tiene sobre la estimaci´n de los par´metros.15) se deduce que: ′ ′ di = yi − xi ′ (X(i) X(i) )−1 X(i) Y (i) ′ X(i) Y (i) ′ = yi − xi ′ [(X ′ X) − xi xi ] = yi − xi ′ (X ′ X)−1 + ′ −1 ′ (11. En todo caso.176 ´ ´ CAP´ ITULO 11. es necesario saber hasta que punto observaciones aisladas influencian las estimaciones de los par´metros para obrar en consecuencia. a Es en general indeseable que la estimaci´n de un par´metro dependa de o a modo casi exclusivo de una sola observaci´n o de unas pocas. a Puede parecer que para determinar qu´ observaciones influyen m´s en el e a resultado de la estimaci´n basta mirar los residuos. o e o a 11. p´g. Claramente.16) a (12. de manera que o su eliminaci´n conduzca a resultados completamente diferentes.2.16) (X X)−1 xi xi ′ (X X)−1 ′ X(i) Y (i) (11. o Ello es verdad. de (12. hasta el punto de que su omisi´n dar´ lugar a un o ıa . o cuando esto ocurre.19) en que el paso de (12. como el o ejemplo de la Fig.17) ′ (X ′ X)−1 x 1 − xi i (1 − pii )(X ′ X)−1 + (X ′ X)−1 xi xi ′ (X ′ X)−1 ′ = yi − xi ′ X(i) Y (i) 1 − pii (1 − pii )xi ′ (X ′ X)−1 + pii xi ′ (X ′ X)−1 ′ X(i) Y (i) = yi − 1 − pii 1 − pii (1 − pii )yi − xi ′ (X ′ X)−1 (X ′ Y − xi yi ) = 1 − pii ′ ′ −1 ′ yi − xi (X X) X Y = 1 − pii ǫi ˆ = 1 − pii = yi − ′ xi ′ (X ′ X)−1 X(i) Y (i) (11. observaciones.

2. que tenga en cuenta. La curva de influencia muestral.´ 11. su residuo MCO es muy peque˜o. La forma obvia de examinar la influencia de la observaci´n i-´sima cono e siste en comparar los vectores de estimadores obtenidos con y sin dicha observaci´n: β y β(i) respectivamente. Pero todav´ es posible un ıa ıa an´lisis m´s sofisticado. los par´metros a a a sobre los que una observaci´n es muy influyente. o a y 5 0 10 15 20 25 30 10 20 x 30 40 resultado completamente diferente (la recta dibujada con trazo discontinuo). y o gran influencia en la pendiente de la recta de regresi´n. un ex´men de los residuos n a MCO —o incluso de los residuos studentizados— dif´ ıcilmente delatar´ ninıa guna anormalidad.1: Una observaci´n como a tiene residuo borrado muy grande. o 11. Sin embargo. El examen de los residuos borrados detectar´ una situaci´n como la menıa o cionada: a tendr´ un residuo borrado grande. definimos la curva de o ˆ ˆ influencia muestral (SIC) as´ ı: ˆ ˆ SICi = (N − 1)(β − β(i) ). Abordamos este an´lisis a o a continuaci´n.2. ANALISIS DE INFLUENCIA. (11. en particular.20) .1. 177 Figura 11. En consecuencia.

debidamente amplificadas o por (N − 1). en lugar de entre (1 − pii ) como en (12. EVALUACION DEL AJUSTE.20) es vector-valorada: recoge. difieren de la curva de influencia muestral presentada en el grado en que se corrige ǫi (en ˆ 2 la EIC se divide entre (1 − pii ) . ˆ ˆ SICi = (N − 1)(β − β(i) ) = (N − 1)(X ′ X)−1 xi ǫi ˆ 1 − pii y el c´lculo de la curva de influencia muestral SICi correspondiente a la a observaci´n i no requiere realizar una regresi´n para cada i. o e a Podemos relacionar (12. .21) (X ′ X)−1 xi xi ′ (X ′ X)−1 (X ′ Y − xi yi ) 1 − x′i (X ′ X)−1 xi (X ′ X)−1 xi xi ′ (X ′ X)−1 X ′ Y = (X X) xi yi − 1 − pii ′ ′ −1 ′ (X X) xi xi (X X)−1 xi yi + 1 − pii ′ −1 (X X) xi ˆ (1 − pii )yi − xi ′ β + pii yi = 1 − pii ǫi ˆ = (X ′ X)−1 xi 1 − pii En consecuencia. o o Diferentes versiones de la curva de influencia disponibles en regresi´n o lineal puede encontrarse en Cook and Weisberg (1982) y Belsley et al. Lema 11.1 Se verifica que (X ′ X)−1 xi ǫi ˆ ˆ ˆ (β − β(i) ) = = (X ′ X)−1 xi di .22). todos los c´lculos o o a se se pueden hacer con ayuda de los residuos ordinarios y diagonal de la matriz de proyecci´n correspondientes a la matriz de proyecci´n X(X ′ X)−1 X ′ . DIAGNOSTICOS.178 ´ ´ CAP´ ITULO 11. El factor (N − 1) tiene por misi´n corregir el efecto del tama˜o muestral: o n en igualdad de todo lo dem´s. por la raz´n apuntada. (1 − pii ) ´ Demostracion: ˆ ˆ (β − β(i) ) = (X ′ X)−1 X ′ Y − ((X ′ X) − xi xi ′ )−1 (X ′ Y − xi yi ) = (X ′ X)−1 X ′ Y − (X ′ X)−1 + ′ −1 (11. una observaci´n altera la estimaci´n tanto a o o menos cuanto m´s grande sea la muestra.20) con el residuo borrado i-´simo haciendo uso del e siguiente lema. Alternativas como la curva de influencia emp´ ırica EIC y otras. a La expresi´n (12. (1980). las diferencias que introduce la inclusi´n o o de la observaci´n i-´sima sobre cada uno de los p par´metros estimados.

Tal y como se indica m´s arriba.2. σ 2 (X ′ X)−1 ).26) Una relaci´n de las mismas puede verse en Cook and Weisberg (1982). en ocasiones queremos una unica medida resumen de ´ ´ la influencia de una observaci´n. en general.22) siendo S una matriz definida no negativa y c una constante positiva.´ 11. 179 11. s´lo de matiz3 . DFFITS. u a La coordenada k-´sima de SICi proporciona informaci´n sobre la influencia e o ˆk .2.23) (11. p. o Haciendo uso del Lema 12. e 11. una elecci´n posible que aproximadamente “noro maliza” (12. Con esta elecci´n.22) es: S = (X ′ X) y c = pˆ 2 .24) siendo ri el i-´simo residuo internamente studentizado.1 tenemos que la distancia de Cook puede escribirse as´ ı: Di ǫi xi ′ (X ′ X)−1 (X ′ X)(X ′ X)−1 xi ǫi ˆ ˆ = 2 (1 − p )2 pˆ σ ii 1 2 pii = r p i 1 − pii (11. 124.2. Una posibilidad es o e ponderar las discrepancias en una unica expresi´n como: ´ o Di = ˆ ˆ ˆ ˆ (β − β(i) )′ S(β − β(i) ) c (11. un vector p×1 (p = n´mero de par´metros).3. o ˆ(i) el vector de estimadores obtenido sin hacer uso de la observaSea β ˆ ci´n i-´sima. Puesto ˆ que β ∼ (β .25) Se suele considerar observaciones inusuales a aqu´llas con e |DFFITi | > 2 3 p N (11. Hay otras posibles elecciones de S y c con o diferencias. pii 1 − pii Se definen as´ ı: DFFITi = ti (11. Aunque esta informaci´n de la observaci´n i-´sima en la estimaci´n de β o e o o pormenorizada sea util. en nuestro caso. la expresi´n σ o o (12. y β el computado con la muestra completa. yi). ANALISIS DE INFLUENCIA. o . la curva de influencia en cualquiera de a sus versiones es.22) se denomina distancia de Cook y es una medida global de la influencia de la observaci´n (xi . Distancia de Cook.2.

Presentamos a continuaci´n o o algunos de estos gr´ficos. . con frecuencia ser´ conveniente construir algunos gr´ficos. contrastar hip´tesis de presencia de outliers. Ryan (1997) o Atkinson (1985). la informaci´n que cabe obtener de ellos. o 11. Referencias utiles para ampliar lo que se expone a continuaci´n ´ o incluyen Troc´niz (1987a). la desviaci´n t´ o ıpica de β √ a El criterio que se sigue es el de comparar |DFBETAij | con 2/ N.. Gr´ficos de residuos frente a ´ a ındice de observaci´n (i. otros aparecer´n en contexto en los cap´ a a ıtulos dedicados a selecci´n de modelos (Cap´ o ıtulo 13) y transformaciones de las variables (cap´ ıtulo 14).27) X)−1 jj Los estad´ ısticos DFBETA permiten evaluar la influencia de la observaci´n o i-´sima sobre el par´metro j-´simo. Myers (1990). Se definen por: DFBETAij = σ ˆ ˆ ˆ βj − βj.4.1. An´lisis gr´fico de residuos a a Al margen del uso que pueda hacerse de los residuos en cualquiera de sus variedades para. por ejemplo. El representar ǫ i frente a i nos podr´ poner de manifiesto rupturas temporales ıa —por ejemplo.3. es decir. En ocasiones podemos ver tambi´n en un gr´fico de ese a ta naturaleza pautas como agrupamiento de residuos. o etc. (11. las o observaciones han sido tomadas secuencialmente una despues de otra.(i) (X ′ . en a a efecto. EVALUACION DEL AJUSTE. una brusca disminuci´n del tama˜o de los residuos a partir o n de un cierto i—. el ´ ındice de cada observaci´n es el tiempo.180 ´ ´ CAP´ ITULO 11. Pueden emplearse residuos ordinarios o studentizados en cualquiera de sus variedades. Es mucha. que puede convenir investigar. 11. En cierto modo desglosan la informaci´n e a e o que la distancia de Cook resume en un unico estad´ ´ ıstico por observaci´n. DFBETAS. ˆi) o ǫ Frecuentemente. La o motivaci´n de la expresi´n (12. DIAGNOSTICOS. M´s detalles en Belsley et al.2.3.27) es clara: la diferencia entre la estimaci´n o o o de βj -´simo con y sin la observaci´n i-´sima se divide por una estimaci´n de e o e o ˆj . 11. (1980).

dependiendo de la pauta que dibujaran los residuos. a efectos pr´cticos y para tama˜os o a n muestrales moderados (Troc´niz (1987a). p´g. 174. Gr´ficos de normalidad de residuos a Aunque. Los residuos de ambas a regresiones recogen.3. ǫ Gr´ficos de variable a˜ adida (ˆY |X−j . 255) es de o e o a uso general con muestras grandes y distribuciones continuas —lo que incluye . como se ha visto (Secci´n 12. las partes de Y y Xj ortogonales al subespacio generado por las restantes variables. Si hubiera alguna pauta en dicha gr´fica.´ ´ 11. sugiriendo que xij debe suplementarse con un t´rmino cuadr´tico.3. Gr´ficos de residuos frente a variables excluia das (x∗ . p´g. un gr´fico de esta naturaleza puede aportar infora maci´n acerca del modo en que un regresor interviene en la generaci´n de la o o respuesta: por ejemplo. o 11.4. No obstante. o Un gr´fico de esta naturaleza permitir´ ver si la parte no explicada de la a ıa respuesta (los residuos) tiene alguna relaci´n evidente con la nueva variable.3. etc.3. podr´ a ıamos interpretarla como relaci´n entre Y y Xj eliminado en ambas el efecto de las restantes variables. tendr´ ıamos pistas acerca de si dicha variable x ∗ ha de incluirse tal cual o tras alguna j transformaci´n funcional. o 11.3. respectivamente. ˆi) ǫ Los residuos ordinarios son por construcci´n ortogonales a cualquiera de o los regresores.1.2. Gr´ficos de residuos frente a variables incluidas a (xij . ˆXj |X−j ) a n ǫ La idea es similar a la del apartado anterior. Se dibujan los residuos de la regresi´n de Y sobre todas las variables menos Xj sobre los residuos o de regresar dicha variable sobre todas las dem´s. o En su caso. ANALISIS GRAFICO DE RESIDUOS 181 11. ˆi) ij ǫ La idea es similar a la del apartado precedente.1 y siguiente). pero x∗ son ahora los ij valores de una variable no incluida (y candidato a serlo) en la regresi´n. si las perturbaciones o son a su vez normales.5. o 11. La de Kolmogorov-Smirnov (v´ase Troc´niz (1987b). los residuos studeno tizados no siguen una distribuci´n normal. Hay multitud de pruebas utilizables para contrastar ajuste a una distribuci´n. podr´ ıamos ver una pauta de relaci´n no lineal entre o ǫi y xij . ˆ e a entrar como funci´n exponencial.3. indica que suele bastar o a N > 20) la aproximaci´n a la normalidad es muy buena.

studentiza qqnorm(studres(modelo). Los gr´ficos en o a papel normal cumplen esta finalidad. F con 1.182 ´ ´ CAP´ ITULO 11. a En cualquiera de los casos se cuenta con un instrumento que permite no s´lo apreciar si hay desviaciones respecto de la normalidad. El principio es muy simple: dada una muestra {xi }N . main = "Q_Q Plot residuos\n ext. a la normal—. p´g. data = UScrime) qqnorm(stdres(modelo).lm(y ~ M + Ed + Po1 + M. ´ > > > > > > > > > + + > > par(mfrow = c(2.).2 g. EVALUACION DEL AJUSTE.2 . en ocasiones es util un instrumento que permita visualizar la naturaleza ´ y alcance de la desviaci´n respecto a la normalidad. o puede o hacerse mediante ordenador en cuyo caso basta facilitar los datos y verificar la linealidad del gr´fico resultante. o Tan util como pueda ser una prueba estadistica convencional de normali´ dad. Hay contrastes como el de Shapiro-Wilk descrito en Shapiro and Wilk (1965) y Shapiro and Francia (1972). Los dos primeros paneles recogen sendos gr´ficos o a de normalidad para una muestra normal y una muestra procedente de una F1. Φ−1 (F∗ (xi ))).F + U1 + U2 + Prob + Ineq.1)") muestra <. N(0. e o a El gr´fico puede hacerse manualmente sobre papel especial (“papel nora mal”) en que la escala vertical absorbe la transformaci´n Φ−1 (. especializados en el contraste de la hip´tesis de normalidad.2 se genera mediante el fragmento de c´digo reproduo cido a continuaci´n. main = "Q_Q Plot de\n 200 obs. en que F∗ (xi ) es la funci´n o o de distribuci´n emp´ o ırica de la muestra. si existe.rf(200.1 (gr´ficos para contraste de normalidad de rea siduos) La Figura 12. V´ase por ejemplo Troc´niz (1987b). studentiz . main = "Q_Q Plot residuos\n int. 2)) muestra <.l.") rm(muestra) library(MASS) data(UScrime) modelo <.rnorm(200) qqnorm(muestra. sino tambi´n de o e qu´ naturaleza son y a qu´ puntos afectan. 2) qqnorm(muestra. deben estar aproximdamente alineados. e e R: Ejemplo 11. si procede de una i=1 distribuci´n normal los puntos (xi . main = "Q-Q Plot de\n 200 obs. DIAGNOSTICOS. 1. puede verse la llamativa desviaci´n de la normalidad en este o ultimo caso. 270.

ANALISIS GRAFICO DE RESIDUOS 183 Figura 11.3. −3 −3 −1 1 −1 0 1 2 3 −1 0 1 2 3 Theoretical Quantiles Theoretical Quantiles Q_Q Plot residuos int.2: Gr´ficos para contraste de normalidad a Q_Q Plot de 200 obs. N(0.1) 3 Sample Quantiles Sample Quantiles 2 250 0 50 −3 150 Q−Q Plot de 200 obs. studentizados −2 −1 0 1 2 Theoretical Quantiles Theoretical Quantiles .´ ´ 11.2 g. studentizados Sample Quantiles Sample Quantiles 2 2 −2 0 1 3 −2 0 1 −2 −1 0 1 2 Q_Q Plot residuos ext.l. F con 1.

EVALUACION DEL AJUSTE. Puede constatarse que son casi id´nticos y que e sugieren un buen ajuste de la muestra a la hip´tesis de normalidad.184 ´ ´ CAP´ ITULO 11. o Fin del ejemplo 11. Puntos muy separados de la bisectriz corresponder´ a ˆ ıan observaciones que alteran sustancialmente la regresi´n. o . Lo realmente sintom´tico es una gran divergencia o a entre el residuo ordinario y el residuo borrado. o e Por ello se propone como gr´fico util en el diagn´stico de un modelo el de a ´ o ǫ ˆi frente a di . En general.3. X11cairo 2 Los siguientes dos paneles muestran los gr´ficos de normalidad a correspondientes a los residuos interna y externamente studentizados de un mismo modelo. al menos en el o ıan ajuste de la observaci´n i-´sima. pues ello indica que al omitir la observaci´n correspondiente los resultados var´ mucho. ˆi) ǫ Un residuo borrado no necesariamente es indicativo de que una observaci´n sea muy influyente.6. deber´ ıamos observar puntos aproximadamente sobre la bisectriz: di ≈ ǫi . DIAGNOSTICOS. Gr´ficos de residuos ordinarios frente a resia duos borrados (di.

bajo los supuestos habituales e 185 .1 Demu´strese que ri /(N −p). B( 1 . ANALISIS GRAFICO DE RESIDUOS Complementos y ejercicios m´s normalidad. 1 (N − p − 1)). sigue una distribuci´n beta.3.´ ´ 11. a o 2 2 2 11.

186 ´ ´ CAP´ ITULO 11. DIAGNOSTICOS. . EVALUACION DEL AJUSTE.

o Es claro que no podemos preferir un modelo a otro simplemente porque su SSE es menor. Por otra. tenga o mucha o poca relaci´n con la variable respuesta. Para enfrentar este tipo de situaciones necesitamos. o a pues.Cap´ ıtulo 12 Selecci´n de modelos. por una parte. Es m´s frecuente. 1 187 . Tenemos. Criterios para la comparaci´n. ajustamos un modelo de regresi´n teniendo una idea clara o de las variables que debemos incluir como regresores. o En ocasiones.1. reducir´ SSE. necesitamos estrategias de selecci´n de variables que construyan de manera autom´tica o semi-autom´tica o a a subconjuntos de todos los modelos posibles susceptibles de incluir el “mejor”. o que son combinaci´n lineal exacta de columnas corresponn o dientes a variables ya presentes entre los regresores. sin a embargo. que buscar criterios m´s elaborados. dado que toda1 variable que incluyamos en la regresi´n. capaces de permitirnos comparar distintos modelos ajustados a una misma muestra. el caso en que s´lo tenemos una idea aproximada de la forma adeo cuada para nuestro modelo. a Las unicas excepciones son aquellas variables correspondientes a columnas de la matriz ´ de dise˜ o X ortogonales a y. y debemos decidir con criterio estad´ ıstico qu´ e regresores deben ser incluidos. criterios de bondad de ajuste. o 12. Examinaremos en esta Secci´n el primer punto.

a o 3 Sigue a Haitovsky (1969).2. etc. el o 2 producto de ambos puede crecer o decrecer al crecer p. o como pone de manifiesto el siguiente teorema. o a Teorema 12. BIC. son ubicuas en la literatura estad´ ıstica. SELECCION DE MODELOS. FPE. Aunque util. empleamos o e a (Secci´n 7. o N −1 N −p 2 Se define el coeficiente de determinaci´n corregido as´ o ı: 2 Rp = 1 − [1 − Rp ] × 2 (12.1 El estad´ ıstico Rp crece con la introducci´n de un par´metro en la ecuaci´n de regresi´n si el estad´ o o ıstico Qh asociado al contraste de significaci´n de dicho par´metro verifica Qh > 1. Maximizaci´n de Rp . o a ´ Demostracion:3 Para contrastar la significaci´n del (p + 1)-´simo par´metro.5) 2 2 2 (Rp+1 − Rp ) N − p − 1 = × 2 1 − Rp+1 1 2 Expresiones como la anterior con un t´rmino funci´n de la suma de cuadrados de e o los residuos y otro interpretable como “penalizaci´n” por la introducci´n de par´metros o o a adicionales. veremos sin embargo que debe complementarse con otros criterios.1) en la forma: o 2 1 − Rp = [1 − Rp ] × 2 N −1 N −p SSEp N − 1 = × SST N −p (12. La Cp de Mallows que se examina m´s a abajo tiene la misma forma. p´g.3) es mon´tono e o no creciente con p. Por consiguiente.1.3) vemos que mientras que el primer t´rmino de la derecha de (13. Si reescribimos la ecuaci´n (13.1) haciendo referencia el sub´ ındice p al n´mero de regresores presentes en el u modelo.188 ´ CAP´ ITULO 12. 2 ´ Es frecuente por ello utilizar Rp como criterio de ajuste. como muchos criterios de ajuste utilizados sobre todo en el an´lisis de series temporales: Criterio de Informaci´n de Akaike (AIC). 77): o a Qh = SSEp − SSEp+1 N − p − 1 × SSEp+1 1 (12.1.4) (12. 12. Su exclusiva aplicaci´n da lugar con gran probabilidad a modelos sobreparametrizados. . el segundo es mon´tono creciente.2) (12.

Consecuentemente.11) Sustituyendo en esta expresi´n (13.6) (12.14) N −1 N − p − 1 + Qh N −p 2 N −1 = 1 − [1 − Rp ] N − p N − p − 1 + Qh 2 = 1 − [1 − Rp ] Rp 2 2 2 t Es evidente de (13.14). pero esto ocurre con probabilidad ≈ 0. de donde: 2 2 2 (1 − Rp+1 )Qh = (Rp+1 − Rp )(N − p − 1) 189 (12.14) que Rp+1 ≥ Rp si Qh > 1. Si Qh > 1. t es menor que 1 y.12) (12.9) (12. Obs´rvese que si el t´rmino t en (13.7) 2 2 Qh + (N − p − 1)Rp = Rp+1 [(N − p − 1) + Qh ] 2 Despejando Rp+1 tenemos: 2 Qh + (N − p − 1)Rp (N − p − 1) + Qh 1 2 Q + Rp N −p−1 h 1 1 + N −p−1 Qh 2 2 Rp+1 = (12.10) llegamos a: o Rp+1 = 1 − 2 2 [1 − Rp ] N −p−1+Qh N −p−1 × N −1 N −p−1 (12.10) = De (13. el resultado es mayor que Rp . como s´lo ıa o multiplica al sustraendo en (13.13) (12.10) y de la definici´n de Rp+1 se deduce que: o 2 Rp+1 = 1 − [1 − Rp+1 ] × 2 N −1 (N − p − 1) (12.50 incluso cuando h : βi = 0 es cierta.14) fuera la unidad —lo que acontece cuando e e 2 Qh = 1—. el emplear este criterio en exclusiva conducir´ con gran probabilidad al ajuste de modelos ıa sobreparametrizados. 2 4 2 . y viceversa4 .´ 12. CRITERIOS PARA LA COMPARACION. Maximizar o o Rp implica introducir en la ecuaci´n de regresi´n todos aquellos regresores cuyo estad´ ıstico Qh sea superior a la unidad.1. el lado derecho ser´ precisamente Rp .8) 2 2 2 Qh − Qh Rp+1 = (N − p − 1)Rp+1 − (N − p − 1)Rp (12.

18) ′ ˆ ˆ ˆ ˆ ˜ ˜′˜ ˜′˜ ˜′˜ ˜′ ((Y (p) − E(Y (p) )) ((Y (p) − E(Y (p) )) = ǫ X(X X)−1 X X(X X)−1 X ǫ ˜ ˜′˜ ˜′ = ǫ X(X X)−1 X ǫ ∼ σ 2 χ2 . N (12. Un criterio para evaluar la adecuaci´n del suministra las predicciones Y o modelo estimado al real.16) (12. no obstante lo cual ajustamos el modelo ˜˜ equivocado Y = X β + ǫ con p par´metros.20) . p Falta el t´rmino de sesgo.17) (12.15) ˆ que sumando y restando E(Y (p) ) dentro de cada par´ntesis podemos descome poner as´ ı: ′ ˆ ˆ ˆ ˆ ECM = E (Y (p) − E(Y (p) )) (Y (p) − E(Y (p) )) ˆ ˆ +E (E(Y (p) ) − X β ) (E(Y (p) ) − X β ) ˆ = Var(Y (p) ) + (Sesgo)2 . 12. dicho modelo a ˆ (p) .19) ′ ˜ ˜′˜ ˜′ ˜ ˜′˜ ˜′ ˆ ˆ E[(Y − Y (p) ) (Y − Y (p) )] = E (X β − X(X X)−1 X X β ) (X β − X(X X)−1 X X β ) SSE (Sesgo)2 ′ + Por consiguiente. Criterio Cp de Mallows.1. ser´ el error cuadr´tico medio ıa a ′ ˆ ˆ ECM = E(Y (p) − X β ) (Y (p) − X β ) (12. tenemos que ˆ ˜ ˜′˜ ˜′ E[Y (p) ] = X(X X)−1 X X β y ′ (12. SELECCION DE MODELOS. Supongamos que la variable aleatoria Y se genera realmente como prescribe el modelo Y = X β + ǫ . Una vez estimado. Como e ˆ ˜ ˜′˜ ˜′ ˜ ˜′˜ ˜′ Y (p) = X(X X)−1 X Y = X(X X)−1 X (X β + ǫ ). Observemos que e (12. ˜ ˜′˜ ˜′ E ǫ ′ (I − X(X X)−1 X )ǫ .190 ´ CAP´ ITULO 12.2. El primer t´rmino no ofrece dificultad. (Sesgo)2 = E[SSE] − E[σ 2 χ2 −p ].

21) (12. y por consiguiente: ECM SSE =E − N + 2p. a La comparaci´n es aproximada tan s´lo.25) es otro ejemplo de criterio de ajuste con o penalizaci´n.25) en 2. o a Cp = SSE + 2p.24) ya que N es constante. el precio que se paga por emplear m´s par´metros ˆ a a de los debidos en la estimaci´n de σ 2 es una reducci´n en el n´mero de grados o o u de libertad (v´ase Secci´n 6. El criterio Cp de Mallows ˆ es m´s restrictivo5 . Como quiera que el valor medio en la expresi´n o anterior no puede ser calculado y σ es desconocida. dos veces σ ˆ o p en cambio. σ2 ˆ (12. todo lo que podemos hacer es reemplazar (13. La maximizaci´n de R2 .2). t´ ıpicamente. o a a pero esta reducci´n tiene un precio: el incremento del segundo sumando de o (13.1 De acuerdo con el criterio Cp de Mallows. e o De acuerdo con el criterio de Mallows. El efecto neto indica si el nuevo regresor es o no deseable.17) tenemos entonces que ECM = E SSE − σ 2 χ2 −p + E σ 2 χ2 N p = E[SSE] − σ (N − p) + σ p. reduce quiz´ SSE.24) por la expresi´n an´loga. reduciendo SSE en. al menos. Observaci´n 12. El valor de σ 2 que se emplea en el criterio Cp o o ˆ se obtiene. 2 σ σ2 Minimizar esta ultima expresi´n es lo mismo que minimizar ´ o E SSE + 2p. estando entre los (p + k) regresores inclu´ ıdos los p necesarios. Cada nuevo par´metro que introducimos. ´ o Para que se verifique la aproximaci´n en (13. ajustando el modelo m´s parametrizado (esto minimiza el riesgo de a 5 . o o introduciremos un nuevo regresor si ´ste puede “pagar” su inclusi´n e o 2 . σ 2 es insesgado.1.´ 12. lo que se consigue si la muestra es lo suficientemente grande y σ 2 = ˆ (N −p−k) SSE /(N − p − k). requerir´ en an´loga situaci´n introducir el mismo regresor ıa a o si disminuye SSE en al menos una vez σ 2 . CRITERIOS PARA LA COMPARACION. o dada una ecuaci´n de regresi´n con unos ciertos regresores presentes.25) A esta ultima expresi´n se la conoce como Cp de Mallows.25) es preciso que σ 2 ≈ o ˆ 2 σ .23) (12. La expresi´n (13. seleccionaremos el modelo que minimice Cp . σ2 2 2 191 (12. Incluso aunque entre dichos (p + k) regresores haya algunos innecesarios. Sustituyendo en (13.22) (12.

Es un hecho notable y llamativo que por diversas v´ se llegue siempre a an´logos resultados. argumentos alternativos llevan a criterios equivalentes o similares al Cp . θ ) + 2p θ El primer t´rmino en la expresi´n anterior es. ambos criterios pueden diferir. est´ el criterio AIC (Akaike’s a a Information Criterion. 185). el segundo penaliza el n´mero de par´metros en θ . SELECCION DE MODELOS. Una o explicaci´n simplificada que sigue esencialmente a de Leeuw (2000) puede o encontrarse en Tusell (2003). e o una medida de bondad de ajuste (disminuye al crecer el m´ximo de la veroa similitud). al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (13. es decir.4).5. Por el contrario. ¿Hasta d´nde procede llevar la complejidad o del modelo a emplear? ¿Qu´ mejora en el ajuste de un modelo a la e muestra justifica la adici´n de un nuevo par´metro?. aunque v´lido de modo mucho a m´s general y motivado de modo muy diferente. Secci´n ??. o a ¿Cu´n afilada debe ser la navaja de Ockham? En el caso del modelo de a regresi´n lineal.192 ´ CAP´ ITULO 12. si la disminuci´n SSEp − SSEp+1 en la suma o de cuadrados de los residuos es mayor que σ 2 = SSEp+1 /(N − p − 1). m´s sobre u a a esto en la Secci´n 13.4 se introduce la idea o o de la validaci´n cruzada. varianza estimada ˆ en el modelo con p + 1 regresores. como en la Cp de Mallows. el uso o de los criterios AIC y Cp dar´ resultados exactamente equivalentes si conoci´ıa e 2 ramos σ (ambos criterios difieren en tal caso en una constante.3. o An Information Criterion). pero son a efectos pr´ca ticos intercambiables.1. En la Secci´n 13. si se prefiere. Puede verse u a una justificaci´n en Akaike (1972) (y en Akaike (1974). ver Venables and Ripley (1999a). El criterio AIC no obstante es de ´mbito mucho m´s a a introducir sesgos en la estimaci´n de σ 2 . Cuando σ 2 es desconocida y ha de ser estimada a a partir de los datos. p´g.2 Un estad´ o ıstico se enfrenta con frecuencia a este dilema en su trabajo. que tienen en com´ n el ıas a u medir la complejidad del modelo empleado como una funci´n lineal o o aproximadamente lineal del n´ mero de sus par´metros. Consiste en seleccionar el modelo minimizando a AIC(p) = −2 loge m´x verosimilitud(x . Akaike (1991)).1. Observaci´n 12. o u a 12. . el criterio Cp suministra seguramente una navaja con o el filo adecuado. o Cuando consideremos modelos de regresi´n lineal con normalidad. Criterio AIC Relacionado con el criterio Cp de Mallows. que proporciona una forma alternativa de o evaluar la bondad de ajuste de un modelo soslayando el empleo de una penalizaci´n basada en el n´ mero de par´metros.1. O. aunque seguramente nos hace despilfarrar algunos o 2 grados de libertad).

1 Consideremos una muestra de tama˜ o N = 100. de tama˜ os respectivos NA = NB = 50. K. CRITERIOS PARA LA COMPARACION. Lamentablemente. podemos emplear todas las observaciones en reestimarlo.4. o 12. La idea de la validaci´n cruzada incorpora una mejora adicional al plano teamiento anterior. R . . El obtener un diagn´stico realista por este procedimiento requiere sacrificar en aras de o la validaci´n una preciosa fracci´n de muestra que habr´ permitido. y proceder as´ n ı: 1. i = 1. o o ıa a estimar mejor. . Podemos dividir la muestra en dos (o m´s) partes y a emplear todas ellas en la validaci´n. posiblemente o con diferente n´ mero de par´metros. de entre los que queremos seu a leccionar uno. u a El problema consiste en que. el u a modelo puede “seguir” m´s a la muestra. . y puede ser utilizado dondequiera que tengamos una verosimilitud. n Tenemos una colecci´n de K modelos Mi . a Una soluci´n consistir´ en estimar los modelos con una muestra (muestra o ıa de entrenamiento o aprendizaje) y evaluarlos examinando su comportamiento en la predicci´n de otra diferente (muestra de validaci´n). pero quiz´ no a otras. sea o no normal la distribuci´n generadora de la muestra.1. o similar) estriba en que hay que tomar en consideraci´n el o diferente n´mero de par´metros en cada modelo. Actuando as´ o o ı. estar´ ıamos a salvo de impresiones excesivamente optimistas: la suma de cuadrados de los residuos o R2 que calcul´ramos para cada modelo reflejar´ a ıa su capacidad de generalizaci´n: su comportamiento con otras observaciones o distintas de las que han servido para estimarlo. El ejemplo que sigue detalla los pasos a o seguir haciendo validaci´n cruzada por mitades. Podemos dividir la muestra en dos trozos. una vez que hemos decidido por el procediı? miento anterior de fraccionar la muestra en dos para seleccionar el modelo mejor. ajustando no s´lo el comportamiento a o predecible sino incluso el puramente aleatorio Se adapta muy bien a una muestra —la que hemos empleado para estimarlo—.1. 193 general. ¿Realmente es esto as´ No. quiz´.´ 12. o Ejemplo 12. . Residuos borrados y validaci´n cruzada o Hemos visto que el problema de emplear como criterio para la selecci´n o de modelos alguno de los estad´ ısticos de ajuste obvios (suma de cuadrados 2 residual. No tenemos necesariamente que usar s´lo una fracci´n de o o la muestra para validar. Con la muestra A estimaremos cada uno de los modelos Mi . esto requiere dividir nuestra disponibilidad de observaciones en dos grupos: uno para estimar y otro para validar. . al incrementar el n´mero de par´metros. A y B.

4). SSEi = 2 (SSEi + SSEi ). y proceder exactamente del mismo modo: utilizar´ ıamos sucesivamente s − 1 partes para estimar y la res(ℓ) tante para evaluar SSEi . s. o a o e o utilizando la notaci´n de dicha Secci´n. SSEi . 4. N ) N ℓ SSEi . (suma de cuadrados de los residuos al predecir en la muestra ℓ mediante el modelo Mi estimado (ℓ) con las restantes observaciones). Tanto SSEi como SSEi son estimaciones de las sumas de cuadrados de los residuos del modelo Mi . SSEi 5. Observemos que nada nos constri˜ e a dividir la muestra en dos parn tes. Examinaremos el ajuste de los modelos as´ estimados a la muesı tra B.1. . . v´ase nota a pie de p´gina de la Secci´n 12. . n N´tese que SSEi es lo que se conoce tambi´n como suma de cuadrados de los residuos o e predictiva o PRESS. En muchas situaciones esta estrategia puede requerir un esfuerzo de c´lculo formidable: ¡cada modelo ha de ser reestimado (N −1) veces. 3. de c´moda y r´pida obtenci´n (v´ase Secci´n 12. ℓ=1 SSEi = N −1 El modelo seleccionado es aqu´l al que corresponde un SSEi m´s e a peque˜ o6 . simplemente. . SELECCION DE MODELOS. ℓ = 1. Con la muestra B estimaremos cada uno de los modelos Mi . e a o 6 . . Examinaremos el ajuste de los modelos as´ estimados a la muesı tra A. El caso extremo consistir´ en tomar s = N . computando sumas de cuadrados residuales para cada uno (B) de los modelos.1. Promediando los s valores SSEi obtendr´ ıamos el SSEi del modelo Mi . podr´ ıamos dividirla en s partes. . 2. 6. Podemos promediar ambas para obtener un o (A) (B) 1 unico estad´ ´ ıstico. . . Seleccionaremos el modelo Mi tal que SSEi es m´ ınimo. cuando se utiliza en predicci´n sobre una muestra diferente de la que se ha empleado o en su estimaci´n.4. Por tanto. a dejando cada vez fuera de la muestra de estimacion una observaci´n o diferente! En regresi´n lineal. la diferencia entre la preo dicci´n de la observaci´n i-´sima haciendo uso de todas las restantes o o e y el valor observado de la misma es. el residuo borrado. sin embargo.194 ´ CAP´ ITULO 12. o o ℓ SSEi = d2 ℓ (A) (B) (ℓ = 1. y realizar el proceso ıa dejando cada vez fuera una unica observaci´n (validaci´n cruzada de ´ o o tipo leave one out). computando sumas de cuadrados residuales para cada uno (A) de los modelos.

. un modelo que o no incluya los par´metros suficientes dara un ajuste susceptible de mejora. Complejidad estoc´stica y longitud de descripa ci´n m´ o ınima∗ En esencia. y podemos para ello hacer uso de la Teor´ de la Informaci´n. a Se trata de alcanzar un equilibrio entre los dos objetivos en contradicci´n: o un modelo dando buen ajuste y con los m´ ınimos par´metros precisos. es la que o u hace que al codificar en el alfabeto telegr´fico de Morse la letra “e” a (muy frecuente en ingl´s) se adoptara el c´digo . u a Sabemos que un modelo lineal suficientemente parametrizado podr´ ajustar ıa perfectamente la muestra. medida por el n´mero de sus par´metros.5. Adem´s de codificar los datos tenemos que codificar los par´metros del moa a delo probabilistico.1.3 Esta estrategia. 195 Fin del ejemplo 12. dado o un modelo probabilistico podemos describir o codificar unos datos de modo compacto asignando a los m´s “raros” (menos probables) los c´digos m´s a o a largos.´ 12. CRITERIOS PARA LA COMPARACION.27) o .. ıa o No podemos elaborar esta cuesti´n con detalle aqu´ (v´ase una buena ino ı e troducci´n en Rissanen (1989). reservando los c´e o o digos m´s largos para caracteres menos frecuentes (ej: -. En esencia. de sentido com´ n.1. u La aproximaci´n propuesta exige medir la longitud de la descripci´n que o o hagamos. pero que ello no significa que sea id´neo: puede o tener muy poca capacidad de generalizaci´n. (12. Esto puede de nuevo verse como una apelaci´n al principio de o Ockham: construir “explicaciones” de la realidad que hacen uso del m´ ınimo n´mero de entidades. a Una aproximaci´n intuitivamente atrayente al problema es la siguiente: o tratemos de dar una descripci´n tan corta como sea posible de la evidencia o (la muestra). La longitud total de descripci´n de la muestra y cuando o hacemos uso del modelo probabil´ ıstico Mk haciendo uso del vector de par´a metros θ k es entonces MDL(Mk .26) (C´digo necesario para θ k ). Por el contrario.. seleccionar un modelo entra˜a adoptar un compromiso entre la n bondad de ajuste y la complejidad. y detalles en Legg (1996)).para la a “x”). y ) = (C´digo necesario para y ) o + (12. Observaci´n 12.

2. es claro que Xi no mostrar´ sus buenas condiciones como a regresor mas que si es introducida con Xj ausente. a Pi´nsese que con p regresores pueden estimarse 2p − 1 diferentes regresiones. a 12. esta estrategia no tiene en o cuenta el hecho de que.196 ´ CAP´ ITULO 12. Un mal ajuste har´ que el primer sumando sea grande. formar todos los posibles o ıa. Cp . . Rp . Una posible soluci´n ser´ dados p regresores. a El criterio MDL propone seleccionar el modelo Mk que minimiza (13. la adopci´n de una estrategia ingenua a o podr´ dificultar el hallazgo de un modelo adecuado. subconjuntos de regresores y efectuar todas las posibles regresiones. y retener como regresores todas aquellas variables que dieran lugar a una reducci´n significativa. pero requerir´ quiz´ muchos ıan ıa a par´metros incrementando el segundo sumando. o e Si esto ocurre. pero si p = 10. la reducci´n en SSE originada por la inclusi´n de una o o variable depende de qu´ otras variables est´n ya presentes en la ecuaci´n e e o ajustada. Cap. de acuerdo con el criterio de bondad de ajuste que hayamos e adoptado. reteniendo aqu´lla que. y para p > 20 habr´ que ıa . Un modelo con un perfecto ajuste ıan tendr´ un primer sumando nulo (porque las y se deducir´ exactamente ıa ıan del modelo. SELECCION DE MODELOS. De acuerdo con el p´rrafo anterior.27). el criterio MDL da resultados ´ o ıntimamente emparentados asint´ticamente con los precedentes (suma de cuadrados o PRESS y Cp ). puede bien ıa suceder que una variable Xi . El inconveniente es el gran volumen de c´lculo que es preciso realizar. e Si p = 5.1. Relacionamos a algunos de los m´s utilizados. y no requerir´ ser codificadas). 5. . Desgraciadamente. Por ejemplo. que debiera ser inclu´ en el modelo. ) originada por la introducci´n de cada o variable. 2p − 1 = 31. los datos muestrales se a desv´ mucho de lo que el modelo predice. emplear procedimientos m´s sofisticados. Se impone. Regresi´n sobre todos los subconjuntos de vao riables. . parezca mejor. a menos que las columnas de la matriz de dise˜o n X sean ortogonales.2. e 12. v´anse detalles en Rissanen (1989). En el caso de modelos de regresi´n. 2p − 1 = 1023. pues. Selecci´n de variables. no origine ıda una reducci´n significativa de SSE cuando la introducimos despu´s de Xj . o Una aproximaci´n ingenua al problema consistir´ en estudiar la reducci´n o ıa o 2 en un cierto criterio (SSE.

mientras el incremento en SSE que dicha exclusi´n o origine no sea excesivo.2. El procedimiento de regresion “hacia atr´s” procede de manera an´loga. o Si. Describiremos el procedimiento de regresi´n escalonada “hacia o adelante” (forward selection procedure). aunque no garantiza obtener la mejor ecuaci´n de regresi´n. 349 y ss. a a pero se comienza con una ecuaci´n que incluye todos los regresores. la regresi´n escalonada “hacia atr´s” o a (backward elimination) o mixta son variantes f´ciles de entender. y se van o excluyendo de uno en uno. por orden de mayor contribuci´n a disminuir SSE. se alterna la inclusi´n y exclusi´n de variables en la recta de regresi´n. pero a´n as´ ´ste puede resultar excesivo. suministra modelos que habitualmente o o son ´ptimos o muy pr´ximos al ´ptimo. que o o incluye algunas variables (regresores incluidos) y no otras (regresores ausentes). a En suma. 197 realizar por encima de un mill´n de regresiones. tendremos una ecuaci´n de regresi´n provisional. por el contrario. Sea Q∗ el m´ximo estad´ a ıstico de los calculados en 1). la ecuaci´n provisional es la definitiva.´ 12. Q∗ ≥ F . pag. finalizar. Si no quedan regresores ausentes. En el procedimiento m´ ıxto. siendo h h F un umbral prefijado. Hay procedimientos para o 7 reducir y agilizar el c´lculo . SELECCION DE VARIABLES. se trata de introducir las variables de una en una. con muy poco trabajo por parte o o o del analista. El modo de operar es entonces el siguiente: u 1. En caso contrario. o Se trata de un procedimiento muy utilizado que. Si Q∗ < F . por fin. o o Los criterios de entrada y salida de variables se fijan especificando sendos valores Fentrada y Fsalida que deben ser superados (no alcanzados) por el Q∗ correspondiente para que una variable pueda ser incluida (excluida) h 7 V´ase Seber (1977). finalizar el procedimiento. reiniciar los c´lculos en 1). la ecuaci´n de regresi´n no incluye o o ning´n regresor.2. a u ıe 12. e . se introduce la variable correspondiente h en la ecuaci´n de regresi´n. o o 3. 2. Calcular los estad´ ısticos Qh para todos los regresores ausentes (h : βi = 0). a En cada momento.2. Al comienzo del procedimiento. y mientras la disminuci´n sea apreciao o ble. ello permite que o o o una variable incluida sea posteriormente desechada cuando la presencia de otra u otras hacen su contribuci´n a la reducci´n de SSE insignificante. Regresi´n escalonada (stepwise regression).

El mayor (o menor) de los estad´ ısticos Qh en cada etapa. SELECCION DE MODELOS. y comenzando con una a ecuaci´n de regresi´n que incluye todas las variables). obs´rvese que en ıan e un procedimiento stepwise se selecciona para entrar o salir de la ecuaci´n de regresi´n o o la variable con un Qh mayor (menor).as. Bajo la hip´tesis de nulidad del correspondiente o par´metro.lm(y ~ . en la regresi´n. o 8 .. Como puee de verse. R2 ´ C . stepAIC (en el paquete MASS) para hacer regrecriterios R o p si´n escalonada con criterio AIC y algunas otras funciones ancilares. con lo que se impide el abandono de cualquier variable introducida). data = datos) Residuals: Podr´ pensarse en fijar niveles de significaci´n para la entrada y salida de variables. o Orimero generamos datos sint´ticos del modo habitual. Mediante su seleco ci´n adecuada.matrix(rnorm(1000).198 ´ CAP´ ITULO 12. El nivel de significaci´n asociado al contraste impl´ o ıcito en la inclusi´n o exclusi´n de un regresor no es la probabilidad a la derecha (o izquierda) de o o Fentrada (o Fsalida ) en una distribuci´n F con grados de libertad apropiados. o un procedimiento o o mixto arbitrariamente pr´ximo a cualquiera de los dos extremos8 . o R: Ejemplo 12.X %*% betas + rnorm(50) datos <.frame(cbind(X. ıa o Esto no se hace porque ser´ considerablemente arduos de computar. ncol = 20) betas <. 7. hay muchos betas no significativos. y)) dimnames(datos)[[2]][21] <.seed(123457) X <. 12)] <. 5. 20) betas[c(3.data.rep(0.1 (selecci´n autom´tica de modelos) El ejemo a plo siguiente muestra el uso de las funciones leaps (en el paquete del mismo nombre) para hacer regresi´n sobre todos los subconjuntos con o 2 . “hacia atr´s” puro (fijando Fentrada muy grande. un Qh cualquiera se distribuye como una F de Snedecor con grados de libertad a apropiados. > > + > > > > + > > set. sigue una distribuci´n o diferente (v´ase Cap´ e ıtulo 9). puede lograrse un algoritmo “hacia adelante” puro (fijando o Fsalida = 0. hay muchos betas no significativos: > summary(completo) Call: lm(formula = y ~ .1:4 y <.. datos) Como puede verse. Ambos umbrales pueden ser el mismo."y" completo <.

51 V3 4.96 2.0408 0.1e-11 *** V6 1.87 V2 0.2227 V1 0.2.2212 V13 0.1720 0.0514 0.2422 V2 0.53 0.2328 V17 0.550 -0.2603 V3 1.2067 V5 2.2042 V12 4.2161 V14 -0.0035 0.0374 0.11 0.1972 V18 -0.01 0.1884 0. Error (Intercept) -0.24 V7 15.107 Max 2.19 0. Min 1Q Median -1.70 V9 0.9e-05 *** V4 -0.´ 12.17 0.0318 0.2633 0.3076 V16 0.2053 0.38 0.829 199 Coefficients: Estimate Std.9970 0.10 0.2217 V7 2.0162 0. SELECCION DE VARIABLES.2569 V20 0.0786 0.25 < 2e-16 *** V13 0.2367 0.916 -0.2163 V15 0.1206 0.0706 0.2108 V19 0.5e-16 *** V8 -0.2105 V10 -0.2804 V9 0.1949 t value Pr(>|t|) (Intercept) -0.2148 V11 -0.2022 V6 0.0191 0.75 V1 0.1875 V8 -0.1137 0.81 V10 -1.0879 0.1074 0.98 6.204 3Q 0.0238 0.91 V5 9.2397 V4 -0.32 0.66 0.24 0.2115 0.32 V12 18.28 V11 -1.91 8.60 .

1)) plot(mods$size. Adjusted R-squared: 0.95 0. width = 5. y = y. + method = "Cp") El objeto mods contiene informaci´n sobre todos los modelos estimao 2 u dos.200 ´ CAP´ ITULO 12. mods$Cp. ylab = expression(C[p])) mods.eps".1 ³ ³ 1 Residual standard error: 1.r <. Podemos ver como var´ Cp y R con el n´ mero de regresores: ıa > + + > > > + + + > + > + + + > > postscript(file = "demo10. main = "R2 versus talla modelos".71 0.leaps(x = X. main = "Cp versus talla modelos".05 ³. Con 15 regresores.off() .01 ³*³ 0.r$adjr2. method = "adjr2") plot(mods.2 on 29 degrees of freedom Multiple R-squared: 0.52 V17 0.98 V15 0.par() par(mfrow = c(2.961 F-statistic: 61 on 20 and 29 DF. y = y. ylab = expression(bar(R)^2)) par(opar) dev. xlab = expression(p).16 V18 -0. height = 9) opar <.08 --Signif.34 V20 0.93 0. xlab = expression(p). codes: 0 ³***³ 0. mods. horizontal = FALSE. p-value: <2e-16 Utilizamos ahora la funci´n leaps para hacer regresi´n sobre todos o o los subconjuntos.leaps(x = X.87 0.61 0.001 ³**³ 0. > library(leaps) > mods <.06 V16 0.977. SELECCION DE MODELOS.73 0.³ 0.37 V19 0.34 0. V14 -0. es un problema de talla modesta.r$size.

el 2 a criterio R tiende a seleccionar modelos m´s parametrizados. SELECCION DE VARIABLES. X11cairo 2 La Figura 13. aunque de forma no muy notoria en este caso.dimnames(datos)[[2]][1:20] Cp <. ] dimnames(regres)[[2]] <.´ 12. > > + > > > 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 201 mejores <. Cp) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 0 V11 V12 V13 V14 V15 V16 V17 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 .order(mods$Cp)[1:15] regres <.mods$Cp[mejores] cbind(regres.1 muestra el comportamiento t´ ıpico de los criterios Cp y 2 R .2.mods$which[mejores. Se aprecia que.

2 0.6 0.4 0.8 5 10 p 15 20 .0 0. 2 Figura 12. SELECCION DE MODELOS.0 R2 0.202 ´ CAP´ ITULO 12.1: Valores de Cp y R para 141 modelos ajustados a los datos UScrime Cp versus talla modelos 0 200 600 Cp 1000 5 10 p 15 20 R2 versus talla modelos 1.

550 0 0 0 -2. SELECCION DE VARIABLES.19721 V4 -0. 6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 0 1 0 0 0 1 1 0 1 0 0 1 1 0 0 V18 V19 V20 Cp 0 0 0 -4.18316 V3 1.122 Max 2.16766 V5 2. ~ + .548 0 0 0 -2.00741 0. data = datos) > mod2 <.03931 0.03573 0.update(mod1.16976 V7 3.213 0 0 0 -3.365 0 0 0 -2.476 0 0 0 -2.491 0 0 0 -3. data = datos) Residuals: Min 1Q Median -1.08674 0.455 0 0 0 -3. + V1 + V2) > summary(mod2) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V10 + V12 + V16 + V17 + V1 + V2.518 0 0 0 -2.335 0 0 0 1 0 0 203 > mod1 <.lm(y ~ V3 + V4 + + V5 + V7 + V10 + V12 + + V16 + V17.654 0 0 0 -2.611 -0. .150 0 1 0 -2.368 0 0 0 -2.14772 .237 3Q 0.2.453 0 0 0 -3.762 0.627 Coefficients: Estimate Std.405 0 0 0 -2.´ 12.05622 0. Error (Intercept) -0.225 0 0 0 -3.

27977 0. -0.7177 Coefficients: Estimate Std.V16 .18257 -0.22 < 2e-16 *** V16 0.³ 0.0289 -0.1596 V3 1.5e-06 *** V4 -0.V10 .00659 0.01 ³*³ 0. ~ + .V17) > summary(mod3) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V12.36 0.05185 0.97 --Signif.1567 V5 1. p-value: <2e-16 > mod3 <.10685 0.1819 V4 -0.38 V2 -0.72 V1 0.16370 0. .01 1.05 ³.0410 0.20 0.204 V10 V12 V16 V17 V1 V2 ´ CAP´ ITULO 12.58 V17 0.08436 0.973.001 ³**³ 0.51 2.5956 Median 0.6955 Max 2.69 < 2e-16 *** V10 -1.0539 3Q 0.1e-14 *** V7 20.15101 0.18483 0.19088 4.90 0. Adjusted R-squared: 0. codes: 0 ³***³ 0.47 0.20666 t value Pr(>|t|) (Intercept) -0.15 V12 22. Error (Intercept) 0.0738 0.03 0. .11 on 39 degrees of freedom Multiple R-squared: 0.04 0.update(mod1. data = datos) Residuals: Min 1Q -2.966 F-statistic: 141 on 10 and 39 DF.85 V3 5. SELECCION DE MODELOS.9898 0.0693 0.96 V5 12.56 0.1 ³ ³ 1 Residual standard error: 1.14567 0.1603 .

1357 0.1 ³ ³ 1 Residual standard error: 1.´ 12. method = "forward") 20 Variables (and intercept) Forced in Forced out V1 FALSE FALSE V2 FALSE FALSE V3 FALSE FALSE V4 FALSE FALSE V5 FALSE FALSE V6 FALSE FALSE V7 FALSE FALSE V8 FALSE FALSE V9 FALSE FALSE V10 FALSE FALSE V11 FALSE FALSE V12 FALSE FALSE V13 FALSE FALSE V14 FALSE FALSE V15 FALSE FALSE V16 FALSE FALSE V17 FALSE FALSE V18 FALSE FALSE V19 FALSE FALSE V20 FALSE FALSE .26 0.967 F-statistic: 293 on 5 and 44 DF.1642 t value Pr(>|t|) (Intercept) 0.. V7 V12 205 3.7e-16 *** V7 21.³ 0.1400 4.77 < 2e-16 *** V12 25. datos.19 < 2e-16 *** --Signif.65 V3 5.formula(y ~ .46 0.41 5. datos.1e-07 *** V4 -0.09 on 44 degrees of freedom Multiple R-squared: 0. Adjusted R-squared: 0.88 5.05 ³. p-value: <2e-16 > m <.001 ³**³ 0.79 V5 12. codes: 0 ³***³ 0.0484 0.971.01 ³*³ 0. SELECCION DE VARIABLES..regsubsets(y ~ . + method = "forward") > summary(m) Subset selection object Call: regsubsets.2.

+ trace = FALSE) > summary(step) . direction = "both". 1 subsets of each size up to Selection Algorithm: forward V1 V2 V3 V4 V5 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " "*" 4 ( 1 ) " " " " "*" " " "*" 5 ( 1 ) " " " " "*" " " "*" 6 ( 1 ) " " " " "*" " " "*" 7 ( 1 ) " " " " "*" " " "*" 8 ( 1 ) " " " " "*" " " "*" V7 V8 V9 V10 V11 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) "*" " " " " " " " " 3 ( 1 ) "*" " " " " " " " " 4 ( 1 ) "*" " " " " " " " " 5 ( 1 ) "*" " " " " " " " " 6 ( 1 ) "*" " " " " " " " " 7 ( 1 ) "*" " " " " "*" " " 8 ( 1 ) "*" " " " " "*" " " V13 V14 V15 V16 V17 1 ( 1 ) " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " 3 ( 1 ) " " " " " " " " " " 4 ( 1 ) " " " " " " " " " " 5 ( 1 ) " " " " " " " " " " 6 ( 1 ) " " "*" " " " " " " 7 ( 1 ) " " "*" " " " " " " 8 ( 1 ) " " "*" " " " " " " V19 V20 1 ( 1 ) " " " " 2 ( 1 ) " " " " 3 ( 1 ) " " " " 4 ( 1 ) " " " " 5 ( 1 ) " " " " 6 ( 1 ) " " " " 7 ( 1 ) " " " " 8 ( 1 ) "*" " " 8 V6 " " " " " " " " "*" "*" "*" "*" V12 "*" "*" "*" "*" "*" "*" "*" "*" V18 " " " " " " " " " " " " " " " " > library(MASS) > step <. SELECCION DE MODELOS.206 ´ CAP´ ITULO 12.stepAIC(completo.. + scope = y ~ .

1761 V5 2.1077 0.1603 V7 3.34 0. V7 22.1e-07 *** V5 13.0514 0.6503 -0.0256 0.1346 V12 4. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 207 Call: lm(formula = y ~ V3 + V5 + V6 + V7 + V12.´ 12.1 ³ ³ 1 Residual standard error: 1.05 on 44 degrees of freedom Multiple R-squared: 0.9495 -0.1518 V3 1.3046 0.01 ³*³ 0.1557 V6 0.973. Error (Intercept) 0.0499 0.736 V3 5.5244 Coefficients: Estimate Std. codes: 0 ³***³ 0. Modelos bien estructurados jer´rquicaa mente La facilidad con que los algoritmos presentados en este Cap´ ıtulo producen modelos candidatos no debe hacer que el analista delegue demasiado en ellos.6196 3Q 0.90 0.97 F-statistic: 317 on 5 and 44 DF.3.064 .3.0499 0.0349 Max 2. data = datos) Residuals: Min 1Q Median -1.001 ³**³ 0.1585 t value Pr(>|t|) (Intercept) 0.05 ³.91 < 2e-16 *** --Signif. Adjusted R-squared: 0. p-value: <2e-16 Fin del ejemplo 12.82 6.³ 0. Un modelo ha de ser consistente con los conocimientos fiables que se tengan .17 < 2e-16 *** V6 1.65 < 2e-16 *** V12 25.

La conclusi´n que extraemos es que los t´rminos de orden superior deo e ben estar acompa˜ados de todos los t´rminos de orden inferior —es decir. en contrastar la hip´tesis h : a o β2 = 0—.28) reemplazamos X por Z = aX + b. obtenemos y = β0 + β1 (aX + b) + β2 (aX + b)2 + ǫ = (β0 + β1 b + β2 b2 ) + (β1 a + 2abβ2 )X + a2 β2 X 2 + ǫ ∗ ∗ ∗ = β0 + β1 X + β2 X 2 + ǫ. pero no de los inferiores. Prestemos o e algo de atenci´n a este ultimo requerimiento. habr´ coeficientes a. cicio 3. (12.208 ´ CAP´ ITULO 12. e a o de X con Y es lineal o cuadr´tica —es decir. 41). o ´ Imaginemos un modelo como el siguiente: y = β0 + β1 X + β2 X 2 + ǫ. La inclusi´n de un t´rmino en X 2 debe ir acompa˜ada de un t´rmino o e n e lineal y constante. en el Ejerıa. β2 = a2 β2 absorbiendo el cambio de escala en la X. porque el contraste tendr´ un resultado diferente dea ıa pendiendo de las unidades de medida. Es frecuentemente el caso que X se mide en unidades en que tanto la escala como el origen son arbitrarios (como ocurr´ por ejemplo. el contraste de la hip´tesis “efecto cuadr´tico de X sobre Y ”. Si en (13.28) o h : β2 = 0 a en (13. a Ello hace ver que: No tiene sentido contrastar efecto lineal en un modelo que incluye t´re mino cuadr´tico.—. e a La misma conclusi´n es de aplicaci´n a t´rminos recogiendo interacciones: o o e . p´g.29). deben tambi´n existir t´rminos cuadr´ticos y e u e e a lineales. si queremos que el modelo sea invariante frente a cambios en el origen y la escala.29) ∗ En este nuevo modelo.29). sean cuales ∗ fueren β1 y β2 . ∗ Es f´cil ver que es equivalente contrastar h : β2 = 0 en (13.28) En un caso as´ frecuentemente el inter´s se centrar´ en dilucidar si la relaci´n ı. (12. acerca del fen´meno bajo estudio. y ser´ inconveniente que el contraste de h dependiera del a ıa origen y de la escala empleadas. Debe ser tambi´n interpretable.10. no se altera por el cambio de unidades. SELECCION DE MODELOS. etc. si n e incluimos un t´rmino c´bico. Un modelo que cumpla con dicho requisito se dice que est´ a jer´rquicamente estructurado y en ´l podemos contrastar no nulidad del coea e ficiente del t´rmino jer´rquico de orden superior. Sin embargo. o a al menos. b anulando β1 = (β1 a+2abβ2 ) en (13. Lo menos que debemos esperar de nuestra inferencia es que sea invariante frente a cambios en las unidades de medida.

3. pero lo normal es lo contrario. un algoritmo puede eliminar del modelo de regresi´n un t´rmino jer´rquico inferior manteniendo o e a otro de orden superior. Si regresamos al Ejercicio 3.10 en que se arg¨´ la necesidad de utilizar un uıa t´rmino β0 veremos que se trata del mismo problema: necesitamos el t´rmino e e jer´rquico inferior (la constante) cuando incluimos X dado que las unidades y a el origen son arbitrarios. Xi y Xj son ambas marginales a Xi Xj . Es responsabilidad del analista garantizar que ello no ocurra. manteniendo la interpretabilidad de los par´metros en toda circunsa tancia. Dependiendo de los programas que se utilicen. MODELOS BIEN ESTRUCTURADOS JERARQUICAMENTE 209 si introducimos una variable compuesta como Xi Xj en el modelo. por ejemplo. No es imposible que un modelo sin β0 sea adecuado. Se suele decir que un modelo jer´rquicamente e a bien estructurado verifica restricciones de marginalidad y que. Xi y Xj deben tambi´n ser incluidas.´ 12. .

¿Qu´ e relaci´n existe entre ambos criterios? o 2 . hacia atr´s. al llegarse a o un modelo en el que no es posible mejorar el criterio elegido (Cp . es decir. Supongamos adem´s que el modelo B es el m´s parametrizado a a de los posibles (incluye todas las variables de que disponemos). 2. a Consideremos ahora dos posibles modelos A y B de regresi´n con o sumas de cuadrados de los residuos respectivamente SSEA y SSEB . Para escoger entre los modelos A y B podr´ ıamos adoptar uno de los siguientes criterios: 1. Complementos y ejercicios 12. Seleccionar el modelo B si su estad´ ıstico Cp es menor.N −(p+q) Qh = qˆ 2 σ siendo p el n´ mero de par´metros presentes en A y q el de los u a adicionales presentes en B. viendo que el o segundo es en general m´s restrictivo.210 ´ CAP´ ITULO 12. si: (SSEA − SSEB ) α > Fq. Puede perfectamente alcanzarse un ´ptimo local.1 Supongamos que hacemos regresi´n escalonada “hacia adeo lante”. pese a existir otro n modelo mejor en t´rminos de dicho criterio. a˜ adiendo (omitiendo) en cada momento el regresor que n parece con mayor (menor) capacidad explicativa de la variable respuesta. ¿Qu´ valor de Fentrada equivaldr´ a introducir regresores en el e ıa 2 modelo en tanto en cuanto incrementen Rp ? 12. El primer modelo utiliza s´lo un subconjunto de los regresores presentes o en el segundo (por tanto. 12.2 Las estrategias de regresi´n escalonada descritas (hacia o adelante. Seleccionar el modelo B si la disminuci´n en la suma de cuao drados respecto al modelo A es estad´ ısticamente significativa. ¿Mejoran nuestras expece tativas de encontrar el ´ptimo global mediante regresi´n escalonada o o cuando las columnas de la matriz X de regresores son ortogonales? Justif´ ıquese la respuesta. o mixta) exploran un subconjunto de los modea los posibles.3 En la Observaci´n 13.1 se comparan los criterios de seo lecci´n de modelos consistentes en maximizar Rp y Cp . SSEA ≥ SSEB ). o cualquier otro) a˜ adiendo u omitiendo regresores. SELECCION DE MODELOS.

v > verificando: < u .1 El rango y la traza de una matriz idempotente coinciden. w > (A. v > +β < u .3) (A. tal que a cada par de vectores u .1) (A.Ap´ndice A e Algunos resultados en Algebra Lineal. A. . αv + β w >= α < u . Teorema A. + u2 n 229 .1 En un espacio vectorial V llamamos producto interno a o una aplicaci´n de H × H −→ R (si es real-valorado) o en C (si es como pleto valorado). . La norma eucl´ o ıdea ||u || del vector u se √ 2 define como ||u || = + < u .1.2) (A. v >= < v . u >= 0 =⇒ u = 0 < u . v n ′ en R al definido as´ < u . u > < u .2 Llamamos producto interno eucl´ o ıdeo de dos n-eplas u . v >= u v . Definici´n A. u > = u1 + .1. Resultados varios sobre Algebra Matricial. u >≥ 0 ∀u ∈ H < u . v corresponde < u . Es f´cil comprobar que verifica las ı: a condiciones de la Definici´n A.4) Definici´n A.

||u ||||v || (A.8) (A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL.6) (A. la relaci´n anterior produce: o (D + zz ′ )−1 = D −1 − D −1 z(1 + z ′ D −1 z)−1 z ′ D −1 Teorema A. definimos o el coseno del ´ngulo que forman como a cos(α) = < u. Entonces.11) y similarmente para los dem´s bloques.3 Si A y D son sim´tricas y todas las inversas existen: e A B B′ D siendo E = D − B ′ A−1 B F = A−1 B ´ Demostracion: Basta efectuar la multiplicaci´n matricial correspondiente. En particular. o Un caso particular de inter´s se presenta cuando la matriz particionada e cuya inversa deseamos es del tipo: (X ′ X) X ′ Z Z ′X Z ′Z La aplicaci´n de (A. p´g. V´ase Seber (1977).5) Teorema A. p´g.3 Dados dos vectores u . a . 459.6) por (D + a c ′ ) se llega a la igualdad I = I. si a = c = z.9) (A.8) proporciona entonces para el bloque superior izquierdo: o A−1 + F E −1 F ′ −1 (A. 390 y Myers a e a (1990).7) = A−1 + F E −1 F ′ −F E −1 E −1 F ′ E −1 (A.2 (Sherman-Morrison-Woodbury) Sea D una matriz sim´trica e p × p y a .10) = (X ′ X)−1 + + (X ′ X)−1 X ′ Z[Z ′ Z − Z ′ X(X ′ X)−1 X ′ Z]−1 Z ′ X(X ′ X)−1 (A.´ 230 APENDICE A.c vectores p × 1. v en un espacio vectorial. Definici´n A.v > . (D + a c ′ )−1 = D −1 − D −1 a (1 + c ′ D −1 a )−1 c ′ D −1 ´ Demostracion: Multiplicando ambos lados de (A.

.   a1 ∂y  . o Definici´n A. . Searle (1982) y Magnus and Neudecker (1988).2. . . Entonces:   ∂y  ∂x1   ∂y    ∂y def  ∂x2  =  . e siendo a un vector de constantes. vector o o m × 1. xm ) = f (x ). C´lculo diferencial con notaci´n matria o cial Hay aqu´ s´lo una breve recopilaci´n de resultados utiles.. frecuente. . Haremos uso de las siguientes definiciones y notaci´n. M´s detalles y ı o o ´ a demostraciones en Abadir and Magnus (2005).4 Sea x un vector m × 1 e y una funci´n escalar de x : y = o o f (x1 .5 Sea y una funci´n vectorial (n × 1)–valorada de x .  ∂y ∂xm Si y = x ′ Ax siendo A una matriz cuadrada cualquiera. . ∂x am . .´ ´ A.  =  .  = a. Entonces:   ∂y1 ∂y2 ∂yn .2. de que A sea sim´trica. ∂x1   ∂x1 ∂x1  .  . . tenemos que: e ∂y ∂x = 2A ′ x (A.  ∂x  .. . Si y = a ′ x = a1 x1 + . + am xm . .  ∂y def  . . En el caso..12) Definici´n A. es inmediato comprobar que: ∂y ∂x = (A + A ′ )x .   . .  =    ∂x   ∂yn ∂y1 ∂y2 . . CALCULO DIFERENCIAL CON NOTACION MATRICIAL 231 A. ∂xm ∂xm ∂xm Hay algunos casos particulares de inter´s. .

14) . siendo A una matriz (n × m) de constantes. Se reproducen a continuaci´n algunos otros resultados utiles: o ´ ∂ loge |A| −1 = [A ′ ] ∂A ∂tr(BA−1 C) = −(A−1 CBA−1 ) ∂A (A.13) (A. si y = Ax . ALGUNOS RESULTADOS EN ALGEBRA LINEAL.´ 232 APENDICE A. ∂y ∂x = A ′.

. Sean Xi ∼ N(µi .n (δ) o F de Snedecor descentrada. la variable aleatoria m n nZ mV W = (B. la notaci´n que empleamos es congruente con las Tablas en ?? . σ 2 ).Ap´ndice B e Algunos prerrequisitos estad´ ısticos. si δ = 0 se tiene la χ2 habitual o centrada. . . . .2) sigue una distribuci´n Fm. . Distribuciones χ2 y F descentradas indep B. Si Z ∼ χ2 (δ) y V ∼ χ2 son ambas independientes. tendr´ o ıamos que 233 . con par´metro o a 2 de no centralidad δ. . o distribuci´n χ2 descentrada con o o n par´metro de no centralidad δ y n grados de libertad. Algunos textos definen a 1 a o δ 2 o 2 δ 2 como par´metro de no centralidad. Entonces. 1 n la variable aleatoria 2 2 X1 + . Si V siguiera una distribuci´n χn (γ). (i = 1 . n). Sea δ 2 = (µ2 +.1. + X n σ2 Z= (B.1) se dice que sigue una distribuci´n χ2 (δ). Claramente.+µ2 )/σ 2 .

B. Σβ ) ˆ ˆ I(β) −1 (B.n (δ). La F de Snedecor descentrada es una distribuci´n definida en el semieje o real positivo. si se dispone de tablas de la Fm. I(β) es la llamada matriz de informaci´n cuyo o o elemento gen´rico de lugar ij se define as´ e ı: ˆ I(β) = − ∂ 2 ℓ(β .5) ij o Una consecuencia de (B.4) ≈ ˆ En la expresi´n anterior. Siempre nos referiremos al primer tipo. equivaleno ˆ temente. El ap´ndice A.3)–(B.2.7) . Su moda o est´ tanto mas desplazada a la derecha cuanto mayor sea el par´metro de a a no centralidad. W ser´ una F de Snedecor doblemente descentrada.4 proporciona tablas que permiten calcular la poe tencia de los contrastes en an´lisis de varianza directamente. habitualmente denotaıa da como Fm. su logaritmo.3) (B. El examen del estad´ ıstico de contraste Qh introducido en la Secci´n 12 hace evidente que cuando la hip´tesis contrastada no es cierta. como ya se indic´. y ) o. y ).4) es que si Σβ es de dimensi´n p × p. ALGUNOS PRERREQUISITOS ESTAD´ ISTICOS.6) (B. cuya forma es similar a la de su hom´loga centrada. y ). En condiciones muy generales.234 ´ APENDICE B. ∂βi ∂βj (B. se tiene que para muestras grandes ˆ β Σβ ˆ asint ∼ N(β . la o o distribuci´n de Qh es descentrada. Sea β el vector que maximiza ℓ(β . γ). Ello permite. Estimaci´n m´ximo veros´ o a ımil Se realiza maximizando la funci´n de verosimilitud L(β . ′ (B. calcular o o con facilidad la potencia de cualquier contraste.n (δ. ℓ(β . ˆ p esto permite contrastar hip´tesis como H0 : β = β 0 utilizando como estad´ o ıstico ˆ ˆ (β − β 0 ) I(β 0 )(β − β 0 ) o alternativamente ′ ˆ ˆ ˆ (β − β 0 ) I(β)(β − β 0 ). prefijada una a alternativa. y ) . en que solo el numerador es descentrado. ˆ ′ ′ ˆ ˆ ˆ ˆ ˆ (β − β ) (Σβ )−1 (β − β ) ∼ (β − β ) I(β)(β − β ) ∼ χ2 .

Cap. . y ambos se conocen como o contrastes de Wald .10) Por lo tanto. Y ) es la funci´n de o verosimilitud y ˆ βh = arg m´x L(β . B.3. a β ∈M Entonces. en condiciones muy generales.´ B. que L(β . se verifica que bajo H0 .α . 3 y 4. a Cap. Contraste raz´n generalizada de verosio militudes Supongamos una hip´tesis nula H0 que prescribe para el vector de par´o a metros un subespacio h. (p−q) (B. (1995).9) ˆ βM = arg m´x L(β . pueden consultarse m´s detalles en Lehmann (1983). Supongamos.8) (B.10) con el cuantil χ2 (p−q). un contraste de la hip´tesis H0 puede obtenerse comparando el o estad´ ıstico en el lado izquierdo de (B.3. 6 o Garthwaite et al. finalmente. que no requieren que Y siga una distribuci´n particular. valores del estad´ ıstico mayores que dicho cualtil conducir´n al rechazo de la hip´tesis a o nula. Y ) a β ∈h (B. CONTRASTE RAZON GENERALIZADA DE VEROSIMILITUDES235 Asint´ticamente ambos contrastes son equivalentes. Y ) ∼ χ2 . Y ) ˆ L(βM . y dim(h) = q < p = dim(H). o −2 loge ˆ L(βh . Y ). Supongamos h es un subespacio de M.

ALGUNOS PRERREQUISITOS ESTAD´ ISTICOS. .236 ´ APENDICE B.

a D. e a a y la construcci´n en que se basa (la factorizaci´n QR). en su aproximaci´n m´s directa. Introducci´n o (X ′ X)β = X ′ Y La resoluci´n de las ecuaciones normales.2. o requiere. Dicho problema queda inalterado cuando realizamos una misma 245 . m´ ||Dx − c ||2 ın x Sea el problema. o D.1) Podemos ver el problema como el de encontrar la combinaci´n lineal de las o columnas de D que mejor aproxima c .1. Se detalla tambi´n o o e la correspondencia entre la notaci´n empleada y los resultados de algunas o funciones de S que hacen uso de dicha factorizaci´n. en t´rminos de norma de la dise crepancia. (D. Transformaciones ortogonales. Hay procedimientos mucho menos costosos desde el punto de vista del c´lculo que.Ap´ndice D e Procedimientos de c´lculo. adem´s. permiten en algunos casos a a intuiciones interesantes y demostraciones de gran simplicidad. En lo que sigue se presenta uno de los m´todos de c´lculo m´s utilizados. la obtenci´n de la inversa (ordio a o ′ naria o generalizada) de (X X).

o triangular inferior. (ii) R es n × m de la forma. Teorema D. o D = HRK ′ . obteniendo diferentes descomposiciones de D. Definici´n D. admitiendo la descomposici´n ortogonal. En efecto. Podemos tambi´n requerir o e que R sea triangular superior. transformaci´n ortogonal de las columnas de D y del vector c . tenemos la descomposici´n en valores singulares.1 Sea D una matriz de orden n × m y rango k. Supongamos que puede o expresarse del siguiente modo: D = HRK ′ en que: (i) H es n × n y ortogonal. (iii) K es m × m ortogonal.2) . dependiendo de a o la estructura que quiera imponerse a R. La elecci´n de una descomposici´n ortogonal adecuada simplifica enormeo o mente la soluci´n de (D.1). Se dice que HRK ′ es una descomposici´n ortogonal de D. Q(Dx − c ) > ın ın x x = m´ (Dx − c ) ′ Q ′ Q(Dx − c ) ın x = m´ ||Dx − c ||2 ın x al ser Q ortogonal. Los resultados fundamentales vienen recogidos o en el siguiente teorema. hay m´s de una descomposici´n ortogonal.1 Sea D una matriz de orden n × m. o m´ ||Q(Dx − c )||2 = m´ < Q(Dx − c ). n). o En general. R11 0 0 0 con R11 cuadrada de rango completo k ≤ m´ ın(m. Si requerimos que R sea diagonal.246 ´ ´ APENDICE D. (D. PROCEDIMIENTOS DE CALCULO.

todas las posibles soluciones del problema (D.D.3) son de la forma x = K γ1 ˜ . Cualquiera de esas soluciones da lugar al vector de residuos r = y − Dx = H 0 g2 y en consecuencia.6) .5) σ = (D. Teorema D. Sea el problema m´ ||Dx − y ||2 ın x 247 (D.2 Sea v cualquier vector m×1 distinto de 0 .2. . Existe una matriz ortogonal P m × m tal que: Pv siendo   1 0   = . Existe un resultado interesante que muestra c´mo es posible encontrar una o transformaci´n ortogonal que rota (y quiz´ refleja) un vector v hasta abatirlo o a sobre el subespacio generado por otro. H ′y = g = g1 g2 γ1 γ2 k n−k k . ||r || = ||g 2 ||. = −σ||v ||e1 (D. Se denomina transformaci´n de o Householder. 0 +1 si v1 ≥ 0 −1 si v1 < 0. ˜ Entonces.4) e1 (D. ˜ o u R11 γ1 = g 1 . m−k K ′x = γ = Sea γ1 la soluci´n (´nica) del sistema. TRANSFORMACIONES ORTOGONALES. e1 . γ2 con γ2 arbitrario. . y se obtiene de manera muy c´moda y simple como muestra el o teorema siguiente.3) y definamos.

12) (D.8) (D. 2 (D. o uu ′ P = I −2 ||u ||2 con u = v + σ||v ||e1 . ´ Demostracion: Entonces (ver Figura D.13) (D.248 ´ ´ APENDICE D.7) (D. o o v u = v + ||v ||e1 −σ||v ||e1 e1 ||v ||e1 (u − 2u||u ||2v ) ′ Esta matriz tiene por expresi´n. u = v + σ||v ||e1 z = v − σ||v ||e1 1 son ortogonales y v = 2 u + 1 z . Figura D.1: Visualizaci´n de la transformaci´n de Householder.11) (D.14) . PROCEDIMIENTOS DE CALCULO.10) (D.1). Tenemos en consecuencia.9) Pv = = = = = uu ′ 1 1 I −2 u+ z 2 ||u || 2 2 1 1 u −u + z 2 2 1 1 − u +v − u 2 2 v −u −σ||v ||e1 (D.

Es decir. Existe siempre una matriz ortogonal Q de orden (N × N) y una matriz R trapezoidal superior verificando: X = QR Esquem´ticamente.15) N = d ´ Demostracion: d N −d d La prueba es constructiva. Existe una transformaci´n de Householder. Los restantes. Sea x1 la primera o de dichas columnas.´ D.3 Sea una matriz X de orden (N × p) y rango d ≤ m´ ın(N. a X Q R (D.3. 249 D. y reposa en la aplicaci´n reiterada de la transo formaci´n de Householder a las columna de la matriz X. o Teorema D. p). que puede tambien abatirse sobre el primer vector e1 de la base . pueden verse como un vector en RN −1 . Factorizaci´n QR. de matriz oro togonal P1 que abate dicha primera columna sobre el e1 de la base can´nica o n de R .3. y consideremos su segunda columna ı eliminado su primer elemento. FACTORIZACION QR. P1 X = Llamemos X1 a la matriz as´ obtenida.

la factorizaci´n QR a e o arroja luz sobre. al margen y adem´s de su utilidad como procedimiento num´rico.16) reduce la matriz X de la forma que esquem´ticamente se muestra a contia nuaci´n: o 1 0 P1 X = ∗ 0 P2 ′ Por consiguiente.1). a necesariamente las ultimas N − d filas de R son de ceros.4. y con abundantes referencias a la literatura m´s reciente puea de encontrarse en Goodhall (1993). Una referencia fune o o damental que contin´a vigente es Lawson and Hanson (1974). . ´ En definitiva. Q ′ X = R y por tanto X = QR. D. 1 0 ∗ 0 P2 ′ P1 (D. y simplifica la demostraci´n de. can´nica de dicho subespacio multiplicando por una matriz de Householder o ∗ P2 . Casi cualquier texto de C´lculo o a Num´rico contiene una discusi´n de la factorizaci´n QR. Como tanto P1 como P2 son ortogonales. como el rango de X era d. Adem´s. . Entonces. Ansley (1985) muestra como. si llamamos P2 = 1 0 ∗ 0 P2 ′ el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Bibliograf´ ıa Hay abundante literatura sobre la factorizaci´n QR y procedimientos sio milares de aplicaci´n al problema (D. PROCEDIMIENTOS DE CALCULO. P1 que deja X con sus d primeras columnas “escalonadas”. e F´cilmente se comprueba que el proceso puede continuarse hasta obtener a un producto de matrices ortogonales Q ′ = Pd Pd−1 . lo que prueba el teorema.250 ´ ´ APENDICE D. bastantes resultados en o regresi´n lineal. su producto tambi´n lo es. Una exposici´n u o breve. clara. o .

es decir. v >. es a su vez espacio de Hilbert.1 Sea {vn } una sucesi´n de vectores en H. desarrollos y demostraciones omitidos en el ı curso de la exposici´n. infinito-dimensional y separable. Definici´n E. Cualquier subespacio vectorial de un espacio de Hilbert. Deo o cimos que tiene estructura de espacio de Hilbert si es completo.2 Sea H un espacio vectorial como en la Definici´n E. vn − vm < δ. n ≥ N(δ). si contiene los l´ ımites de todas las sucesiones de Cauchy de vectores en H. existe siempre un N(δ) n tal que cualesquiera vectores vm . Supongau mos definido sobre H un producto interno < ·. · > y correspondiente norma v 2 = < v. Existencia y unicidad de proyecciones.Ap´ndice E e Enunciados y demostraciones formales Se incluyen aqu´ teoremas. 251 . ı Definici´n E. es decir.1. por su nivel de formalismo o por no ser esenciales. o E. definidas ambas del modo usual.1. vn que aparezcan en la sucesi´n en lugar o posterior al N(δ) distan entre s´ menos de δ. espacio vectorial o o sobre el cuerpo de los n´meros reales R con las operaciones “suma” de vectores u y “producto” por n´meros reales. si prefijado un δ arbitrariamente peque˜ o. Decimos que {vn } es una sucesi´n de Cauchy si para o cualquier δ > 0 hay un N(δ) tal que ∀m.

(E.4) obtenemos: vm − vn 2 = 2 y − vn 2 + 2 y − vm 2 2 −4 y − ( 1 ) (vn + vm ) 2 1 . as´ ı como la propiedad de m´ ınima distancia en el enunciado. Entonces. Se verifica que: o y −v 2 = m´ y − z ın z∈M 2 . ıa o a para cualquier n´ mero natural n existir´ vn verificando: y − vn 2 ≤ u a d+ 1/n. Veamos1 primero la existencia.1 Sea H un espacio de Hilbert. Mostraremos que la sucesi´n {vn } es de Cauchy. ENUNCIADOS Y DEMOSTRACIONES FORMALES Teorema E. contra la hip´tesis. Mostraremos o tambi´n que su l´ e ımite –´ nico– verifica las condiciones definitorias de u proyecci´n de y sobre M .4) Igualando (E.´ 252 APENDICE E.3) y (E. tenemos: D = = (vm − vn ) (vm − vn ) 2 2 + 1 2y − 2 ( 2 ) (vn + vm ) 2 2 + 4 y − ( 1 ) (vn + vm ) 2 . (E.2) Podemos escribir: D = + = (y − vn ) 2 (y − vn ) 2 + (y − vm ) 2 2 2 − 2 < (y − vm ). o a a . de no haberlo. Es m´s general de lo que estrictamente o a necesitamos. en fin. y M un subespacio del mismo. (y − vn ) > 2 2 (y − vn ) + (y − vm ) + 2 < (y − vm ). pero merece la pena enunciar este Teorema as´ para poderlo emplear inalteı rado en otros contextos (por ejemplo. 34. Sea d = o m´ z∈M y − z 2 .1) Demostraci´n. (y − vn ) > .5) Demostraci´n tomada de Anderson (1971). necesariamente existir´ en M alg´ n vecın a u tor v 1 tal que: y − v1 2 ≤ d + 1. m´ y − z 2 ın tendr´ que ser mayor que d + 1. Una o a demostraci´n m´s simple y menos general puede encontrarse en Arnold (1981). An´logamente. en predicci´n lineal de procesos estoc´sticos).3) + 2 (y − vm ) Por otra parte. Para cualquier vector y ∈ H existe siempre un unico vector v = PM y . ´ proyecci´n de y sobre M. p´g. que ning´ n otro vector o u en M distinto del l´ ımite anterior verifica las mismas condiciones. (E. Probaremos. Sea: 2 2 D= (y − vn ) − (y − vm ) + (y − vn ) + (y − vm ) (E. (E.

Por tanto: α2 z 2 z − 2α < y − v. (E.9) luego la sucesi´n {vn } es de Cauchy. y (v − u) ∈ M .11) (E. y f´cilmente se deduce que y − v 2 = d. EXISTENCIA Y UNICIDAD DE PROYECCIONES. que ning´ n otro vector u ∈ M. Entonces. z (E. Como adem´s hemos visto que v ∈ M . para cualquier z ∈ M y para cualquier α real se tiene: y − v − αz 2 = y −v 2 2 + α2 z 2 2 − 2α < y − v. ha de suceder que < y − v. El desarrollo anterior o o muestra tambi´n que v es la mejor aproximaci´n de y por un vector e o de M (en t´rminos de la norma definida). u = v puede ser u proyecci´n de y en M . Adem´s. (E. v−u 2 + 2 < y − v. z >= 0.8) Sustituyendo ´sto en (E. v − u > 2 2 ya que 2 < y − v. implicar´ u = v.1.E. tenemos: (y − vn ) (y − vm ) 2 2 ≤ d + δ/4 ≤ d + δ/4. tenemos a que v es proyecci´n de y en M (Definici´n 1. z > α 2 ≥ ≥ 0. y − u > < (y − v) + (v − u).10) > (E.1). y −u 2 = = = ≥ < y − u.7) (E. y v−u = 0 . Supongamos que o hubiera un tal u. tenemos: vm − vn 2 253 ≤ 2 (y − vn ) 2 + 2 (y − vm ) 2 − 4d (E. (E. (y − u) = (y − v) + (v − u). Para m. (y − v) + (v − u) > y −v y −v 2 2 + . ıa v−u ≥ 0.14) se ha de cumplir para cualquier posible valor de α. n mayores que N (δ/4). Como la norma al cuadrado del ultimo t´rmino de (E. Tendr´ por tanto un l´ o a ımite unico ´ v en M (M es completo).14) Como (E. y como z es arbitrario en M .5) es al menos ´ e d. z > − 2α < y − v. en fin. (E. v − u > = 0. ni verificar y − u 2 = d. Por tanto. a (y − v) ⊥ M .13) z 2 2α < y − v.12) = d+α ≥ d. z > . a Por otra parte. se deduce que (y − v) ⊥ M .5) obtenemos: e (vm − vn ) 2 ≤ 2(d + δ/4) + 2(d + δ/4) − 4d = δ. e Veamos.6) Sea δ > 0.

p´g. ENUNCIADOS Y DEMOSTRACIONES FORMALES Observaci´n E.15) . Cap. ys >= E[yt ys ] (supuesta estacionariedad y media cero). Pueden verse m´s detalles en la obra ya citada Anderson (1971). yt−1 . Sea M un subespacio de H y h = o M ∩ K(B). v´ase el Ejercicio 4. sino la inducida por el producto interno < yt .1. o M ∩ h⊥ = M ∩ R(B ′ ). Ejemplos del uso del espacio de Hilbert en series tempoo rales pueden verse en Davis (1977).2.1 que H (y.2. .1 ¿Qu´ trascendencia tiene en el enunciado del o e Teorema E. al menos en principio. Cuando se hace an´lisis de series temporales. y K(B) el n´cleo de la apliu caci´n lineal que representa. la mejor predica ci´n lineal en el momento t del valor de la misma en t + 1 (predicci´n o o una etapa hacia adelante) se hace proyectando yt+1 sobre el subespacio que generan yt . yt−2 . puede ser infinito dimensional y aqu´ s´ ı ı tiene objeto suponer que genera un espacio de Hilbert para garantizar la existencia de la proyecci´n. incidentalmente. nada de ello es preciso. que en este problema emplear´ o ıamos una norma que no ser´ la eucl´ ıa ıdea ordinaria. Proyecci´n sobre subespacios h = M ∩ o K(B). a Secci´n 7. (todo el “pasado” de la serie). e a (E.4 dec´ ıa: Sea B una matriz cualquiera. M ∩ h⊥ puede expresarse de otro modo que har´ m´s a a simple la demostraci´n. . El Lema 4. Este “pasado”.2 o ¿Debemos preocuparnos de verificar que estamos ante un espacio de Hilbert? ¿C´mo hacerlo? Cuando o los regresores generan un espacio de dimension finita.1. Si M no fuera espacio de Hilbert. En efecto. 2. . vemos que se da por supuesta la existencia en M del l´ ımite de la sucesi´n {vn } construida. 58. Ap´ndice B. o Shumway and Stoffer (2006). o tal l´ ımite podr´ no existir en M .´ 254 APENDICE E. e E. su subespacio M ) tengan estructura de espacio de Hilbert? Examinando la demostraci´n del o Teorema E. ıa Observaci´n E. o N´tese. ´ Demostracion: En primer lugar. Entonces.6. en consecuencia. M ∩ h⊥ = R(PM B ′ ).

Entonces. Por tanto: < x. como h = M ∩ K(B). utilizando la expresi´n (E.´ E. y mostrando la mutua inclusi´n. ya que. o o i) M ∩ h⊥ ⊆ R(PM B ′ ). x ∈ R(PM B ′ ) =⇒ x ∈ R(PM ) =⇒ x ∈ M Sea ahora z ∈ h. En efecto. o . z > = x ′ z = a ′ BPM z = a ′ Bz = 0 Por tanto.15).2. x ∈ M y adem´s x ⊥ h. x ∈ M ∩ h⊥ =⇒ =⇒ =⇒ =⇒ =⇒ x ∈ M ∩ R(B ′ ) ∃a : x = B ′ a PM x = PM B ′ a x = PM B ′ a x ∈ R(PM B ′ ) ii) M ∩ h⊥ ⊇ R(PM B ′ ). lo que prueba ii) y a finaliza la demostraci´n del lema. PROYECCION SOBRE SUBESPACIOS H = M ∩ K(B). z ∈ M y z ∈ K(B). luego x ∈ M ∩ h⊥ . 255 Probaremos ahora que ambos subespacios considerados en el enunciado son el mismo. Es inmediato.

F. (1974). (1971). Arnold. Information Theory and an Extension of the Maximum Likelihood Principle. T. The Statistical Analysis of Time Series. In Johnson and Kotz. 267–281. 249–250. Information Theory and an Extension of the Maximum Likelihood Principle. In Proc. The Theory of Linear Models and Multivariate Analysis. pp. Ansley. 610 y ss. Second International Symposium on Information Theory. M. As. J. New York: Wiley. Springer Verlag. V. F. Akaike. Matrix Algebra. and Magnus. volume 1. 39. 259 . 55–59. (1985). Hawai Int. p. Press. Outliers in Statistical Data. Anderson. (2005). Akaike. K. Csaki. New York: Wiley. (1978). (1985). H.Bibliograf´ ıa Abadir. Budapest: Akademia Kiado. C. Use of an Information Theoretic Quantity for Statistical Model Identification. pp. Barnett.. (1991). Quick Proofs of Some Regression Theorems Via the QR Algorithm. Conf. and Lewis. Press. editors. New York: Wiley. S. A. Cambridge Univ. W. T. R. Breakthroughs in Statistics. C. Petrov and F. Oxford Univ. N. Akaike. In B. 5th. Atkinson. (1981). on System Sciences. editors. H. Plots. (1972). Transformations and Regression. H.

(1982). Mathsoft. Statistical Models in S. Neural Networks for Pattern Recognition. J. London: Chapman and Hall. (1993). D. Dalgaard. (1974). Dahlquist. Disponible en http://www.682 DAL. (1992). London: Chapman & Hall. and Hastie. and Weisberg. Problems and Solutions in Theoretical Statistics. New York: Wiley.stat. H. Measurement. N. Chambers. P. (1988).phtml. (1974). Pacific Grove. R. Ca. Generalized Inverses: Theory and Aplications. (1996). Pacific Grove. C. M. W. E. 4. and Wilks. Technometrics. and Hinkley. Clarendon Press/Oxford. 531–550. D.. D. R. R. E. o A. Theoretical Statistics. V. A Programming Environment for Data Analysis and Graphics. and Hinkley. M. N. ˚ (1974). Chambers. Oxford: Clarendon Press. G. Ben-Israel. and Greville. A. P. Brown. Cox. Transformations of the Independent Variables.J.. M. P. (1962).: Prentice Hall. (2002).ucla. Chambers. Belsley. R. Residuals and Influence in Regression.edu/~deleeuw/work/research.. . R. S. A. 1979th edition.. R. Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. Box. Englewood Cliffs. G. P. D. and Bj¨rck. Regression and Calibration. Davis.5 BRO. Programming with Data. Statistics and Computing. Linear Estimation and Stochastic Control. M. J. T. A. Kuh. Chapman and Hall.235. E. Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike. M. J. E. and Tidwell.: Wadsworth & Brooks/Cole. Numerical Methods.260 BIBLIOGRAF´ IA Becker. D. New York: Chapman and Hall. Cook. A. New York: Wiley. de Leeuw. The New S Language. J. (1998). Signatura: 519. (1978). (1980).. and Welsch. California: Wadsworth & Brooks/Cole. V. T. Signatura: 519. D. A. Introductory Statistics with R. J. Springer-Verlag. Bishop. (1977). J. (2000). Cox.

(1975). E. (1980). Hastie. (1985). Biometrics.. (1998). (1976). Faraway. New York: Marcel Dekker. J. T. 467–508. Harrell. F. Jolliffe. (1969). The Elements of Statistical Learning. Wiley.BIBLIOGRAF´ IA 261 Draper. Haitovsky. Prentice Hall. (1980). Haykin. Applied Logistic Regression. J. New York: Marcel Dekker. and Smith. C. Chapman & Hall/CRC. Matem´ticas Universitarias. The Analysis and Selection of Variables in Linear Regression. London: Prentice Hall. chapter 13. As. W. R. A Data Oriented Approach. Linear Models with R. (1970). Springer-Verlag. Applied Regression Analysis. editor. Identification of Outliers. W. M. Garthwaite. L. Handbook of Statistics. (1993). A. and Jones.5 HAR.. 20–21. 1–49. Rao. J.233. Technometrics. Regression Analysis and Ist Applications. A. K. Kennard. Y. R. Madrid: MacGraw-Hill. N.. and Mason. 2 .. R. S. R.. R. pp. Inference. 105–123. and Baldwin. Wiley. third edition.237. Signatura: 519. (2001). F. Hocking. R. Ridge Regression: Biased Estimation for Non-Orthogonal Problems. Signatura: 519. 55–67. 32. Hawkins. A Note on Maximization of R . H. (1988). Neural Networks. F. Hosmer. R. 4. (2005). London: Chapman & Hall. (1989). L. Springer-Verlag. Signatura: 519. Eubank. a Gunst. P. I. H. E. R. Computation Using the QR Decomposition.233. B.. T. H. (1995). 12. Inc. E. Regression Modelling Strategies. J. (2001). Grafe. and Kennard. R. second edition. Tibshirani. R. A Comprehensive Foundation.233 FAR. Data Mining. and Friedman. Goodhall. R. Cstat. D. 23. Spline Smoothing and Nonparametric Regression. and Lemeshow. Statistical Inference. Amsterdam: North-Holland. Ridge Regression: Some Simulations. and Prediction. W. D.5 DRA. (1998). Signatura: 519. Hoerl. S. In C. Hoerl.8 HAS.

(1975). In The Art of Computer Programming. R. (1986). Statistical Computing. (1998). (1994). Lange. Matrix Differential Calculus with Applications in Statistics and Econometrics. and Gentleman.An Introduction. Principal Components Analysis. J.J. Technometrics. H. and Neudecker. (1980). T. Springer Verlag. Lehmann. New York: Wiley. R: a Language for Data Analysis and Graphics. and Venables. P.: Addison-Wesley. J. R. and J. (1983). (2005).6 LAN. CSIRO Mathematical and Information Sciences. D. . Signatura: 519. editors. J. F. Korb. Maindonald. Kennedy. L. 299–314. S. Englewood Cliffs. Lawson. W. K. B. K. Springer. Kuhnert. and Hanson.: Prentice-Hall. Fundamental Algorithms. J. (1996). Dowe. Jolliffe. Oliver. R. New York: SpringerVerlag. (1974). Logistic Regression. G. Cleveland. 5. Lawless. A Self-Learning Test.. Cstat. Numerical Analysis for Statisticians. 103–111. pp. Data Analysis and Graphics Using R . (1976). Mass. ISIS: Information. J. 307–323. Tables for the Approximate Test for Outliers in Linear Regression. 473–476. Knuth. Legg. R. P. Kleinbaum. I. L. J. Magnus. In D. (1986). Lund. C. E. L. Reading. (2000). 5. Statistics and Induction in Science. (1968). (1996). New York: Marcel Dekker. Mass. D. Reading. and Wang. Australia. and Graphical Stats.262 BIBLIOGRAF´ IA Ihaka. Wiley. D. A Simulation Study of Ridge and Other Regression Estimators. of Comp. (1988).: Addison Wesley. An Introduction to R: Software for Statistical Modelling and Computing. volume 1. The TEX Book. Minimum Information Estimation of Linear Regression Models. Solving Least Squares Problems. N. H. J. R. Knuth. Singapore: World Scientific. E. Theory of Point Estimation. 17. W. K.

(1971). G. R. Modern Regression Methods. (1971). 215–216. Principles of Econometrics. 539–552. and Francia. New York: Wiley. John Wiley & Sons.233. (1965). Co. Stapleton. R. C. (1972). 52. Searle. Singapore: World Scientific. D. 67. Alianza Editorial. K. Regresi´n y Dise˜ o de Experimentos. B. H. Theil. A. (1971). Wiley. and Wilk. Rissanen. S.8 RIP.BIBLIOGRAF´ IA 263 Miller. T. Pe˜a. Seber. An Approximate Analysis of Variance Test for Normality.]. Jrssb. Linear Regression Analysis. Jasa. Generalized Inverse of Matrices and Its Applications. and Mitra. S. Subset Selection In Regression. (1982). R. Myers. R. S.4 RYA. P. Second Editon. (2002). Boston: PWS-KENT Pub. Shapiro. Matrix Algebra Useful for Statistics. New York: Wiley. D. A. (1997). Silvey. J. (1988). Biometrika. S. Searle. New York: Wiley. n o n Rao. Pattern Recognition and Neural Networks. Multicollinearity and Imprecise Estimation. Chapman & Hall/CRC. S. (1996). (2006). S. H. Springer Verlag. S. Thisted. Linear Models. With R Examples. 591–611. 31. (1969). (1995). R. R. London: Chapman & Hall. (1980). (2002). Signatura: 519. 519. and Stoffer. Cambridge University Press. New York [etc. Classical and Modern Regression with Applications. New York: Wiley. Ripley. Silvey. S.237. Time Series Analysis and Its Applications. (1989). H. (1990). J. Shumway. Elements of Statistical Computing. Optimal Design. M. R. New York: Chapman & Hall. (1977). F. D. B. . S. D. An Analysis of Variance Test for Normality (complete Samples). A. Linear Statistical Models. S. Stochastic Complexity in Statistical Inquiry. S. H. Ryan. Wiley. Shapiro. D.

New York: Marcel Dekker.stats. and M¨chler. Dept. and Ihaka. B. Venables. Wang. R. Latent Root Regression Analysis. Probability and Statistics with R. F. J. Militino. W.uk/pub/MASS3. Available at http://cran. B. F.. Estad´ ıstica Matem´tica. Sense and Nonsense of Statistical Inference. (1999a).at.ox. M.ac. Smith. Smith. C. Gonz´lez. R. R. M. F. (2000). Gunst. Webster. 513–522. Madrid: Tebar-Flores. Technometrics...264 BIBLIOGRAF´ IA Troc´niz... Ihaka. R. Gentleman. of Statistics. Traducci´n espa˜ola de A. o Troc´niz. Estad´ o ıstica. A. and Ripley. third edition. Modern Applied Statistics with S-Plus. Gentleman. F. A. A. Venables. B. (1997).. R Complements to Modern Applied Statistics with S-Plus. 154 p.. a Notas sobre R: Un Entorno de Programaci´n para An´lisis de Datos y o a Gr´ficos. R. D. CRC Press.pdf. (2003). notas de clase. Editorial UPV/EHU. En http://www. and Ripley.org/doc/R-intro. and Arnholt. a Ugarte. New York: Springer-Verlag. Modelos Lineales. (1999b). R.. A. a o n a a Venables. Venables. (1974).. D. W. Notes on R: A Programming Environment for Data Analysis and Graphics. B.r-project. Tusell. 16. and Mason.. (1993).. . D. University of Adelaide and University of Auckland. Bilbao: Serv. (1987a).. L. T. Muestreo. Gonz´lez y S. Probabilidades. (1987b). (2008).

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->