Está en la página 1de 21

Anlisis de Regresin

Julio Di Rienzo

Regresin lineal mltiple


Cuando observamos las respuestas de un ensayo o los resultados de un plan de muestreo, tratamos de
explicar los valores observados mediante un modelo estadstico. As, si estuviramos observando un
ensayo comparativo de rendimientos para el cultivo de maz, trataremos de describir o justificar la
mayor parte de la variacin de las observaciones de forma tal que podamos identificar cuales son los
factores ms relevantes a la hora de pronosticar rendimientos o de mejorarlos. Otro ejemplo sera el
volumen maderable de los ejemplares de una especie maderable, sometidos a distintos manejos.
Aunque se espera que la una

parte importante de la variacin en el volumen maderable sea

explicada por el tipo de manejo, se sabe que la enfermedades, la calidad del sitio, los errores de
implementacin del manejo, la carga gentica de cada ejemplar, etc., podran tambin modificar la
respuesta. Los modelos que tratamos de construir son modelos para las esperanzas de la variable de
respuesta y son simplificaciones del mundo real sujetas a un conjunto ms o menos grande de
restricciones. Es muy difcil obtener modelos generales aplicables a cualquier situacin, al menos en
el campo de lo biolgico o lo social, ya que existen muchos factores condicionantes de las respuestas
que ni siquiera conocemos que existen. Por ejemplo la respuesta de un cultivo a la disponibilidad de
agua depender del tipo de suelo, de la evapotranspiracin y de otros factores, a veces no
cuantificados, como el estado sanitario de las plantas que puede aumentar o disminuir la capacidad
del cultivo para soportar momentos de falta de agua. Estos argumentos implican que cuando
buscamos modelos para predecir o simplemente comprender la variabilidad de una respuesta
deberemos estar advertidos de los alcances pero tambin de las importantes limitaciones que estos
modelos conllevan.
Para iniciar con el desarrollo de los modelos de regresin lineal comencemos por decir que la
variable respuesta las simbolizaremos con la letra Y , y que con los elementos del un vector, que

llamaremos x , representaremos constantes observables que, de manera resumida, caracterizan la


condicin en la que Y es observada.

, y leeremos como: La observacin Y es el resultado de sumar


Luego diremos que Y x
,
a su esperanza x

,
un trmino aleatorio . Donde x

es una funcin del vector de

constantes observables x y de un vector de parmetros desconocidos. Adems, supondremos que


el trmino aleatorio tiene esperanza cero y varianza 2 , usualmente, desconocida.

, . Si x
,
Lo que caracteriza a este modelo como lineal es la forma de x

es una

combinacin lineal de los elementos de donde los coeficientes son funciones conocidas de x q j x -, entonces decimos que Y x
,

es un modelo de regresin lineal y su expresin

general podra escribirse de la siguiente forma:

Y q0 x 0 q1 x 1 ... q p x p
Aunque cuando pensamos en modelos de regresin lineal podemos anticipar que se trata de modelos
muy restrictivos, la expresin muestra que pueden ser muy ricos como instrumentos de modelacin.

Algunos ejemplo de modelos de regresin lineal


, 0 x 1 , esto es q0 x 1 y q1 x x . En este caso la
Supongamos que x
esperanza de Y | x tendr la forma de una recta con ordenada al origen 0 y pendiente 1 . Aunque
este es un ejemplo sencillo, las curvas y superficies que pueden modelarse pueden ser muy diversas
como se muestra en la Figura 1. El problema de encontrar, mediante modelos lineales, expresiones
para superficies muy estructuradas radica en la dificultad de identificar las funciones q j (.) que no
siempre pueden justificarse. En general las formas ms comunes de q j (.) son: q0 ( x ) 1 y

q j ( x ) x j , j 0 . De esta manera, el modelo lineal queda expresado como:

Y 0 x11 ... x p p
o igualmente comunes, son los polinomios:

Y 0 x 1 1 x 12 2 ... x p 2 p 1 x p2 2 p

700

100

600
78
500
56

400

300

34

200
12
100

Y =B0+B1*X+B2*X^2+B3*X^3
E(y)=B1*sin((2*3.1415)/2*x)+B2*cos((2*3.1415)/2*x)+B3 x+B4 x*x

-10
0

10

10

100
300
200

50

100

0
0

Z
Z
-100

-50

-200

20
20

10
0
L

10

20
10
0

-10
-10
-20

-20

z=10*SIN(X)+2*cos(L)+3*L

20

0
L

10
0

-10
-10
-20

-20

Figura 1: Curvas y superficies generadas por modelos lineales en una (arriba) y


dos variables xs (abajo)

Cuando se ajusta un modelo de regresin lineal pueden estar persiguindose dos objetivos diferentes:
la prediccin y la identificacin del modelo. En el primer caso hay mayor flexibilidad en la

eleccin de las funciones q j (.) , en la medida que el modelo provea buenas predicciones y que se
estable. Por otra parte cuando el objetivo es la identificacin, lo que se est buscando es describir la
funcin que relaciona Y con x de manera tal que se pueda inferir sobre las relaciones de
causalidad. En este contexto la eleccin de q j (.) debe poder justificarse, por ejemplo, en alguna
propiedad fsica o biolgica del sistema objeto de modelacin.

Estimacin
Como dijimos anteriormente el vector de parmetros es desconocido, por lo tanto, para cualquier
aplicacin prctica debemos estimarlo. En el problema de estimacin lo que queremos encontrar son
expresiones o procedimientos que nos permitan obtener valores plausibles para los parmetros. Estas
expresiones se aplican a un conjunto de n observaciones

Y1, x1 , Y2, x 2 ,L , Yn , x n

que

constituyen una muestra aleatoria. A partir de ella se obtienen las estimaciones. Luego, para una
muestra dada tendremos una coleccin de modelos, uno para cada observacin en la muestra.
Entonces:

Yi q0 x i 0 q1 x i 1 ... q p x i p i ; i 1,..., n.
Este conjunto de modelos, llamado modelo muestral, puede expresarse sintticamente mediante una
expresin matricial como:

y X
q0 ( x1 ) q1( x1)
y1

y
q0 ( x2 ) q1( x2 )
2
donde: y , X
M
M
M


q0 ( xn ) q1( xn )
y n

L
L
O
L

q p 1( x1 )
0

q p 1( x2 )
1

,
y
M

q p 1( xn )
p 1

1
2

Si agregamos a los supuestos bsicos de que los errores tienen esperanza 0 y varianza 2 , el de que

2
son conjuntamente normales e independientes, entonces la distribucin de ~ Nn 0, I (que se

lee: el vector de errores tiene distribucin normal multivariada con esperanza cero y matriz de

2
covarianza sigma cuadrado identidad) y la distribucin de y ~ Nn X, I

(que se lee: el vector

de observaciones tiene distribucin normal multivariada con esperanza X y matriz de covarianza


sigma cuadrado identidad). Estos supuestos distribucionales completan la especificacin del modelo
de regresin lineal. Por lo tanto el modelo tiene dos partes, una fija, representada en por X y otra
aleatoria representada por . La particularidad de que la matriz de covarianzas de las observaciones
sea 2 I implica, bajo el supuesto de normalidad, que todas las observaciones son independientes y
que adems tienen todas las misma varianza. Para modelar estructuras de covarianzas diferentes nos
conduce a modelos lineales ms generales como los modelos lineales mixtos que se caracterizan por
la variedad de estructuras de covarianza entre observaciones que se pueden modelar con ellos. El
tratamiento de estos modelos excede el propsito de este curso, por lo que, en lo que sigue no
restringiremos a los modelos que suponen independencia entre observaciones e igualdad de
varianzas.
Cmo se estiman los parmetros de la distribucin conjunta de las Ys?
Existen varias alternativas. La forma clsica de estimar los parmetros es minimizando la suma de
cuadrados de los residuos scr y X y X y ' y 2y ' X X X .
Para encontrar un mnimo derivamos con respecto a y luego buscamos la solucin que hace cero
esa derivada:

d y ' y 2y ' X XX
d

2XX 2Xy

Si igualamos a 0 ambas derivadas tendremos:

2XX 2Xy 0 XX Xy
La expresin XX Xy es conocida como Ecuaciones Normales. De se deduce que

1
XX Xy

Utilizando , podemos escribir la suma de cuadrados de los residuos como y X

y X

definiremos al estimador de la varianza de los errores como:

y X y X ,

np

donde p es el nmero de parmetros en el modelo. Llamaremos a y a 2 estimadores por


mnimos cuadrados y 2 .

Varianza del vector de coeficientes de regresin


Aplicando propiedades de la varianza de combinaciones lineales se puede deducir que la matriz de
varianzas y covarianza del vector de parmetros tiene la siguiente expresin: 2 X'X
estimador por mnimos cuadrados de esta expresin es 2 X'X

. El

. Luego los elementos diagonales

de esta matriz son las varianzas de los coeficientes de regresin y los elementos no diagonales sus
covarianzas.

Prueba de hiptesis
Una forma simple de construir una prueba para los coeficientes de regresin es calcular un

estadstico T como

i
2

X'X

2
donde X'X
ii

ii

corresponde al i-simo elemento

diagonal de la matriz de covarianzas del vector de coeficientes de regresin y

X'X

ii

se

conoce como el error estndar del i-simo componente del vector de estimadores.
6

Intervalos de confianza para los parmetros


Aunque el mtodo de mnimos cuadrados o cualquier otro mtodo de estimacin proveen
estimaciones puntuales de los parmetros, es til obtener los intervalos de confianza. Estos se
construyen basndose en propiedades distribucionales del vector de estimadoras y su expresin es:

i t 1 n p EEi
donde t 1 n p es el cuantil 1 de una distribucin T de Student con n-p grados de
libertad y EEi es el error estndar del i-simo elemento del vector de estimadores.
Ejemplo
Los siguientes, son datos del censo de poblacin de Estados Unidos de 1970 correspondientes
familias con ingresos inferiores a 3943 dlares en distintas reas de la ciudad de New York (fuente:
Econometra (Segunda Edicin, Gujarati D.N. Mc Graw Hill, 1992). La variable respuesta es el
porcentaje de contribucin a la fuerza de trabajo del jefe de familia (PFT).

Tabla 1. Participacin de la fuerza de trabajo (PFT) de jefes de familias pobres caracterizadas por el ingreso
familiar promedio (IFP), tamao medio de la familia (TMF) y tasa de desempleo (TD)

PFT
64.3
45.4
26.6
87.5
71.3

IFP
1998
1140
1942
1998
2026

TMF
2.95
3.40
3.72
4.43
3.82

TD
4.4
3.4
1.1
3.1
7.7

PFT
82.4
26.3
61.6
52.9
64.7

IFP
1853
1666
1434
1513
2008

TMF
3.90
3.32
3.80
3.49
3.85

TD
5.0
6.2
5.4
12.2
4.8

PFT
64.9
70.5
87.2
81.2
67.9

IFP
1704
1525
1842
1735
1639

TMF
4.69
3.89
3.53
4.96
3.68

TD
2.9
4.8
3.9
7.2
3.6

El objetivo es ajustar un modelo de regresin lineal que explique la variacin de PFT en funcin del
ingreso familiar promedio (IFP), el tamao medio de del grupo familia (TMF) y la tasa de desempleo
en el rea (TD). A continuacin se presenta la salida de un anlisis de regresin lineal mltiple.
Todos los coeficientes (Est.) son positivos (excepto la constante) y los errores estndares son grandes
(en comparacin con el valor estimado del parmetro).

Coeficientes de regresin y estadsticos asociados


Coef

Est.

EE

LI(95%)

LS(95%)

p-valor

const -34.39

49.30 -142.91

74.13

-0.70

0.4999

IFP

0.02

0.02

-0.02

0.06

1.01

0.3336

TMF

15.56

9.46

-5.26

36.38

1.65

0.1282

TD

0.83

1.91

-3.38

5.04

0.43

0.6734

De acuerdo a estos resultados, ninguna de las variables regresoras explica una parte significativa de
la variacin en la PFT ya que los p-valores para la hiptesis de que los parmetros valen cero son
todos mayores que 0.05. Asimismo, los intervalos de confianza son muy amplios e incluyen al valor
0 como valor posible para el parmetro.

Verificacin de supuestos
Antes de hacer inferencias con un modelo, es una buena precaucin constatar que los supuestos
sobre los que la inferencia se sustenta son vlidos. Los supuestos se resumen en las propiedades
distribucionales de los errores. Esto es, que los errores sean normales, independientes y con
varianzas homogneas (errores homocedsticos). Esto nos conduce a la necesidad de examinar los
errores. Pero lo errores no estn disponibles, solo se tienen predicciones de ellos: los residuos.
Cuando validamos supuestos con los residuos, tenemos que tener presente que tambin estamos
evaluando, de manera confundida, la eventualmente incorrecta identificacin del modelo.
La valides de los supuestos se puede realizar mediante pruebas formales o mediante mtodos
subjetivos basados en tcnicas grficas. Aunque parece un contrasentido que se utilicen herramientas
subjetivas para la validacin de supuestos y que estas tcnicas estn ampliamente difundidas, resulta
que las pruebas formales suelen ser poco potentes y confunden las hiptesis especficas con
problemas de adecuacin del modelo. Aqu solo presentaremos pruebas subjetivas.

Prueba del supuesto de normalidad


La tcnica grfica por excelencia para validad el supuesto de normalidad es el QQ-plot normal de los
residuos: Permiten verificar si los errores se distribuyen normalmente y detectar la presencia de
observaciones inusuales que podran requerir especial atencin en el anlisis. Cuando n es grande,

alejamientos de la normalidad podran tener poco peso en inferencias sobre los coeficientes de

2.41

11.55

1.15

7.93

Cuantiles observados

Cuantiles observados

regresin.

-0.12

-1.38

-2.65
-2.65

-1.38

-0.12

1.15

2.41

Cuantiles de una Normal

4.32

0.70

-2.92
-2.92

0.70

4.32

7.93

11.55

Cuantiles de una Normal

Figura 2: QQ-plot normal de valores residuales. A izquierda un ejemplo donde los errores tienen distribucin
normal, a derecha un ejemplo donde el supuesto de normalidad no se cumple.

Diagnstico de homocedasticidad
El grfico de Residuos versus predichos es la tcnica ms usual para verificar si existe un problema
grave de heterocedasticidad. Este grfico trata de explotar la forma ms frecuente de heterogeneidad
de varianzas que en la que a valores esperados grandes se corresponden varianzas grandes. Otros
grficos utilizados son los de Residuos versus una predictora. Estos grficos buscan descubrir
situaciones en que la varianza de la respuesta depende, en particular, de una regresora. Cuando se
presenta un problema de heterogeneidad de varianzas hay distintas lneas de accin, la ms simple es
realizar lo que se conoce como estimacin por mnimos cuadrados ponderados, donde las
observaciones contribuyen a la estimacin con un peso inversamente proporcional a su varianza.

2.36

Res. estudentizados_y

Res. estudentizados_y

2.50

1.18

-0.13

-1.45

-2.77
-4.22

2.44

9.11

predichos

15.77

22.43

0.79

-0.77

-2.34

-3.90
-3.83

2.61

9.04

15.48

21.91

predichos

Figura 3: Residuos (estudentizados) vs predichos mostrando un caso de homocedasticidad (izquierda) y un


caso heterocedstico (derecha).

Falta de independencia
Este es el supuesto ms difcil de validar ya que la falta de independencia puede ocurrir de muchas
formas posibles y las distintas tcnicas para evaluar el supuesto deben posicionarse en alguna de
estas formas para construir el estadstico de la prueba o la herramienta diagnstica. Por lo tanto
verificar que una forma particular de falta de independencia no esta ocurriendo, no significa que
hayamos validado el supuesto de independencia. Si los datos provienen de un diseo experimental,
la suposicin de independencia pude ser usualmente sustentada pero si lo datos provienen de
estudios observacionales (comunes en regresin) esta suposicin debe probarse. Cuando los datos
tienen un ordenamiento temporal o un ordenamiento que se corresponde con una covariable del
modelo o una variable externa al mismo, los grficos de Residuos versus criterio de ordenamiento
son muy tiles.

10

3.00

RE_y

1.50

0.00

-1.50

-3.00
0

25

50

75

100

Secuencias de observacin

Figura 4: Residuos (estudentizados) vs secuencia de observacin mostrando un autocorrelacin de los


errores.

Una tcnica clsica para la prueba de presencia de la llamada correlacin serial es la de Durbin
Watson. El estadstico de Durbin-Watson es:

e e
D
e
n

i 2

i 1

n
2
i 1 i

donde ei es el i-simo residuo. Para los datos del ejemplo presentado en la Error: Reference source
not found, el estadstico vale D=1.4. Los puntos crticos se obtienen de una tabla de Durbin-Watson
para un n y k. Donde n es el nmero de observaciones y k es el orden de la autocorrelacin. Para
n=103, k=1 y =0.05 son: LI=1.654 , LS=1.694
Las hiptesis que se contrastan son: H0: =0 versus H1: 0
Las reglas de decisin son:

Si D<LI se rechaza H0
Si D>LS no se rechaza H0
Si LI<D<LS la prueba es inconclusa

Anlisis de Influencia
Cuando se ajusta un modelo de regresin se espera que todas las observaciones contribuyan de
manera equitativa a la estimacin. Asimismo, dado que las observaciones tiene errores asociados

11

que, se desea que no haya observaciones, que con errores especialmente grandes, tengan un peso
desproporcionado en la estimacin de los parmetros.

Observaciones influyentes
Se dice que una observacin es influyente por sus valores en el vector de predictoras si esta
observacin tiene un Leverage (palanca) alta. Esta cantidad cuantifica cun lejos una observacin se
encuentra de las n-1 observaciones restantes. El leverage para la observacin i-sima es:

hi

(xi x )(xi x )
1

n (xi x )(xi x )

El valor mximo del leverage es 1 pero se considera que un Leverage es alto si supera 2p/n.

Observaciones atpicas
Se dice que una observacin es atpica si su residuo externamente estudentizado es mayor que 2.5. El
residuo externamente estudentizado para la i-sima observacin se obtiene calculando el residuo
estudentizado de esta observacin sin que la misma haya participado del proceso de estimacin. El

i
residuo estudentizado se define como ei
1 hi

Distancia de Cook
Una medida que resume la influencia de una observacin, tanto por sus valores en Y como por sus
valores en el vector de regresoras, es la distancia de Cook. Grandes valores de esta medida indican
observaciones que tiene gran influencia sobre la estimacin. El estadstico tiene la forma:

Cooki

e
i

1
hi

h
p
i
1 hi

donde p es el nmero de parmetros en el modelo. Un punto de corte para determinar si un dato es


influyente por esta medida puede determinarse a travs de los cuantiles de una F con p y n-p gl

12

(cuantil 0.50, ya que con los usuales 0.99 o 0.95 solo se detectan los muy extremos). Otra forma
simplificada es tomar la cota 1.

Seleccin de modelo
Bajo el ttulo seleccin de modelo se agrupan muchas tcnicas. Las medidas de influencia podran
perfectamente estar bajo este ttulo ya que el anlisis de la influencia permite seleccionar modelos
ms adecuados a los datos y no tan influidos por algunas observaciones. Sin embargo aqu se han
omitido las tcnicas de diagnstico que se presentaron anteriormente y se mostrarn algunas tcnicas
para la seleccin de regresoras y para especificar la forma en que estas regresoras deben entrar en el
modelo.

Residuos parciales
Cuando tratamos de imaginar la forma en que Y se relaciona con una variable x, el grfico de
dispersin de Y versus x es un instrumento de mucho valor. Sin embargo cuando Y se observa
conjuntamente con un nmero grande de regresoras, el grfico de dispersin de Y vs xi es poco
apropiado para observar la forma de la dependencia de Y con respecto a xi. Esto se debe que Y esta
siendo movida simultneamente por las otras regresoras y en consecuencia la dependencia de Y
con xi es difcilmente observable, excepto que esta sea muy fuerte y dominante. La tcnica de
visualizar residuos parciales, consiste en fijar el efecto de las otras regresoras cuando se examina el
efecto de alguna de ellas sobre Y. Considrese el modelo

Yi 0 1xi 1 2 xi21 xi 2
Este modelo contiene dos regresoras x 1 y x2 pero x1 participa con trmino lineal y otro cuadrtico.
Los datos que genera este modelo no tienen un rtulo indicando la forma en que deben ser
modelados, solo sabemos que hay una variable dependiente y dos regresoras Podemos anticipar esta
relacin antes de ajustar el modelo final de regresin? A continuacin se presentan los diagramas de
dispersin de Y vs x1 y de Y vs x2. En estos grficos se observa una tendencia lineal decreciente entre
Y y x1 y una tendencia lineal creciente con x2.

13

139.08

123.14

123.14

107.21

107.21

139.08

91.28

75.34
-0.28

91.28

1.34

2.96

4.58

75.34
-0.47

6.20

2.19

x1

4.85

7.51

10.17

x2

Figura 5: Diagramas de dispersin de Y vs x1 (izquierda) y x2 (derecha).

Los correspondientes grficos de residuos parciales se presentan a continuacin. En ellos se observa


con muchsima claridad las relaciones entre Y y x1 y x2, y se aprecia que la relacin de Y con x1 sigue
un patrn decreciente pero curvilneo que deber tenerse en cuenta a la hora de proponer el modelo

10.33

25.07

2.14

13.07

RPAR_y_x2

RPAR_y_x1

de regresin.

-6.05

-14.25

-22.44
-0.28

1.08

-10.91

1.34

2.96

4.58

-22.91
-0.47

6.20

x1

2.19

4.85

7.51

10.17

x2

.
Figura 6: Diagramas de dispersin de los residuos parciales de Y vs x1 (izquierda) y x2 (derecha).

14

Eleccin de regresoras
Cuando el nmero de regresoras es grande, independientemente de la forma funcional en que ellas
deberan ingresar en el modelo, primero hay un paso ms que consisten en seleccionar un
subconjunto de ellas como las regresoras candidatas.
Hay dos estrategias bsicas en la seleccin de regresoras: partir de un modelo completo e ir
simplificndolo, o partir de un modelo simple e ir aumentndolo. El primer caso es siempre
preferible, pero el segundo es inevitable si el nmero de regresoras es mayor o muy grande en
relacin al nmero total de datos.
En el primer enfoque existen dos aproximaciones. La ms comn se conoce como seleccin
backward y se basa en eliminar la regresora cuyo p-valor para la prueba de hiptesis de que el
coeficiente de regresin es cero es mayor que un valor umbral como por ejemplo 0.15. Este
mecanismo se repite hasta que no hay regresoras que puedan ser eliminadas. Este enfoque no
asegura la seleccin del mejor modelo pero es una excelente herramienta. El segundo enfoque es
evaluar todos los modelos posibles y elegir aquellos que maximizan o minimizan un estadstico que
resumen el ajuste del modelo. Criterios usuales son maximizar R 2 o R2 ajustado o minimizar el
cuadrado medio residual o el error cuadrtico medio.
Si se puede ajustar un modelo completo Por qu no usar las pruebas de hiptesis de los coeficientes
como criterio de eleccin de regresoras eliminando todas aquellas que no sean significativas? El
problema es que en muchos problemas de regresin ocurre un fenmeno conocido como
multicolinearidad que aparece como consecuencia de la correlacin entre regresoras. La
multicolinearidad puede enmascarar los efectos de regresoras muy correlacionadas y por lo tanto la
eliminacin de todas las variables no significativas puede ser un grave error. Cuando la
multicolinearidad es muy grande los coeficientes de regresin estimados son muy variables pudiendo
incluso mostrar signos que contradicen todo el conocimiento sobre el rea de la ciencia donde el
anlisis se est aplicando. Sntomas claros de multicolinearidad es la presencia de resultados
paradjicos y errores estndares grandes para las estimaciones de los parmetros.

15

La multicolinearidad puede tratarse mediante el agregado de puntos adicionales que la destruyan, el


uso de combinaciones lineales de las variables que sean ortogonales y/o la eliminacin de variables
redundantes.

Adecuacin del modelo


Una vez que se ha propuesto un modelo para un conjunto de datos, es til preguntarse si el modelo
es apropiado. Existe una prueba formal sobre la bondad de ajuste de un modelo de regresin que es
posible utilizar cuando se dispone de varias observaciones de Y para al menos una combinacin de
valores de xs.

Prueba de Bondad de Ajuste (lack of fit)


La base de esta prueba es la descomposicin de la suma de cuadrados de residuos en suma de
cuadrados del error puro y suma de cuadrados de la falta de ajuste (lack of fit). Para calcular la suma
de cuadrados del error puro se requiere de repeticiones para al menos un nivel de la variable
regresora o combinacin de niveles de un conjunto de regresoras. La varianza del error puro no es
ms que la varianza ponderada obtenida a partir de cada una de la varianzas de los grupos (definidos
por la combinacin de los distintos valores de la o las regresoras que tienen repeticiones).
La suma de cuadrados del error puro no puede ser reducida mejorando el modelo. Por el contrario, al
mejorar el modelo, disminuye la suma de cuadrados de residuos, y al ser la suma de cuadrados del
error puro una constante, disminuye la suma de cuadrados de la falta de ajuste. Este es el fundamento
de la prueba.
F

CMresidual CMerror puro CMfalta de ajuste

CMerror puro
CMerror puro

donde CMerror puro es el estimador de 2 con N-k grados de libertad, siendo k= nmero de valores
diferentes de x o de las combinaciones de todas las regresoras; CMresidual es el cuadrado medio
residual del anlisis de regresin que cuenta con N-2 grados de libertad y CMfalta de ajuste es el
cuadrado medio que mide la discrepancia entre los valores medios estimados por el modelo y
aquellos que surgen de un modelo de clasificacin.

16

Este cuadrado medio tiene (N-2)-(N-k)=k-2 grados de libertad. Esta prueba requiere de los supuestos
de normalidad y homocedasticidad para contrastar la hiptesis de buen ajuste, caso
contrario es muy poco potente. Por ejemplo considere el siguiente ejemplo, donde la
nica regresora tiene 6 valores posible, pero en 3 de ellos hay repeticiones de Y. En
este caso, k=6. Los resultados de la prueba de bondad de ajuste se presentan a
continuacin. De acuerdo a la prueba el cuadrado medio atribuible a la falta de
ajuste difiere significativamente del cuadrado medio del error puro indicando que

Y
17.14
17.69
19.48
23.28
24.13
24.28
29.73
34.24
33.97
40.43

X
10
10
15
20
20
20
25
30
30
35

hay una discrepancia significativa entre las medias estimadas por el modelo y la media estimadas por
el modelo de posicin.
Anlisis de regresin lineal
Variable

10

RAj

0.98

0.97

Coeficientes de regresin y estadsticos asociados


Coef. Est.

E.E.

LI(95%)

LS(95%)

const 6.83

1.15

4.18

9.49

0.05

0.80

1.03

0.91

Valor p

CpMallows

0.0003

1.11

18.19 <0.0001

295.31

5.94

Tabla de anlisis de la varianza SC Tipo III


FV

SC

gl

CM

Valor p

Modelo

542.54 1

542.54 330.97 <0.0001

542.54 1

542.54 330.97 <0.0001

Error

13.11 8

1.64

Falta de ajuste

12.34 4

3.08 15.86 0.0101

Error puro
Total

0.78 4

0.19

555.65 9

Aparte de esta prueba formal que solo puede realizarse cuando se dispone de medidas repetidas de Y,
la adecuacin del modelo se evala mediante de validacin de supuestos, el examen de medidas
diagnsticas y de las medidas de resumen sobre la estabilidad de la estimaciones y la habilidad
predictiva del modelo.

17

Transformaciones para adecuacin del modelo


Prueba de Atkinson
Esta prueba permite evaluar la necesidad de usar una transformacin de potencia (Box y Cox, 1964)
de la forma:

1
Y

La prueba de Atkinson estima un parmetro que se relaciona con la transformacin de potencia, por
la siguiente expresin: = 1-. Usualmente se hacen contrastes de hiptesis para =0 o intervalos de
confianza para . Si = 0, esto implica que = 1 y por lo tanto no es necesaria la transformacin de
potencia. Si la prueba resulta significativa (p menor que el nivel de significacin elegido) la
transformacin de potencia es aconsejable y el exponente de la transformacin est dado por 1-. A
los fines prcticos de la regresin lineal, las transformaciones quedan de la siguiente forma:
No transformar Y si =1 (es decir, si el intervalo de confianza para incluye al 1)
Transformar con Ln(Y) si =0 caso contrario tomar Y.

18

Regresin no lineal
Cuando los modelos lineales no pueden conseguir una adecuada modelacin de los valores medios
de una variable de respuesta o existen motivos para pensar que la relacin funcional sigue un modelo
intrnsecamente no lineal, entonces nos vemos forzados a abandonar el marco de la regresin lineal.

, sigue un modelo no lineal si la esperanza x


,
Diremos que Y x

es una funcin no

lineal de los parmetros. Ejemplos de modelos no lineales en una nica regresora son el modelo

0
logstico x,
, el modelo de Gompertz
1 1 e 2 x

x
Monomolecular x, 0 1 1 e 2

x, e
0

1 e 2x

o el

entre muchos otros.

La estimacin de los parmetros en estos modelos se puede hacer minimizando alguna medida de
discrepancia entre los valores observados y los predichos o maximizando los que se llama funcin de
verosimilitud. Cuando los errores son normales y homocedsticos el mtodo de mnimos cuadrados
es ptimo. En cualquier caso la solucin no es analtica sino numrica y requiere de algn algoritmo
iterativo para encontrar una solucin. No hay certeza de que el algoritmo converja y si lo hace puede
hacerlo en un lugar del espacio donde la solucin no es la ptima. Por lo tanto los valores iniciales
de los cuales parte un algoritmo son importantes para hallar una solucin y cualquiera que realice
una regresin no lineal tendr que prestar mucha atencin a este aspecto. Al igual que en el modelo
de regresin lineal es posible encontrar los errores estndares de los estimadoras y construir
intervalos de confianza y pruebas de hiptesis para los coeficientes basados en una prueba T. A modo
de ejemplo considere la relacin entre el porcentaje de plantas germinadas y el tiempo (en das)
transcurrido desde el inicio del ensayo. El grafico de dispersin correspondiente y el mismo con la
curva ajustada se presentan a continuacin.

19

98.70

72.85

72.85

Germinacion

Germinacion

98.70

47.00

21.15

47.00

21.15

-4.70

-4.70
1

11

15

Dia

11

15

Dia

Figura 7: Diagramas de dispersin del porcentaje de germinacin vs das (izquierda) y diagrama de


dispersin ms curva ajustada de un modelo logstico (derecha).

Los estimadores se presentan en el cuadro siguiente:


Anlisis de regresin no lineal
Modelo y alfa*(1-beta*exp(-gamma*x1))
Variable
y

N
64

CMError
123.46

Iteracin
5

Parmetros
ALFA
BETA
GAMMA

LI PAR LS PAR Val.Ini.


-1E30
1E30
136.18
-1E30
1E30 1.0E-03
-1E30
1E30 1.0E-03

Est.
123.24
0.02
-0.45

E.E.
6.16
0.03
0.23

T
p-valor
20.02 <0.0001
0.75
0.4574
-1.96
0.0541

Una aplicacin de los modelos no lineales es ajustar modelos lineales por partes. Considrese el
siguiente ejemplo, donde el investigador sabe que la respuesta (y) depende linealmente de x hasta un
cierto punto (alrededor de x=150). A partir de all la respuesta es indiferente a x, es decir entra en
meseta. El objetivo es estimar la tasa de crecimiento antes del alcanzar la meseta y estimar el punto
de

donde

ese

produce

el

quiebre

del

crecimiento.

El

modelo

propuesto

es

Y x x * x donde x vale 1 si x es mayor que 0 caso


contrario y el ajuste encontrado se muestra en el panel derecho de la siguiente figura.

20

93

93

86

86

100

100

79

79

72

72

65

65
45

86

127

168

209

250

45

86

127

168

209

250

El siguiente cuadro muestra los parmetros estimados, observndose que para x=139.56 ocurre el
quiebre del crecimiento lineal. Dado que contamos con una media del error estndar de esta
estimacin un intervalo de confianza aproximado del 95% es 139.562(5.86). La tasa de crecimiento
antes de que Y alcance la meseta es de 0.37 con un error estndar de 0.05.
Anlisis de regresin no lineal
Modelo y beta0+beta1*(x-(x-beta2)*(x>=beta2))
Variable
y

N
36

CMError
16.55

Iteracin
6

Parmetros
BETA0
BETA1
BETA2

LI PAR LS PAR Val.Ini.


-1E30
1E30 1.0E-03
-1E30
1E30 1.0E-03
-1E30
1E30
150.00

Est.
45.77
0.37
139.56

E.E.
5.78
0.05
5.86

T
7.92
7.07
23.80

p-valor
<0.0001
<0.0001
<0.0001

Un criterio para seleccin de modelos en regresin no lineal se basa en elegir el modelo que
minimiza el cuadrado medio del error. Aunque existen otros criterios no son aceptados
universalmente.

21

También podría gustarte