Está en la página 1de 15

-1-

TEMA 4.- "BUSQUEDA DE LA MEJOR ECUACION DE REGRESION”

4.1.- Introducción

En general, la identificación de las variables explicativas que deben ser


incluidas en un modelo de regresión no es una tarea sencilla. Uno de los
procedimientos utilizados consiste en disponer al inicio de un conjunto potencial de m
variables predictoras (que pudiera incluir transformaciones de los predictores básicos
e interacciones):
Z1, Z2, ... Zm
a partir de las cuales vamos a seleccionar un subconjunto de k variables:

X1, X2, ... Xk (k £ m)


con las cuales se construirá el “mejor” modelo de regresión de acuerdo con algún
criterio.
En este tema presentaremos algunos procedimientos algorítmicos que nos
permitirán llevar cabo esta tarea.

Asumiremos entonces que el problema ha sido adecuadamente planteado, se ha


identificado claramente la variable a explicar Y, y se ha determinado el conjunto de
variables explicativas que deben ser inicialmente consideradas. Estas variables deben
ser cuidadosamente seleccionadas con los expertos en el área de aplicación, y además
deben ser medibles y observables simultáneamente con la variable Y.

En general, para seleccionar una “buena” ecuación de regresión podrían


seguirse dos criterios contrapuestos:

- Escoger la ecuación con la mayor cantidad de variables, de manera de obtener


predicciones confiables.

- Escoger la ecuación con el menor número de variables, de manera de reducir el


costo de obtención de la información.

En este sentido conviene mencionar el principio de “Parsimonia” que establece


que los mejores modelos son los más simples y sencillos de aplicar, siempre y cuando,
por supuesto, expliquen de manera importante a la variable Y.

4.2.- Regresión BACKWARD (Eliminación Descendente)

En este método se considera inicialmente el modelo con las m variables


potenciales, y se realizan contrastes F parciales para determinar cuál es la variable que
menos contribuye a la regresión. Si esta contribución no es significativa, la variable se
elimina del modelo. Se realiza ahora el ajuste con las variables restantes, y se va
repitiendo el procedimiento hasta obtener el modelo con las k variables, considerado
como el mejor.
-2-

El criterio para establecer la contribución de una variable se basa en el estadístico


de contraste parcial:
2
æ bj ö
Fj = ç ÷
ç S( b ) ÷
è j ø

que sigue una distribución F1,n-k-1 bajo la hipótesis nula Ho.- bj = 0. Este estadístico
se calcula en el modelo con todas las variables incluidas hasta ese momento.

A continuación presentamos el procedimiento de eliminación descendente, escrito en


forma algorítmica:

ALGORITMO BACKWARD

INICIO

k=m

Ajustar el modelo con k variables

Hallar la variable Xj dentro del


k = k-1
modelo, con menor Fj
(o con mayor p-valor)

No Fj es significativo
Sale Xj del modelo (o p-valor < a)

Si

FIN
-3-

Es importante observar que:

- Se inicia con el modelo más complejo

- En cada iteración se ajusta un único modelo y se calcula el estadístico Fj para


todas las variables que están dentro.

- Se elimina aquella variable con menor Fj siempre que sea no significativo (menor
que un cierto valor crítico, o cuyo p-valor sea mayor que un a prefijado)
- El proceso se detiene cuanto todos los Fj de las variables incluidas son
significativos, o cuando se han eliminado todas las variables.

- La variable que sale en una etapa queda definitivamente fuera del modelo.

4.3.- Regresión FORWARD (Incorporación Ascendente)

Este método opera en un sentido inverso al método anterior, es decir considera


inicialmente el modelo sólo con el término constante, y se van incluyendo variables
hasta que la ecuación de regresión sea satisfactoria en cierto sentido. En cada etapa se
realizan contrastes parciales para determinar cuál es la variable fuera del modelo que
más contribuye a la regresión. Si esta contribución es significativa, la variable se
incorpora al modelo, en caso contrario el proceso finaliza.

El método FORWARD es superior al BACKWARD en el sentido de que no


trabaja con más variables de las necesarias, por lo que es más ventajoso económica y
computacionalmente. Su limitación radica en que no refleja el efecto que tiene cada
variable introducida sobre las variables que ya han entrado en la regresión. Esta
deficiencia es superada en el proceso de selección paso a paso que describiremos en el
próximo apartado.

Es importante observar que:

- Se inicia con el modelo más sencillo

- En cada iteración se ajustan tantos modelos como variables fuera, y se calcula el


estadístico Fj para cada una de ellas. En cada ajuste se asume que esa variable
particular está adentro.

- Se incorpora aquella variable con mayor Fj siempre que sea significativo (mayor
que un cierto valor crítico, o cuyo p-valor sea menor que un a prefijado)
- El proceso se detiene cuanto todos los Fj de las variables excluidas son no
significativos, o cuando se han incorporado todas las variables.

- La variable que entra en una etapa queda definitivamente dentro del modelo.
-4-

A continuación presentamos el procedimiento de incorporación ascendente, escrito en


forma algorítmica:

ALGORITMO FORWARD

INICIO

k=0

Hallar la variable Xh más


correlacionada con Y

Calcular Fh en el modelo:
Y = bo + bhXh + e

No
Fh es significativo

Si

k=1

Hallar la variable Xj fuera del


modelo, con mayor Fj
k = k+1 (o con menor p-valor)

Si Fj es significativo
Entra Xj al modelo (o p-valor < a)

No

FIN
-5-

4.4.- Regresión Stepwise (Paso a paso)

Este procedimiento constituye una revisión mejorada del método de selección


ascendente. La mejoría consiste en que en cada etapa se reexamina la regresión con
las variables anteriores. Una variable que por sí sola puede ser la mejor variable de
regresión en un momento dado, puede no ser importante en una etapa posterior debido
a su relación lineal con otras variables ya incluidas. Como en cada etapa cada variable
es examinada, puede ocurrir que una variable particular sea aceptada en una etapa y
rechazada en otra.

Los criterios para entrada y salida de variables son generalmente una combinación de
los siguientes estadísticos:

1.- Correlación parcial entre cada variable Xj, fuera del modelo, y la variable
dependiente Y, eliminando el efecto lineal de las variables explicativas que ya
entraron al modelo (rYXj.{var. exp. dentro})

2.- F para entrar y F para salir

F para entrar: Valor que tomaría la razón F para contrastar Ho: bj = 0, si la


variable correspondiente estuviese en el modelo de regresión. En caso de que F
sea significativo, la variable debe entrar en la regresión. Este estadístico se
calcula para todas las variables que no están en la ecuación, y que
potencialmente podrían estarlo.

F para salir: Valor que toma la razón F para contrastar Ho: bj = 0, para cada
variable incorporada en el modelo de regresión. En caso de que el valor
observado del estadístico F sea significativo, la variable debe mantenerse en la
regresión, en caso contrario debe salir.

3.- Coeficientes de Tolerancia: Tol(Xj) = 1- R 2X j . {var. exp. dentro}, o equivalentemente

los Coeficientes de Inflación de Varianza: VIF (Xj) = 1/(1- R 2X j . {var. exp. dentro}).

Estos dos criterios permiten controlar la entrada de variables que podrían


presentar colinealidad con las ya incluidas en el modelo.

Descripción de las diferentes etapas del procedimiento paso a paso:

Etapa 0

No ha entrado ninguna variable y se considera el modelo:

Y = b0 + e
-6-

Etapa 1
La primera variable que entra en la regresión, que sin pérdida de generalidad
supondremos es X1, es aquélla con mayor F para entrar, ó equivalentemente la que
presente mayor correlación con la variable Y. En efecto, si se considera el modelo:

Y = b0 + b1X1 + e

el estadístico F para entrar queda(1):

b 12
F =
S 2 ( b1 )

r (X, Y)å ( y i - y)
2 2
= 2
S
Por consiguiente, es evidente que el mayor valor para el estadístico F para entrar, lo
tendrá la variable que presente mayor coeficiente de correlación con la variable
respuesta Y.

Etapa 2
La segunda variable que ingresa al modelo, que sin pérdida de generalidad
supondremos es X2, es aquélla con el mayor valor del estadístico F para entrar
(siempre que sea mayor que un límite prefijado), evaluado sobre un modelo de
regresión donde estén X1 y X2, o equivalentemente la que presente mayor correlación
parcial(2) con la variable Y, ryx2.x1. Este estadístico se evalúa sobre todas las variables
fuera de la ecuación. Antes de incorporar la variable X2 debe verificarse su
correlación con la variable X1 para evitar problemas de colinealidad.

El modelo en esta etapa queda:

Y = b0 + b1X1 + b2X2 + e

Etapa 3
La variable con menor F para salir debe ser excluida de la ecuación si este valor es
menor que el de un límite prefijado. En caso contrario se mantiene dentro de la
ecuación.

Etapa 4
Entra la variable con mayor F para entrar, siempre que exceda un límite prefijado.
Antes de incorporar una nueva variable debe verificarse su tolerancia con las variables
ya incluidas para evitar problemas de multicolinealidad.

Los pasos 3 y 4 se repiten sucesivamente, hasta que no se admita o excluya ninguna


variable del modelo.

(1)
Véase Ejercicios 2.2
(2)
Véase Sección 1.11
-7-

ALGORITMO STEPWISE

INICIO

Variables en el modelo: 0
Variable fuera del modelo: k

Hallar la variable Xj fuera del


modelo, con mayor F para entrar

Si Fj para entrar ³ 4
Entra Xj al modelo
si Tol(j) > 0.10

No

Hallar la variable Xh dentro del


modelo, con menor F para salir

Si Fh para salir £ 3.9


Sale Xh del modelo

No

Si ¿Entró alguna
variable en esta
etapa?

No

FIN
-8-

Laboratorio 7.-
UTILIZACION DEL PAQUETE SPSS (VERSION 10.0) PARA REALIZAR UN ANALISIS DE
REGRESION PASO A PASO

1.- Lea el archivo de datos HIGADO.SAV, que contiene información


correspondiente a n=54 pacientes que han ingresado a la Unidad Quirúrgica de
un cierto hospital H, y que han sido sometidos a una operación de hígado. Las
variables consideradas son las siguientes:

X1 SANGRE Indice de coagulación de la sangre


X2 PRONOST Indice de pronóstico
X3 ENZIMAS Test de funcionamiento enzimático
X4 HIGADO Test de funcionamiento del hígado
Z TIEMPO Tiempo de sobrevivencia luego de la operación del
hígado

2.- Utilice la secuencia TRANSFORM/COMPUTE para crear una nueva variable,


denominada LOGTIEMP, definida como el logaritmo decimal de la variable
TIEMPO.

3.- Utilice la secuencia ANALYZE/REGRESSION/LINEAR/METHOD: Stepwise,


para realizar un análisis de regresión paso a paso. En el cuadro de diálogo escoja
la variable LOGTIEMP como variable dependiente y las 4 restantes como
variables independientes. Escoja la opción STATISTICS/COLLINEARITY
DIAGNOSTICS. Rellene los cuadros anexos correspondientes a las 5 etapas del
procedimiento paso a paso (utilice 3 decimales) e indique el modelo definitivo.
-9-

4.5.- Todas las Posibles Regresiones (All posible regressions)

Como punto de partida del problema se considera que el investigador dispone


de información relacionada con las variables Y, X1, X2, ... Xk, y que además el
conjunto de variables son las requeridas para explicar debidamente el comportamiento
de la variable Y.
En este método se considera ajustar todos los posibles modelos de regresión,
que en total suman 2k ecuaciones:

Y = b0 + e
Y = b0 + bi Xi + e (i=1,2...k)
Y = b0 + bi Xi + bj Xj + e (i,j=1,2...k; i¹j)
.
.
Y = b0 + b1 X1 + b2 X2 + .... + bk Xk + e

que en total suman 2k ecuaciones de regresión.

Haciendo consideraciones basadas en la información contenida en las tablas de


ANOVA, en los coeficientes de correlación entre las variables, coeficientes de
correlación parcial, coeficientes de correlación múltiple, pero fundamentalmente en el
estadístico Cp de Mallows, que estudiaremos detalladamente a continuación, se
decide seleccionar uno de los modelos. El modelo seleccionado es considerado “el
mejor”, en el sentido de que produce estimadores precisos y con mínimo sesgo.

Consecuencia de la mala especificación del modelo

Si partimos del supuesto de que se dispone de k variables explicativas candidatas


potenciales a ser incorporadas al modelo {X1, ... , Xk}, las cuales realmente pueden
aportar información sustantiva respecto de Y, y que además el número de individuos
es tal que n ³ k+1, entonces el modelo completo que contiene las k variables
explicativas queda descrito mediante la ecuación:
k
Yi = bo + å b j X ij + ei ( i = 1, 2 , ..., n )
j=1

Se propone un modelo que incluye el término constante bo , el cual podría más


bien considerarse como un candidato a la selección, sin embargo en muchas
oportunidades se prefiere forzarlo por consideraciones de tipo práctico las cuales
usualmente mejoran el ajuste.

Supongamos que de la ecuación anterior se eliminan r variables explicativas,


partiendo de la hipótesis de que las restantes (k-r) variables constituyen el
subconjunto ideal de variables en el modelo. En ese caso el número de parámetros a
estimar será p = k+1-r.
-10-

Designaremos, para efectos de los desarrollos que haremos a continuación, como


“modelo completo” al que incorpora todas las variables explicativas, el cual en forma
particionada puede escribirse:
æ b ( p) ö
Y = Xb + e = ( X(p) X(r) ) çç ÷+ e
÷
è b ( r ) ø

= X(p) b(p) + X(r) b(r) + e

siendo X(p) la matriz cuyas columnas están formadas por el vector 1 asociado con el
término constante, y por las (p – 1) variables explicativas a retener. La submatriz X(r)
contiene a su vez las r variables regresoras que se eliminarán del modelo completo. El
vector de parámetros b se ha particionado en forma análoga a la matriz X, y manera el
vector de estimadores mínimo cuadráticos:

æ b ( p) ö
b = (XtX)-1XtY = ç ÷
çb ÷
è ( r ) ø
El estimador de la varianza residual queda:

Yt Y - btXt Y
S2 =
n - k -1

Y t ( I - X( X t X ) -1 X t ) Y
=
n - k -1

y las estimaciones de la variable respuesta se denotarán mediante ~


yi .

A su vez, el “modelo reducido” puede escribirse en la forma:

Y = X(p) b(p) + e

donde el correspondiente vector de estimadores de los parámetros en este modelo es:

b(p) = ( X (t p) X ( p ) ) -1 X (t p ) Y

y la varianza residual estimada es:

Y t Y - b (t p ) X p t Y
S 2( p ) =
n-p
Y ( I - X ( p) ( X (t p) X ( p) ) -1 X (t p ) ) Y
t
=
n-p
y en este caso los valores ajustados de la variable respuesta se denotarán mediante
~
y i (p).
-11-

Propiedades de los estimadores en el modelo ideal

Las propiedades más importantes del vector de estimadores b(p) y de la varianza


residual S 2( p ) en el modelo ideal, son las siguientes:

1.- E(b(p)) = b ( p ) + ( X (t p) X ( p ) ) -1 X (t p ) X ( r ) b ( r )

En efecto:

E(b(p)) = E ( ( X (t p) X ( p ) ) -1 X (t p ) Y )

æ b ( p) ö
= E ( ( X (t p) X ( p ) ) -1 X (t p ) ( ( X ( p) , X ( r ) )çç ÷ + e) )
÷
è b(r) ø

= ( X (t p) X ( p ) ) -1 X (t p) X ( p) b ( p ) + ( X (t p) X ( p ) ) -1 X (t p ) X ( r ) b ( r )

= b(p) + Ab(r)

Es decir, b(p) será un estimador sesgado de bp, a menos que br, el vector de
coeficientes de regresión de las variables eliminadas sea nulo, o que las variables
retenidas sean ortogonales respecto de las eliminadas, es decir : X (t p) X ( r ) = q.

2.- Las matrices de varianzas y covarianzas de los vectores de estimadores en el


modelo reducido b(p) y en el completo b son:

Var(b(p)) = s2 ( X (t p) X ( p ) ) -1

y
Var(b) = s2 (XtX)-1

A su vez, la varianza del j-ésimo coeficiente de regresión en el modelo reducido


es de la forma:

Var(bj(p)) = s2 ( (n-1) S 2X j (1 - R 2X j .{X h :h =1... p -1;h ¹ j} )-1

y la varianza del correspondiente estimador obtenido en el modelo completo es:

Var(bj) = s2 ( (n-1) S 2X j (1 - R 2X j .{X h :h =1... k; h ¹ j} )-1

Como además se cumple que:

R 2X j .{X h :h =1... k; h ¹ j} ³ R 2X j .{X h :h =1... p -1;h ¹ j}


-12-

y por tanto:

1 - R 2X j .{X h :h =1... k; h ¹ j} £ 1 - R 2X j .{X h :h =1... p -1;h ¹ j}

entonces:
Var (bj) £ Var(bj(p))

es decir, los estimadores de los coeficientes de regresión son más precisos en el


modelo reducido que en el completo.

Ello nos permite concluir que la eliminación de variables explicativas en el


modelo completo reduce la varianza de los estimadores.

3.- En el modelo completo la varianza residual es un estimador insesgado de s2,


mientras que la varianza residual obtenida a partir de la información del modelo
ideal es un estimador sesgado, ya que:

b ( r ) t X (t r ) ( I - X ( p ) ( X (t p) X ( p) ) -1 X ( p ) ) X (t r ) b ( r )
E( S 2( p ) ) = s +2
n-p

La demostración de este resultado es relativamente sencilla y se deja como


ejercicio.

4.- Si se requiere predecir la respuesta para un vector de observaciones de las


variables explicativas:

xot = ( xto(p) , xto(r) )

Al utilizar el modelo completo, el valor predicho será:


~
y * = x ot b *
~
cuyo valor esperado es xot b, y su varianza es:

(
V ( ~y * ) = s 2 1 + x ot (X t X ) -1 x o )
Sin embargo, si se utiliza el modelo ideal se tiene que:
~
y = x (t p ) b( p )
~
con valor esperado:
E( ~
y ) = xt(p) b(p) + xt(p) A b( r)
ya que:
~
E( ~y ) = E ( xto (p) b p ) = xto (p) ( b(p) + A b(r) ) = xto (p) b(p) + xto (p) A b(r )

Por su parte, el error cuadrático medio de la predicción en el modelo ideal,


queda:
-13-

ECM ( ~
y )= E( ~
y -E( ~
y ) )2

= Var ( ~
y )+(E( ~
y ) – xto b )2

= s2 ( 1 + xto (p) ( Xt(p) X(p) )-1 xo (p) ) + ( E ( ~


y ) – xto (p) b(p) - xto (r)
b(r) )2

= s2 ( 1 + xto (p) ( Xt(p) X(p) )-1 xo (p)) + (xto (p) A b(r )- xto (r) b(r))2

es decir en el modelo completo la estimación es insesgado más no lo es en el


modelo ideal.

Los desarrollos anteriores pueden servir como referencia teórica importante para la
selección de variables en el modelo de regresión. Esto puede resumirse en las
siguientes consideraciones:

a.- La eliminación de variables del modelo puede dar lugar a una mejoría de la
precisión de los estimadores de los parámetros bj, aunque algunas de las variables
eliminadas tengan capacidad para hacer aportes sustanciales al modelo. Sin
embargo, eliminar variables del modelo introduce sesgos en las estimaciones de
los coeficientes de las variables retenidas, así como también en las estimaciones
de la variable respuesta.

b.- Si las variables eliminadas tienen efectos pequeños (b(r) ® q(r)), los errores
cuadráticos medios de las estimadores sesgados serán menores que las varianzas
de las estimadores insesgados. Es decir, la cantidad de sesgo introducido será
menor que la reducción de la varianza, lo que en el fondo significa que no es
conveniente retener variables insustanciales, esto es, variables con coeficiente br
~ q. Este peligro queda expresado en el hecho de que las varianzas de los
estimadores de los parámetros y de la respuesta se incrementan, si ello se
permitiese.

Cp de Mallows

Mallows (1973) ha propuesto un criterio de selección de variables basado en la


evaluación del error cuadrático medio de un valor ajustado, esto es:

E( ~
y i - E(yi) )2 = V( ~
y i ) + ( E( ~
y i ) – E (yi) )2 (1)

siendo ~
y i la estimación obtenida en el modelo reducido y E(yi) el valor esperado de yi
en el modelo completo.

Una medida del sesgo global que se produce en el modelo reducido, se define en la
forma:
n
SS(p) = å ( E ( ~y i ) - E ( yi ) )2
i =1
-14-

y por (1), el error cuadrático medio total estandarizado queda:

éæ n 2ö
n ù
Gp =
1
êç å (( E ( ~
y i ) - E ( y i ) ) ÷ + å V( ~
y i )ú
s2 ëè i =1 ø i =1 û

SS( p) 1 n
= + å V( ~y i )
s2 s2 i =1

De manera muy sencilla se puede demostrar que:

n
å V( ~y i ) = ps2
i =1

por lo que:
SS( p)
Gp = + p (2)
s2

Además, el valor esperado de la suma de cuadrados residual de una ecuación con p-1
variables explicativas, y un término constante, queda descrito mediante la expresión:

E (SCE(p)) = SS(p) + ( n - p ) s2

ya que:

E (SCE(p)) = E (Yt(I – Hp)Y)

= tr ((I – Hp)s2 + (Xb)t (I - Hp) Xb

= s2 (n – p) + (Xb)t (I – Hp)t (I – Hp) Xb

= s2 (n – p) + (Xb - Hp Xb)t (Xb - HpXb)

= ~ ( p) ))t (E(Y) – E( Y
s2 (n – p) + (E(Y) – E( Y ~ ( p) ))

= s2 (n – p) + SS(p) (3)

Por lo tanto, despejando la medida de sesgo global se tiene que:

SS(p) = E(SCE(p)) - s2 (n – p)

Sustituyendo en (2), el error cuadrático medio total estandarizado puede escribirse en


la forma:
-15-

E(SCE( p) )
Gp = - (n - p ) + p
s2

E(SCE( p)
= - ( n - 2 p)
s2

Es evidente, en virtud de la relación (2), que cuando la medida de sesgo global tiene a
cero entonces Gp tiende a p. Este importante resultado llevó a Mallows a definir un
indicador Cp, del sesgo que se incorpora en las estimaciones cuando se trabaja con
menos variables de las requeridas en el verdadero modelo. El indicador en cuestión
toma la forma:

SCE( p)
Cp = - (n - 2p)
S2

donde S2 es calculado a partir del modelo con las k variables explicativas.

También podría gustarte