Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4.1.- Introducción
que sigue una distribución F1,n-k-1 bajo la hipótesis nula Ho.- bj = 0. Este estadístico
se calcula en el modelo con todas las variables incluidas hasta ese momento.
ALGORITMO BACKWARD
INICIO
k=m
No Fj es significativo
Sale Xj del modelo (o p-valor < a)
Si
FIN
-3-
- Se elimina aquella variable con menor Fj siempre que sea no significativo (menor
que un cierto valor crítico, o cuyo p-valor sea mayor que un a prefijado)
- El proceso se detiene cuanto todos los Fj de las variables incluidas son
significativos, o cuando se han eliminado todas las variables.
- La variable que sale en una etapa queda definitivamente fuera del modelo.
- Se incorpora aquella variable con mayor Fj siempre que sea significativo (mayor
que un cierto valor crítico, o cuyo p-valor sea menor que un a prefijado)
- El proceso se detiene cuanto todos los Fj de las variables excluidas son no
significativos, o cuando se han incorporado todas las variables.
- La variable que entra en una etapa queda definitivamente dentro del modelo.
-4-
ALGORITMO FORWARD
INICIO
k=0
Calcular Fh en el modelo:
Y = bo + bhXh + e
No
Fh es significativo
Si
k=1
Si Fj es significativo
Entra Xj al modelo (o p-valor < a)
No
FIN
-5-
Los criterios para entrada y salida de variables son generalmente una combinación de
los siguientes estadísticos:
1.- Correlación parcial entre cada variable Xj, fuera del modelo, y la variable
dependiente Y, eliminando el efecto lineal de las variables explicativas que ya
entraron al modelo (rYXj.{var. exp. dentro})
F para salir: Valor que toma la razón F para contrastar Ho: bj = 0, para cada
variable incorporada en el modelo de regresión. En caso de que el valor
observado del estadístico F sea significativo, la variable debe mantenerse en la
regresión, en caso contrario debe salir.
los Coeficientes de Inflación de Varianza: VIF (Xj) = 1/(1- R 2X j . {var. exp. dentro}).
Etapa 0
Y = b0 + e
-6-
Etapa 1
La primera variable que entra en la regresión, que sin pérdida de generalidad
supondremos es X1, es aquélla con mayor F para entrar, ó equivalentemente la que
presente mayor correlación con la variable Y. En efecto, si se considera el modelo:
Y = b0 + b1X1 + e
b 12
F =
S 2 ( b1 )
r (X, Y)å ( y i - y)
2 2
= 2
S
Por consiguiente, es evidente que el mayor valor para el estadístico F para entrar, lo
tendrá la variable que presente mayor coeficiente de correlación con la variable
respuesta Y.
Etapa 2
La segunda variable que ingresa al modelo, que sin pérdida de generalidad
supondremos es X2, es aquélla con el mayor valor del estadístico F para entrar
(siempre que sea mayor que un límite prefijado), evaluado sobre un modelo de
regresión donde estén X1 y X2, o equivalentemente la que presente mayor correlación
parcial(2) con la variable Y, ryx2.x1. Este estadístico se evalúa sobre todas las variables
fuera de la ecuación. Antes de incorporar la variable X2 debe verificarse su
correlación con la variable X1 para evitar problemas de colinealidad.
Y = b0 + b1X1 + b2X2 + e
Etapa 3
La variable con menor F para salir debe ser excluida de la ecuación si este valor es
menor que el de un límite prefijado. En caso contrario se mantiene dentro de la
ecuación.
Etapa 4
Entra la variable con mayor F para entrar, siempre que exceda un límite prefijado.
Antes de incorporar una nueva variable debe verificarse su tolerancia con las variables
ya incluidas para evitar problemas de multicolinealidad.
(1)
Véase Ejercicios 2.2
(2)
Véase Sección 1.11
-7-
ALGORITMO STEPWISE
INICIO
Variables en el modelo: 0
Variable fuera del modelo: k
Si Fj para entrar ³ 4
Entra Xj al modelo
si Tol(j) > 0.10
No
No
Si ¿Entró alguna
variable en esta
etapa?
No
FIN
-8-
Laboratorio 7.-
UTILIZACION DEL PAQUETE SPSS (VERSION 10.0) PARA REALIZAR UN ANALISIS DE
REGRESION PASO A PASO
Y = b0 + e
Y = b0 + bi Xi + e (i=1,2...k)
Y = b0 + bi Xi + bj Xj + e (i,j=1,2...k; i¹j)
.
.
Y = b0 + b1 X1 + b2 X2 + .... + bk Xk + e
siendo X(p) la matriz cuyas columnas están formadas por el vector 1 asociado con el
término constante, y por las (p – 1) variables explicativas a retener. La submatriz X(r)
contiene a su vez las r variables regresoras que se eliminarán del modelo completo. El
vector de parámetros b se ha particionado en forma análoga a la matriz X, y manera el
vector de estimadores mínimo cuadráticos:
æ b ( p) ö
b = (XtX)-1XtY = ç ÷
çb ÷
è ( r ) ø
El estimador de la varianza residual queda:
Yt Y - btXt Y
S2 =
n - k -1
Y t ( I - X( X t X ) -1 X t ) Y
=
n - k -1
Y = X(p) b(p) + e
b(p) = ( X (t p) X ( p ) ) -1 X (t p ) Y
Y t Y - b (t p ) X p t Y
S 2( p ) =
n-p
Y ( I - X ( p) ( X (t p) X ( p) ) -1 X (t p ) ) Y
t
=
n-p
y en este caso los valores ajustados de la variable respuesta se denotarán mediante
~
y i (p).
-11-
1.- E(b(p)) = b ( p ) + ( X (t p) X ( p ) ) -1 X (t p ) X ( r ) b ( r )
En efecto:
E(b(p)) = E ( ( X (t p) X ( p ) ) -1 X (t p ) Y )
æ b ( p) ö
= E ( ( X (t p) X ( p ) ) -1 X (t p ) ( ( X ( p) , X ( r ) )çç ÷ + e) )
÷
è b(r) ø
= ( X (t p) X ( p ) ) -1 X (t p) X ( p) b ( p ) + ( X (t p) X ( p ) ) -1 X (t p ) X ( r ) b ( r )
= b(p) + Ab(r)
Es decir, b(p) será un estimador sesgado de bp, a menos que br, el vector de
coeficientes de regresión de las variables eliminadas sea nulo, o que las variables
retenidas sean ortogonales respecto de las eliminadas, es decir : X (t p) X ( r ) = q.
Var(b(p)) = s2 ( X (t p) X ( p ) ) -1
y
Var(b) = s2 (XtX)-1
y por tanto:
entonces:
Var (bj) £ Var(bj(p))
b ( r ) t X (t r ) ( I - X ( p ) ( X (t p) X ( p) ) -1 X ( p ) ) X (t r ) b ( r )
E( S 2( p ) ) = s +2
n-p
(
V ( ~y * ) = s 2 1 + x ot (X t X ) -1 x o )
Sin embargo, si se utiliza el modelo ideal se tiene que:
~
y = x (t p ) b( p )
~
con valor esperado:
E( ~
y ) = xt(p) b(p) + xt(p) A b( r)
ya que:
~
E( ~y ) = E ( xto (p) b p ) = xto (p) ( b(p) + A b(r) ) = xto (p) b(p) + xto (p) A b(r )
ECM ( ~
y )= E( ~
y -E( ~
y ) )2
= Var ( ~
y )+(E( ~
y ) – xto b )2
= s2 ( 1 + xto (p) ( Xt(p) X(p) )-1 xo (p)) + (xto (p) A b(r )- xto (r) b(r))2
Los desarrollos anteriores pueden servir como referencia teórica importante para la
selección de variables en el modelo de regresión. Esto puede resumirse en las
siguientes consideraciones:
a.- La eliminación de variables del modelo puede dar lugar a una mejoría de la
precisión de los estimadores de los parámetros bj, aunque algunas de las variables
eliminadas tengan capacidad para hacer aportes sustanciales al modelo. Sin
embargo, eliminar variables del modelo introduce sesgos en las estimaciones de
los coeficientes de las variables retenidas, así como también en las estimaciones
de la variable respuesta.
b.- Si las variables eliminadas tienen efectos pequeños (b(r) ® q(r)), los errores
cuadráticos medios de las estimadores sesgados serán menores que las varianzas
de las estimadores insesgados. Es decir, la cantidad de sesgo introducido será
menor que la reducción de la varianza, lo que en el fondo significa que no es
conveniente retener variables insustanciales, esto es, variables con coeficiente br
~ q. Este peligro queda expresado en el hecho de que las varianzas de los
estimadores de los parámetros y de la respuesta se incrementan, si ello se
permitiese.
Cp de Mallows
E( ~
y i - E(yi) )2 = V( ~
y i ) + ( E( ~
y i ) – E (yi) )2 (1)
siendo ~
y i la estimación obtenida en el modelo reducido y E(yi) el valor esperado de yi
en el modelo completo.
Una medida del sesgo global que se produce en el modelo reducido, se define en la
forma:
n
SS(p) = å ( E ( ~y i ) - E ( yi ) )2
i =1
-14-
éæ n 2ö
n ù
Gp =
1
êç å (( E ( ~
y i ) - E ( y i ) ) ÷ + å V( ~
y i )ú
s2 ëè i =1 ø i =1 û
SS( p) 1 n
= + å V( ~y i )
s2 s2 i =1
n
å V( ~y i ) = ps2
i =1
por lo que:
SS( p)
Gp = + p (2)
s2
Además, el valor esperado de la suma de cuadrados residual de una ecuación con p-1
variables explicativas, y un término constante, queda descrito mediante la expresión:
E (SCE(p)) = SS(p) + ( n - p ) s2
ya que:
= ~ ( p) ))t (E(Y) – E( Y
s2 (n – p) + (E(Y) – E( Y ~ ( p) ))
= s2 (n – p) + SS(p) (3)
SS(p) = E(SCE(p)) - s2 (n – p)
E(SCE( p) )
Gp = - (n - p ) + p
s2
E(SCE( p)
= - ( n - 2 p)
s2
Es evidente, en virtud de la relación (2), que cuando la medida de sesgo global tiene a
cero entonces Gp tiende a p. Este importante resultado llevó a Mallows a definir un
indicador Cp, del sesgo que se incorpora en las estimaciones cuando se trabaja con
menos variables de las requeridas en el verdadero modelo. El indicador en cuestión
toma la forma:
SCE( p)
Cp = - (n - 2p)
S2