Está en la página 1de 5

1

REGRESIN STEPWISE (PASO A PASO) Prof.: Sonia Salvo Garrido Cuando el nmero de variables predictoras es superior a 10 este mtodo es ms eficiente, en el sentido que ajusta mucho menos modelos si se compara, por ejemplo, con el de todos los modelos de regresin posibles. Algoritmo de bsqueda: l principio bsico del mtodo es seleccionar una a una !paso a paso" cada una de las variables que sean importantes !en el sentido que hagan una contribucin significativa para e#plicar la varian$a de la variable dependiente" % que integrarn el modelo final, para lo cual se contemplan los siguientes pasos& Paso 1: se ajustan k modelos univariantes ! k modelos de regresin lineal simple" uno para cada una de las variables independientes X k disponibles. 'ara cada modelo se calcula

F=

CMR( X k ) , CME ( X k )

con los valores e#tra(dos directamente de la tabla de )*+,). -ecordemos que para un modelo univariable, CMR ! X k " = SCR ! X k " mide la reduccin de la variacin total de Y asociado con el uso de la variable X k . )quella variable que proporcione el ma%or valor de . ser la candidata a ingresar al modelo, siempre que supere un valor preestablecido, el cual est asociado a un nivel de significacin fijo. n caso contrario, el mtodo determina que ninguna variable cumple con los requisitos m(nimos, en cu%o caso el programa termina. Paso 2: /upongamos, por ejemplo, que X 0 ingres en la primera etapa. )hora se ajustan todos los modelos posibles con dos variables independientes en los que la variable X 0 es una de ellas. 'ara estos modelos se calcula el . parcial, esto es
2 1 ( j X0) j F= = . 2 CME ( X 0 , X j ) ( ) S j CMR X

n esta e#presin CMR( X j X 0 ) corresponde al C3- de un modelo que contiene dos variables, una de las cuales es X 0 . l estad(stico . nos sirve entonces para probar la hiptesis H 0 & j = 0 cuando tanto j como 0 estn en el modelo % es aplicado para los k 1 modelos posibles construidos de esta forma. *uevamente la variable X j que proporcione un ma%or valor para el estad(stico . ser la que se incluir en el modelo, siempre que ella e#ceda el valor de . preestablecido. Paso 3: /upongamos que X 4 se agrega en la segunda etapa. )hora, el mtodo e#amina si alguna de las variables independientes %a incluidas en el modelo debe ser eliminada, considerando estad(sticos de prueba . condicionales como el recin visto. n nuestro caso, en esta etapa slo disponemos de una variable adicional en el modelo, X 0 , por tanto, el nico test estad(stico parcial que podemos reali$ar corresponde a 2 1 CMR( X 0 X 4 ) F= = 0 2 CME ( X 4 , X 0 ) S 0

( )

n etapa posteriores, se reali$arn test parciales como ste, para cada una de las variables %a ingresadas en el modelo, sin considerar la ltima agregada. 5a variable para la cual el valor de . sea menor, ser eliminada del modelo, siempre que este valor sea menor que el valor de . m(nimo preestablecido. Paso 4: /upongamos ahora que retenemos X 0 % que por lo tanto, ambas variables X 4 % X 0 estn en el modelo. l procedimiento contina, e#aminando cual de las variables an fuera del modelo, es la pr#ima en ingresar, ajustando todos los modelos posibles con tres variables independientes, de las cuales dos corresponden a las %a ingresadas X 4 % X 0 . 6na ve$ seleccionada la tercera variable, e#amina si alguna de las dos primeras debe ser eliminada, % as( sucesivamente, hasta que no ha%a ms variables que cumplan el requisito de un . m(nimo para ingresar en el modelo en cu%o caso el proceso termina. l procedimiento /tep7ise permite a una variable ingresar en el modelo % luego ser retirada de l si su contribucin deja de ser significativa luego del ingreso de otras al modelo. #isten criterios para seleccionar el mejor subconjuntos de variables predictoras, los ms usados son& 1. 8odos los modelos de regresin. 1 1. Criterio de Rk o C3 . 4. Criterio C p de 3allo7s. l primero es el ms simple, considera todas las regresiones posibles de acuerdo a un criterio preestablecido por el investigador. 5a ma%or dificultad es que si tenemos k variables predictoras, debemos ajustar 1 k regresiones. 'or esta ra$n no es recomendable cuando ha% ms de 10 variables predictoras. l segundo est basado en el coeficiente de correlacin mltiple. /e busca el menor subconjuntos de 1 variables predictoras que proporcionan el ma%or valor de Rk . /e considera, por ejemplo, que para que una variable sea incluida en el modelo, ella debe contribuir en al 1 menos un 19 en el aumento del valor de Rk . Como ste no considera el nmero de variables incorporadas en el modelo, se utili$a el ajustado, definido por
1 Ra =1

n 1 SCE CME = n ( k + 1) SCT SCT :! n 1"

Criterio C p de 3allo7s. ste criterio se relaciona con la suma de cuadrados del error total de los n valores ajustados por cada uno de los diferentes modelos. l valor del C3 involucra una componente de sesgo % una componente de error aleatorio. /e define por&
Cp = SCE p CME X 1 ,..., X p

2i = E [Yi ] , entonces C p es Cuando no e#iste sesgo en el modelo de regresin, esto es cuando E Y apro#imadamente igual a p .

) !n 1 p"

[ ]

ste resultado nos proporciona un criterio prctico para determinar el nmero de variables a ser incluidas en el modelo. n efecto, si graficamos los valores de C p versus p , aquellos valores con sesgo menor tienden a estar cerca de la l(nea C p = p , mientras que aquellos con sesgo ma%or, tienden a caer considerablemente ms lejos sobre esta l(nea.

)l usar este criterio, tratamos de identificar subconjuntos de variables para los cuales& 1. el valor de C p es peque;o % 1. C p est cerca de p Conjuntos de variables con valores peque;os de C p implican C3 total tambin peque;os, % cuando adems el valor de C p est cercano a p , el sesgo del modelo de regresin es tambin peque;o. EJEMPLO <ada la siguiente informacin, la /C- para todos los modelos posible& ,ariable X1 X1 X4 X1 X 1 X1X 4 X1X4 X1 X 1 X 4 *inguna /C1=>0.?0 4?@0.A@ 4@A0.@0 @114.A0 @00=.@= 4>01.40 @00=.A=

p
1 1 1 4 4 4 0 1

g.l. 14 14 14 11 11 11 11 10

/C 10@@.? 1>>1.4= 1A01.>0 401.00 1?.?@ 1?A0.=0 1?.4@ @01?.10

1 Ra

C3 10?.>?@ >>.01 A0.0> 14.>@ 0.76 >?.@A 0.>A 11?.0=

Cp

0.@0>@ 0.?>4? 0.??0? 0.=004 0.9969 0.?A=0 0.==>0 0

411>.1 11@0.01 1400.1 4?A.> 2.3 1101.1 4.=? ?=44.>

1. 'ara cada uno de los siguientes criterios, indique que conjunto de variables independientes 1 recomendar(a usted como el mejor conjunto de predictoras. Ra , C3 % C p . 1. -ealice el procedimiento /tep7ise, BCul fue el modelo seleccionadoC. Coincide con el anteriorC. So!"#$%&: 1.D Criterio 'or este criterio se eligen las variables X 1 , X 4 , pues con las tres variables predictoras el incremento 1 del Ra no es superior al 19.
1 'or el C3 , se elige el con menor valor porque Ra aumenta slo si C3 disminu%e. 'or lo tanto, el X X conjunto de variables es 1 , 4 . 'or el C p , el menor valor es 1.4@, que corresponde al conjunto de variables X 1 , X 4 % est cerca de p, que en este caso es 4. Con este valor peque;o tenemos C3 tambin peque;o % el sesgo del modelo es tambin peque;o.
1 Ra &

'or lo tanto, por los tres criterios seleccionamos el modelo


Yi = 0 + X i1 + 1 X i 4 + i

2. P'o#()$*$(&+o S+(,-$s(. Paso 1: )justar tres modelos univariados. . preestablecido& F!1, 14E0.0@" = 0.4 ,ariables X1 C31=>0.?0 C3 10?.>?@ . 1>.A1

X1 X4

4?@0.A@ 1A01.>0

>>.01 A0.0>

47.4 00.00

'or lo tanto, elegimos el X 1 porque tiene el ma%or . % supera el preestablecido. Paso 2: )justar todos los modelos posibles con dos variables predictoras, donde X 1 es una de ellas % calcular el . parcial.
2 1 ( j X1) j F= = 2 CME ( X 1 , X j ) S ( j ) CMR X

,ariables X1X 1
X1X4

F ( X1 X 1 ) F( X4 X1 )

106..3 1.14

F ( X1 X 1 ) =

CMR( X 1 X 1 ) SCR ( X 1 X 1 ) SCR ( X 1 , X 1 ) SCR ( X 1 ) = = CME ( X 1 , X 1 ) CME ( X 1 , X 1 ) CME ( X 1 , X 1 ) = @114.A0 4?@0.A@ = 10?.A4 14.>@

n forma anloga el otro resultado. 'or lo tanto, la variable a ingresar en este paso es X 1 , porque tiene el ma%or valor de . % es ma%or al preestablecido. Paso 3: 8enemos X 1 % X 1 ingresadas al modelo, ahora se calcula el test . parcial para ver si X 1 permanece en el modelo en presencia de X 1 E esto es,

F ( X 1 X1 ) =

CMR( X 1 X 1 ) SCR( X 1 , X 1 ) SCR( X 1 ) @114.A0 1=>0.?0 = = = 1@?.@= CME ( X 1 , X 1 ) CME ( X 1 , X 1 ) 14.>@

'or tanto, permanece en el modelo, porque supera el valor de f preestablecido. )hora ajustamos todos los modelos posibles con tres variables predictoras, pero X 1 % X 1 son dos de ellas. Como slo nos queda una variable predictora, el test . parcial a calcular es&
F ( X 4 X1 X 1 ) = CMR ( X 4 X 1 X 1 ) SCR ( X 1 , X 1 , X 4 ) SCR ( X 1 , X 1 ) = CME ( X 1 , X 1 , X 4 ) CME ( X 1 , X 1 , X 4 ) = @00=.A= @114.A0 = 4??.>A 0.>A

'or lo tanto la variable X 4 ingresa al modelo. )hora vemos si una de las anteriores es candidata a salir en presencia de X 4 .

1. /i sale X 1 &
F ( X1 X 1 X 4 ) =

CMR( X 1 X 1 X 4 ) SCR ( X 1 , X 1 , X 4 ) SCR( X 1 , X 4 ) = CME ( X 1 , X 1 , X 4 ) CME ( X 1 , X 1 , X 4 ) = @00=.A= 4>01.40 = 114=.11 0.>A

'or tanto, X 1 permanece en el modelo. 1. /i sale X 1 &


F ( X 1 X1 X 4 ) = CMR ( X 1 X 1 X 4 ) SCR ( X 1 , X 1 , X 4 ) SCR ( X 1 , X 4 ) = CME ( X 1 , X 1 , X 4 ) CME ( X 1 , X 1 , X 4 ) = @00=.A= @00=.@= = 0.4A 0.>A

'or lo tanto, X 1 sale del modelo. l mejor modelo es Yi = 0 + X i1 + 1 X i4 + i