Regresión múltiple: variables, colinealidad y modelos

REGRESIN LINEAL MLTIPLE
1.- Planteamiento general ...................................................................................................... 2

2.- Mtodos para la seleccin de variables ............................................................................ 5
3.- Correlaciones parciales y semiparciales ........................................................................... 8
4.- Multicolinealidad en las variables explicativas .............................................................. 12
1.- Planteamiento general

Como se sabe, le modelo de regresin mltiple se utiliza para predecir el comportamiento de una
determinada variable variable dependiente o criterio- en funcin de otras variables
independientes o explicativas (tambin regresores o predictores)
Trabajaremos aqu con otro fichero de datos, Notas.sav, tal como se ilustra a continuacin:
Las variables consideradas son:
Inteligencia
Horas de estudio
Nivel social
Calificacin
Sexo
Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas
de estudio y Nivel Social) sobre las calificaciones obtenidas. Nos dirigimos al comando
regresin/lineal y hacemos la siguiente seleccin
Nos ofrece el siguiente conjunto de resultado que iremos desmenuzando. Comencemos por el
resumen del modelo:
Resumen del modelo
Modelo
1
R
,950a
R cuadrado
,902
R cuadrado
corregida
,884
Error tp. de la
estimacin
,58900
a. Variables predictoras: (Constante), Nivel Social, Horas de

estudio, Inteligencia
El modelo explica un 90.2%, que una vez corregido por el efecto de la muestra y de las variables
independientes resulta ser 88.4%. Por otro lado, el error tpico de la estimacin (raz cuadrada de
la varianza no explicada) resulta ser de 0.589.
La prueba de anlisis de la varianza, que nos muestra si la varianza explicada por la regresin es
significativamente distinta ( y superior) a la varianza no explicada es:
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
51,101
5,551
56,652
gl
3
16
19
Media
cuadrtica
17,034
,347
F
49,100
Sig.
,000a
a. Variables predictoras: (Constante), Nivel Social, Horas de estudio, Inteligencia

b. Variable dependiente: Calificacin
El valor de F obtenido es 49.100, cuya probabilidad asociada segn las expectativas de la

Hiptesis nula es menor del 0.0001, lo que nos lleva a rechazar tal hiptesis y suponer que existe
un efecto real de dichas variables sobre la calificacin acadmica.
Por otro lado, el modelo de regresin ser:
Coeficientesa
Modelo
1
(Constante)
Inteligencia
Horas de estudio
Nivel Social
Coeficientes no
estandarizados
B
Error tp.
-6,938
1,335
7,729E-02
,014
,196
,027
,290
,163
Coeficient
es
estandari
zados
Beta
,597
,580
,200
t
-5,197
5,350
7,272
1,787
Sig.
,000
,000
,000
,093
a. Variable dependiente: Calificacin
De aqu se deduce que la ecuacin de regresin en directas es:
Y = 6.938 + 0.077 X 1 + 0.196 X 2 + 0.290 X 3
Siendo:
Y: Calificacin acadmica
X1: Inteligencia
X2: Horas de estudio
X3: Nivel Social
Tal como est expresada la ecuacin anterior parecera que la Inteligencia tiene poca
importancia. Se debe a que la magnitud de su escala es mucho ms alta que las restantes
variables y su peso especfico por unida es menor. No obstante, la ecuacin de regresin en
estandarizadas nos mostrar todas las variables en la misma dimensin. As:
Z = 0.597 Z 1 + 0.58Z 2 + 0.2Z 3
Se observa que aqu el peso especfico de la Inteligencia es superior a los restantes. Si nos
atenemos al valor de t que nos indica la significacin estadstica de los distintos coeficientes
observaremos un valor mximo para la Horas de estudio (t=7.272), seguido de la Inteligencia
(t=5.35), y por ultimo le nivel social (t=1.787).
2.- Mtodos para la seleccin de variables
En los resultados anteriores se ha seguido un determinado procedimiento de inclusin de

variables. Si se observa el cuadro de dilogo correspondiente aparecer en Mtodo, Introducir.
Se quiere decir con ello que se consideren simultneamente todas la variables especificadas.
Este procedimiento no es el ms aconsejable, a menos que haya razones tericas suficientes. Con
frecuencia nos encontramos con variables redundantes o bien irrelevantes, que no aportan nada
al modelo. Las primeras, porque ya se tiene en otras variables la informacin que necesitamos, y
las segundas, porque adolecen precisamente de falta de informacin alguna.
El procedimiento ms frecuentemente usado se denomina Pasos sucesivos (stepwise). Como su
nombre indica consiste en ir elaborando sucesivas ecuaciones de regresin en las que se va
aadiendo cada vez un regresor ms. El primer paso consiste en seleccionar el regresor de
mxima correlacin simple con el criterio, y se define, en consecuencia una ecuacin de
regresin simple con esa variable. A continuacin se elabora una segunda ecuacin de regresin
aadiendo a la anterior otro regresor, esta vez el que ms proporcin de variabilidad explicada
aporte sobre la ecuacin anterior. As hasta que no haya mas regresores que aporten nada
sustantivo, que es cuando el procedimiento acaba. Hay que indicar, y aqu esta lo destacable de
este procedimiento, que en este proceso de elaboracin del modelo definitivo, hay una continua
reevaluacin de los predictores incluidos en el modelo, de forma que si algn regresor queda
explicado por los restantes (en el sentido de que carece de contribucin especfica propia) queda
eliminado.
El procedimiento Hacia delante (forward), es equivalente al anterior excepto en el sentido que
no existe ninguna reevaluacin, y se van incluyendo, por tanto en el modelo las variables segn
su importancia. Frecuentemente este mtodo coincide con el anterior cuando no hay que extraer
ninguna de las variables introducidas.
El procedimiento Hacia atrs (backward) es justamente el contrario del anterior. Se comienza
incluyendo todas las variables en el modelo de regresin y se van eliminando regresores
progresivamente de menor a mayor contribucin especfica hasta que sta sea lo suficientemente
significativa como para no poder ser eliminada.
El procedimiento Eliminar (remove),permite cuando se ensayan diferentes modelos de regresin
(con la especificacin de bloques) eliminar en cada uno de estos ensayos las variables que nos
interese. Es una forma, digamos manual, de ir probando distintos modelos.
Probemos en lo que sigue el procedimiento Pasos sucesivos. En el cuadro de dilogo de

Regresin lineal marcamos lo siguiente:
Si entramos en Estadstico podremos conseguir alguna informacin til, como cambio en R

cuadrado, que nos indicar precisamente la mejora de cada variable en trminos de proporcin de
variacin explicada.
En una primera instancia la informacin suministra es:
Variables introducidas/eliminadas
Modelo
1
Variables
introducidas
Variables
eliminadas
Inteligencia
Horas de
estudio
Mtodo
Por
pasos
(criterio:
Probabili
dad de F
para
entrar <=
,050,
Probabili
dad de F
para salir
>= ,100).
Por
pasos
(criterio:
Probabili
dad de F
para
entrar <=
,050,
Probabili
dad de F
para salir
>= ,100).
Se nos indica las opciones que hay por defecto (subcuadro de dilogo opciones). Para entrar una
variable debe ser inferior a una significacin de 0.05 y para salir, superior a 0.1.
En la siguiente tabla aparecen las variables que configuran los diferentes modelos:
Resumen del modelo
Modelo
1
2
Cambiar los estadsticos

R cuadradoError tp. de la Cambio en
Sig. del
R
R cuadrado corregida estimacin R cuadradoCambio en F
gl1
gl2
cambio en F
,760a
,577
,554
1,15366
,577
24,565
1
18
,000
b
,939
,882
,869
,62582
,305
44,169
1
17
,000
a. Variables predictoras: (Constante), Inteligencia

b. Variables predictoras: (Constante), Inteligencia, Horas de estudio
El primer modelo est formado slo con el predictor Inteligencia y al segundo se le aade la
variable Horas de estudio. El primer modelo explica una proporcin de 0.577, y el segundo de
0.882, lo que implica una mejora de 0.305 puntos. Vemos ms cosas, tales como los cambios en
el cociente F, grados de libertad y la significacin de F.
Adems se nos proporciona un anlisis de la varianza para cada uno de los modelos:
ANOVAc
Modelo
1
Regresin
Residual
Total
Regresin
Residual
Total
Suma de
cuadrados
32,695
23,957
56,652
49,994
6,658
56,652
gl
1
18
19
2
17
19
Media
cuadrtica
32,695
1,331
24,997
,392
F
24,565
Sig.
,000a
63,824
,000b
a. Variables predictoras: (Constante), Inteligencia

b. Variables predictoras: (Constante), Inteligencia, Horas de estudio
c. Variable dependiente: Calificacin
Por ltimo las variables excluidas en ambos modelos.

Variables excluidasc
Modelo
1
2
Horas de estudio
Nivel Social
Nivel Social
Beta dentro
,553a
,046a
,200b
t
6,646
,207
1,787
Sig.
,000
,839
,093
Correlacin
parcial
,850
,050
,408
Estadstic
os de
colinealid
ad
Tolerancia
,999
,505
,487
a. Variables predictoras en el modelo: (Constante), Inteligencia

b. Variables predictoras en el modelo: (Constante), Inteligencia, Horas de estudio
c. Variable dependiente: Calificacin
Se observa que en el primer modelo, las Horas de estudio tenan un peso importante (t=6.646),
cosa que no ocurre con el Nivel social ni un modelo ni con el otro, por lo que es definitivamente
eliminada. Otros estadsticos tales como correlacin parcial y colinealidad lo trataremos en las
prximas pginas.
3.- Correlaciones parciales y semiparciales
Las correlaciones parciales y semiparciales tienen especial inters por permitir conocer las
contribuciones especificas de las distintas variables al margen al margen de lo que comparten
con otras variables. Frecuentemente las predictores estn correlacionados entres s y es
importante saber deslindar lo que aportan unos y otros. No es fcil saber a donde atribuir la parte
compartida, y frecuentemente son criterios tericos sustantivos del tema en cuestin- y no
criterios estadsticos los que nos permiten asignar las contribuciones de los diferentes regresores
a la explicacin de la variable dependiente.
Vamos a ver en primer lugar el conjunto de correlaciones existentes en estos datos. Vamos la
comando Correlaciones/bivariadas:
Cuyos resultados son:

Correlaciones
Inteligencia
Inteligencia
Horas de estudio
Nivel Social
Calificacin
Correlacin de Pearson
Sig. (bilateral)
N
Sig. (bilateral)
N
Sig. (bilateral)
N
Sig. (bilateral)
N
,038
,873
20
,703**
,001
20
,760**
,000
20
Horas de
estudio
-,108
,651
20
,581**
,007
20
Nivel Social
Calificacin
,557*
,011
20
**. La correlacin es significativa al nivel 0,01 (bilateral).

*. La correlacin es significante al nivel 0,05 (bilateral).
Veamos qu ocurre ahora si eliminamos de todas las variables la variabilidad que aporta la
Inteligencia. Vanos para ello al comando Correlaciones/parciales:
La nueva matriz de correlacione ser:
- - -
P A R T I A L
Controlling for..
C O R R E L A T I O N
C O E F F I C I E N T S
- - -
INT
HORAS
NSOCIAL
CALIF
HORAS
1,0000
(
0)
P= ,
-,1895
(
17)
P= ,437
,8498
(
17)
P= ,000
NSOCIAL
-,1895
(
17)
P= ,437
1,0000
(
0)
P= ,
,0500
(
17)
P= ,839
CALIF
,8498
(
17)
P= ,000
,0500
(
17)
P= ,839
1,0000
(
0)
P= ,
(Coefficient / (D.F.) / 2-tailed Significance)

" , " is printed if a coefficient cannot be computed
Obsrvese el poco efecto que tiene ahora el Nivel social sobre la variable Calificacin. Los
clculos han consistido en eliminar tanto de la variable dependiente (Calificacin) como del
regresor Nivel Social, la variabilidad de la Inteligencia. Es una correlacin, digamos, entre los
residuos de ambas variables una vez eliminada de ellas la participacin de la Inteligencia.
10
La correlaciones parciales frecuentemente son la alternativa estadstica- no experimental- a

aquella otra experimental del control de variables, cuando no es posible la manipulacin de las
mismas segn nuestros deseos.
Ms interesante para el tema que nos atae son las denominadas correlacione semiparciales. En
este caso, no tocamos la variabilidad e la variable dependiente, sino tan slo sustraemos el efecto
de la variable que deseamos controlar, de los predictores que estamos tratando. Es justamente lo
que hemos denominado contribucin especfica de una determinada variable. Es la proporcin
(mejor su raz cuadrada) de variabilidad explicada exclusivamente por un determinado regresor
sobre la variable dependiente.
En el caso que nos atae, a efectos de simplicidad vamos a trabajar con dos nicos regresores,
Inteligencia y Nivel social. As, en el cuadro de la Regresin lineal indicamos:
A continuacin en Estadsticos marcamos Correlaciones parcial y semiparcial:
11
Obtendremos:
a
Coeficientes
Coeficient
es
Coeficientes no
estandari
estandarizados
zados
Modelo
B
Error tp.
Beta
1
(Constante)
-4,922
2,629
Inteligencia9,423E-02
,029
,727
Nivel Social6,637E-02
,321
,046
t
-1,872
3,283
,207
Correlaciones
Sig.
Orden cero Parcial Semiparcial
,078
,004
,760
,623
,517
,839
,557
,050
,033
Obsrvese como la correlacin simple (de orden cero) de Nivel social con Calificacin es 0.557,
la parcial la observada en la tabla anterior y la semiparcial 0.033. Esto significa que la variable
Nivel social contribuye (ella sola, sin lo que comparte con Inteligencia) en una proporcin de
0.0332 = 0.001, o sea 0.1% a las calificaciones. Por el contrario, la Inteligencia, cuando se le
elimina lo que comparte con Nivel social, sigue contribuyendo en un 0.5172 = 26.72% a las
Calificaciones.
Conviene aclarar la diferencia entre correlacin semiparcial y parcial. Supongamos que tenemos
dos regresores X1 y X2, correlacin semiparcial (al cuadrado) de la variable X2 es la proporcin
de variabilidad de Y debida exclusivamente a X2. Es lo que aporta X2 a X1 hasta llegar a R2y.12.
Ms formalmente:
R y2( 2.1) = R y2.12 R y21

En el caso de la correlacin parcial (al cuadrado) es esa misma contribucin de X2 pero no del
total de Y, sino de lo no explicado de Y por X1. Esto es, X1 se ha sustrado de todas las variables.
Su expresin ser:
2
y 2.1
R y2.12 R y21
1 R y21
4.- Multicolinealidad en las variables explicativas

Se dice que existe multicolinealidad entre las variables explicativas cuando existe algn tipo de
dependencia lineal entre ellas, o lo que es lo mismo, si existe una fuerte correlacin entre las
mismas. La correlacin no solamente se refiere a las distintas variables dos a dos, sino a
cualquier de ellas con cualquier grupo de las restantes. Por esta razn no es suficiente (aunque s
necesaria) que en la matriz de correlaciones bivariadas haya correlaciones altas.
12
El principal inconveniente de la multicolinealidad consiste en que se incrementan la varianza de

los coeficientes de regresin estimados hasta el punto que resulta prcticamente imposible
establecer su significacin estadstica, ya que como se sabe, el valor de t para un determinado
coeficiente de regresin es el valor de dicho coeficiente dividido por su desviacin tipo. Si este
es grande, el valor de t ser bajo y no llegara a la significacin.
El SPSS adopta varios procedimientos para detectar multicolinealidad entre los predictores. El
primero de ellos, basado en la correlacin mltiple de un determinado regresor con los restantes
se denomina Tolerancia de dicho regresor. Su valor es:
1 Ri2
Siendo Ri2 la correlacin multiple alcuadrado de dicho regresor con los restantes.
Para que haya multicolinealidad dicha correlacin ha de ser alta, o lo que es lo mismo la
tolerancia baja. Adems otro ndice relacionado con ste y que nos da una idea del grado de
aumento de la varianza se denomina Factor de Inflacin de la Varianza, y es precisamente el
recproco de la tolerancia. Su valor es:
VIFi =
1
1 R y21
Para que no haya multicolinealidad el denominador tiene que valer cerca de la unidad, por tanto
un poco ms de 1 el valor de VIF. Cuanto mayor sea de este valor mayor multicolinealidad
habr.
La varianza de los estimadores tiene que ver con (XX)-1, donde X es la matriz de regresores.
Cuando las columnas de X son colineales, la matriz es singular y no tiene inversa. En este
sentido los autovalores de la matriz XX (normalizada) nos puede proporcionar informacin del
grado de singularidad de la misma. A este respecto, disponemos del Indice de Condicin, cuyo
valor es la raz cuadrada del cociente entre el mximo autovalor y el mnimo de la matriz XX:
Indice de condicin =
Autovalormax
Autovalormin
Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que sta es alta a partir
de 30.
Podemos conocer adems qu variables presentan multicolinealidad analizando la proporcin de
varianza de los estimadores de los coeficientes de regresin en los componentes con un ndice de
condicin alto. Variables, cuya proporcin de varianza en dichos componentes, sea superior a 0.5
son indicativos de colinealidad.
13
En el ejemplo que estamos tratando, para conocer la posible colinealidad marcaremos en

Regresin lineal/estadsticos, Diagnsticos de colinealidad:
Con lo que obtendremos (adems de otros resultados ya conocidos):

a
Coeficientes
Coeficient
es
Coeficientes no
estandari
estandarizados
zados
Modelo
B
Error tp.
Beta
1
(Constante)
-6,938
1,335
Inteligencia
7,729E-02
,014
,597
Horas de estudio
,196
,027
,580
Nivel Social
,290
,163
,200
t
-5,197
5,350
7,272
1,787
Sig.
,000
,000
,000
,093
Estadsticos de
colinealidad
Tolerancia
FIV
,492
,963
,487
2,031
1,039
2,052
Se observa que se ha aadido a lo que ya conocemos otros indicadores tales como la Tolerancia
y el FIV. La variable Horas d estudio presenta una alta tolerancia y por tanto una pequea FIV,
lo que nos indica que no presenta colinealidad. Por el contrario las otras dos variables,
Inteligencia y Nivel social son colineales.
En esta tabla se nos indica qu variables son colineales pero no con cuales, aunque con tres
variables y una que no lo es, no es difcil imaginarse lo que pasa. Pero puede haber ms
variables. Para ello recurrimos al Indice de condicin y a la proporciones de varianzas en los
distintos componentes. As:
14
Diagnsticos de colinealidada
Modelo
1
Dimensin
1
2
3
4
Autovalor
3,840
,119
3,742E-02
4,023E-03
Indice de
condicin
1,000
5,685
10,129
30,893
(Constante)
,00
,00
,09
,91
Proporciones de la varianza
Horas de
Inteligencia
Nivel Social
estudio
,00
,01
,00
,00
,29
,29
,02
,70
,30
,97
,00
,41
Se<observa que hay un ndice de condicin asignado al cuarto componente que vale 30.893,
resultado de dividir 3.840 entre 0.004023 y extraer la raz cuadrada. En ese componente hay dos
variables con una alta proporcin: la constante, Inteligencia. El Nivel social no llega a rebasar el
umbral de 0.5. La constante es el estimador del coeficiente ligado a la primera variable de la
matriz X, que est formado precisamente por un vector de 1. Si trabajamos con variables
centradas, resolveremos algunos problemas de multicolinealidad. As si restamos a cada una de
las variables explicativas su media y realizamos de nuevo la regresin, obtendremos en
diagnsticos de colinealidad:
Diagnsticos de colinealidada
Modelo
1
Dimensin
1
2
3
4
Autovalor
1,707
1,011
1,000
,282
Indice de
condicin
1,000
1,299
1,306
2,461
Proporciones de la varianza
(Constante)
INT2
HORAS2 NSOCIAL2
,00
,14
,00
,14
,00
,01
,93
,00
1,00
,00
,00
,00
,00
,85
,07
,86
Se observa que el mayor ndice de condicin es muy bajo (2.461) y por tanto no hay
multicolinealidad, al menos en un sentido importante, que altere la estimacin mnimo cuadrtica
de nuestro modelo.
15

Regresión múltiple: variables, colinealidad y modelos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión múltiple: variables, colinealidad y modelos

Cargado por

Copyright:

Formatos disponibles

REGRESIN LINEAL MLTIPLE

1.- Planteamiento general ...................................................................................................... 2

1.- Planteamiento general

Las variables consideradas son:

a. Variables predictoras: (Constante), Nivel Social, Horas de

a. Variables predictoras: (Constante), Nivel Social, Horas de estudio, Inteligencia

El valor de F obtenido es 49.100, cuya probabilidad asociada segn las expectativas de la

a. Variable dependiente: Calificacin

De aqu se deduce que la ecuacin de regresin en directas es:

Y = 6.938 + 0.077 X 1 + 0.196 X 2 + 0.290 X 3

Z = 0.597 Z 1 + 0.58Z 2 + 0.2Z 3

2.- Mtodos para la seleccin de variables

En los resultados anteriores se ha seguido un determinado procedimiento de inclusin de

Probemos en lo que sigue el procedimiento Pasos sucesivos. En el cuadro de dilogo de

Si entramos en Estadstico podremos conseguir alguna informacin til, como cambio en R

En una primera instancia la informacin suministra es:

a. Variable dependiente: Calificacin

Cambiar los estadsticos

a. Variables predictoras: (Constante), Inteligencia

a. Variables predictoras: (Constante), Inteligencia

Por ltimo las variables excluidas en ambos modelos.

a. Variables predictoras en el modelo: (Constante), Inteligencia

3.- Correlaciones parciales y semiparciales

Cuyos resultados son:

**. La correlacin es significativa al nivel 0,01 (bilateral).

La nueva matriz de correlacione ser:

(Coefficient / (D.F.) / 2-tailed Significance)

La correlaciones parciales frecuentemente son la alternativa estadstica- no experimental- a

A continuacin en Estadsticos marcamos Correlaciones parcial y semiparcial:

a. Variable dependiente: Calificacin

R y2( 2.1) = R y2.12 R y21

4.- Multicolinealidad en las variables explicativas

El principal inconveniente de la multicolinealidad consiste en que se incrementan la varianza de

En el ejemplo que estamos tratando, para conocer la posible colinealidad marcaremos en

Con lo que obtendremos (adems de otros resultados ya conocidos):

a. Variable dependiente: Calificacin

a. Variable dependiente: Calificacin

a. Variable dependiente: Calificacin

También podría gustarte