Está en la página 1de 16

Regresin lineal simple utilizando SPSS

(13.0)

Objetivos de la prctica:

Con este documento pretendemos que aprendis a


implementar un anlisis de regresin lineal simple
utilizando el programa SPSS (13.0). Las distintas opciones
de los cuadros de dilogo que iremos describiendo nos
proporcionarn informacin sobre la estimacin, validacin
y significacin de parmetros as como de los supuestos
bsicos del modelo.

Archivos de datos:
Vamos a realizar un anlisis de regresin lineal
simple para estudiar la posible relacin entre sntomas de
estrs y la competencia percibida en una muestra de 315
personas que trabajan en la Universidad de Sevilla. La
figura 1 muestra una porcin de la matriz de datos que
vamos a analizar. Como puede observarse hemos
incluido tres variables: sexo, competen y estres. Las
variables competen y estres son variables cuantitativas y
concretamente competen ser la variable predictora o
independiente en el modelo de regresin que vamos a
utilizar para estudiar su relacin con el estrs. La variable
dependiente ser estres. El archivo de datos se llama
regresion lineal simple.sav
Figura 1. Porcin de la matriz de datos que vamos a analizar.

Descripcin detallada del procedimiento para


implementar un anlisis de regresin lineal con SPSS
(13.0)

Para realizar un anlisis de regresin lineal con


SPSS seleccionamos en el men analizar la opcin de
regresin lineal como muestra la figura 2.
Figura 2. Secuencia de mens para implementar un anlisis de
regresin lineal con SPSS.

La secuencia mostrada en la Figura 2 nos permite


acceder al cuadro de dilogo Regresin lineal como se
muestra en la Figura 3. En dicho cuadro disponemos de
una lista completa de las variables que hemos incluido en
el archivo de datos. En nuestro caso: sexo, competencia
percibida y estrs total. Como mnimo, para que se pueda
ejecutar el anlisis, tenemos que seleccionar dos variables
y trasladarlas respectivamente al cuadro de
Dependiente e Independientes. Estrs total ser la
variable dependiente y competencia percibida la variable
independiente. Slo con estas especificaciones podemos,
al pulsar el botn Aceptar, obtener informacin acerca de
la bondad de ajuste del modelo, de la validacin y de la
ecuacin de regresin estimada as como de la
significacin de los parmetros.
Figura 3. Cuadro de dilogo de regresin lineal.

Los resultados que nos proporciona SPSS, con las


opciones por defecto del cuadro de regresin lineal, son
las tablas etiquetadas como Variables
introducidas/eliminadas(b), Resumen del modelo(b),
Anova y Coeficientes que aparecen a continuacin. De
cada tabla describiremos los valores incluidos en las
mismas, su significado y cmo se han calculado.

b
Variables introducidas/eliminadas

Variables Variables
Modelo introducidas eliminadas Mtodo
1 competencia
a . Introducir
percibida
a. Todas las variables solicitadas introducidas
b. Variable dependiente: estrs total
Resumen del modelob

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin
1 ,525a ,276 ,273 12,00868
a. Variables predictoras: (Constante), competencia percibida
b. Variable dependiente: estrs total

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 16050,710 1 16050,710 111,302 ,000a
Residual 42108,858 292 144,208
Total 58159,568 293
a. Variables predictoras: (Constante), competencia percibida
b. Variable dependiente: estrs total

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error tp. Beta t Sig.
1 (Constante) 66,937 4,094 16,351 ,000
competencia percibida -1,221 ,116 -,525 -10,550 ,000
a. Variable dependiente: estrs total

Descripcin de las tablas obtenidas con las opciones


por defecto del cuadro de dilogo de regresin lineal

1. La tabla Variables introducidas/eliminadas identifica a


la variable independiente (predictora) y dependiente
(criterio).

2. La tabla Resumen del modelo nos proporciona


informacin acerca de la bondad de ajuste del modelo.
Concretamente:

R es la raz cuadrada positiva de R cuadrado

R Cuadrado es la bondad de ajuste y viene dada por:


N 2

SC exp
Y Y
i1
i
1 6 0 5 0 ,7 1 0
R 2
2 0 ,2 7 6
SC N
5 8 1 5 9 ,5 6 8
t
Y
i1
i Y
Y
X

1-0,276
0,276

R cuadrado corregida: la R cuadrado (bondad de ajuste)


sobreestima el valor poblacional. Una estimacin ms
adecuada de la bondad de ajuste poblacional es R
cuadrado corregida que se obtiene con la expresin

k 1 R 2
R 2
R 2

N k 1
c o r r e g id a

Error tp. de la estimacin es la raz cuadrada de la


varianza residual

Y Y
2
4 2 1 0 8 ,8 5 8
E r r o r tip .d e la e s tim a c io n 1 4 4 ,2 0 8 1 2 ,0 0 8 6 8
N K 1 292

3. La tabla ANOVA: es un cuadro resumen del anlisis de


varianza para la validacin del modelo de regresin lineal.
El trmino Regresin en esta tabla equivale a Explicada
en la terminologa que hemos utilizado en clase. Los
valores que aparecen en esta tabla se han calculado con
las expresiones siguientes:

Fuentes de Sumas de Grados Varianza o


variacin cuadrados de Media F
libertad Cuadrtica
Regresin o N
S C exp
Y Y
2
explicada i K S e2 x p R 2
i1 K 2
y . 1 , 2 , ... , k
S exp K
Residual o no N
S C res
Y i Yi 2 1 R y2 . 1 , 2 , ... , k
2
S 2
S res
explicada N-K-1 res
N K 1
i1 N K 1
Total N
SCt
Y 2
Y N-1 S 2

i1
i t
N 1

La columna Sig, corresponde al valor de probabilidad de


F. Es la probabilidad de obtener el valor de F si la hiptesis
nula fuera cierta. Como este valor es menor que 0,05 se
rechaza la hiptesis nula y se concluye que el modelo de
regresin es vlido.

4. Tabla de coeficientes: Esta tabla contiene los


coeficientes no estandarizados (en directas) y
estandarizados de la recta de regresin estimada.
Concretamente, la columna etiquetada como B nos
permite escribir la recta de regresin en puntuaciones
directas. As, la recta que relaciona estrs con la
competencia es:

Y 66,937 1,221X

Por otro lado, el valor que aparece en la columna


etiquetada como Beta es la pendiente de la recta en
tpicas que como sabemos, en el modelo de regresin
simple, es el coeficiente de correlacin de Pearson. La
recta de regresin en tpicas es:

Z y ,525Z x

En la columna de Coeficientes No estandarizados,


adems de los coeficientes de la recta en directas, la
columna Error tp. hace referencia a los errores tpicos de
la constante (ordenada en origen) y de la pendiente de la
recta. Son los denominadores del estadstico de contraste
t de student de la penltima columna. Concretamente, el
error tpico de la pendiente (ver el formulario) se obtiene
con la siguiente expresin:

2
S 1 4 4 ,2 0 8
Sb N
res
0 ,1 1 6
10770
X 2
i X
i1

Los valores de la columna t se obtienen dividiendo el valor


de los coeficientes no estandarizados entre sus error
estndar concretamente,
a 6 6 ,9 3 7
t 1 6 ,3 5 1
Sa 4 ,0 9 4

b 1 ,2 2 1
t 1 0 ,5 5 0
Sb 0 ,1 1 6

La columna Sig, corresponde a los valores de probabilidad


de las los valores de t. Es la probabilidad de obtener el
valor de t si la hiptesis nula fuera cierta. Como estos
valores son menores que 0,05 se rechaza la hiptesis nula
y se concluye que los parmetros son distintos de cero
informacin coincidente con la obtenida del anlisis de la
varianza (validacin del modelo). En el caso del contraste
referido a la pendiente de la recta implica que el cambio
medio en estrs por unidad de variacin en competencia
es estadsticamente distinto de cero.

Comprobacin de los supuestos del modelo de


regresin lineal: anlisis de residuos

En el cuadro de dilogo de Regresin lineal


disponemos de una serie de opciones que nos van
permiten obtener informacin acerca de la adecuacin de
los datos a los supuestos del modelo de regresin lineal.
Un cumplimiento razonable de dichos supuestos garantiza
que las inferencias a la poblacin son vlidas. Las
herramientas de las que disponemos en SPSS para
evaluar los supuestos de linealidad, normalidad,
homocedasticidad, independencia de errores y presencia
de valores alejados y/o influyentes son tanto de naturaleza
grfica como analtica.
Para obtener informacin acerca de los supuestos
vamos a seleccionar algunas de las opciones disponibles
en los distintos botones que aparecen en el cuadro de la
Figura 3.
Pulsando en el botn Guardar podemos aadir a la
matriz de datos original las puntuaciones ajustadas
(pronsticadas) y los residuos del modelo de regresin
distintos formatos:
Residuos No tipificados: son los residuos
ordinarios del modelo de regresin ( e i Y i Y i ).
Residuos tipificados: tienen media cero y
varianza prxima a 1. Un sujeto con un residuo
tipificado grande se puede considerar atpico. Se
suelen considerar atpicos los sujetos con residuos
tipificados absolutos superiores a 3.
El residuo estudentizado de un sujeto se calcula
igual que el anterior slo que de la varianza
residual se elimina el residuo del sujeto
correspondiente. Los residuos estudentizados
siguen una distribucin t de student con N-k-2
grados de libertad. Son observaciones atpicas las
correspondientes a residuos estudentizados
significativos.
Los residuos anteriores nos permiten identificar
observaciones alejadas lo cual no significa que sean
observaciones influyentes. Que una observacin sea
atpica no conlleva necesariamente que sea influyente.
Observaciones influyentes son aquellas que tienen un
peso muy grande en los coeficientes del modelo. Se sabe
si una observacin (sujeto) es influyente comparando las
estimaciones obtenidas cuando se le incluye en la muestra
con las obtenidas cuando se le excluye. Varios son los
estadsticos que miden la influencia de cada sujeto sobre
los estadsticos. Nosotros hemos seleccionado las
siguientes:
a) Distancia de Mahalanobis es una medida de influencia a
priori: mide la distancia de cada caso respecto a las
medias de las variables predictoras. En regresin simple
es el cuadrado de la puntuacin tpica de cada caso. No
debe superar al valor de chi-cuadrado para k grados de
libertad y un nivel de significacin de 0,001.
b) La distancia de Cook es una medida de influencia a
posteriori. La influencia se mide por la diferencia en los
coeficientes de la ecuacin calculados con la muestra
completa y con la muestra menos la observacin en
cuestin. Valores de D mayores que 1 o mayores que F
para un = .50 y con k+ l y N- k- 1 grados de libertad se
pueden considerar influyentes.
c) Valores de influencia: miden el impacto a priori de cada
caso. Como regla general valores menores que 0,2 se
consideran poco influyentes, entre 0,2 y 0,5 son
arriesgados los valores superiores a 0,5 indican influencia.
Creemos que con estas nuevas variables obtendremos
informacin suficiente para evaluar casos atpicos y/o
influyentes.
Pulsando en el botn Estadsticos se accede al
cuadro de dilogo mostrado en la Figura 4. En dicho
cuadro, por defecto, aparecen marcadas las opciones
Estimaciones y Ajuste del modelo. Estas opciones son
las que nos han proporcionado las tablas Variables
introducidas/eliminadas, Resumen del modelo,
ANOVA, coeficientes que hemos comentado antes. Del
resto de opciones que nos proporciona el cuadro
Estadsticos, para nuestros propsitos en esta prctica,
no marcaremos ninguna.
Figura 4.

Pulsando en el botn Grficos accedemos al siguiente


cuadro de dilogo:

Por defecto en el cuadro anterior no hay ninguna opcin


seleccionada. Sin embargo, nos parece muy til realizar el
grfico de dispersin de los residuos estandarizados frente
a las puntuaciones ajustadas estandarizadas (pronsticos
estandarizados). Estos grficos de residuos frente a
puntuaciones ajustadas son los que proporcionan ms
informacin acerca del cumplimiento de los supuestos del
modelo y juegan un papel fundamental en la identificacin
de valores alejados e influyentes.
Adems del grfico de dispersin, hemos
seleccionado el Histograma y el Grfico de Prob.
Normal. Estos grficos nos permiten, mediante inspeccin
visual, valorar el cumplimiento del supuesto de normalidad
en los residuos. No obstante, se puede realizar una
prueba de significacin que elimine la ambigedad
inherente a la inspeccin visual.
Con las opciones marcadas en los cuadros Guardar y
Grficos adems de las tablas ya comentadas se obtiene
la siguiente informacin.

Resultados

Estadsticos sobre los residuosa

Desviacin
Mnimo Mximo Media tp. N
Valor pronosticado 8,3397 49,8464 24,3844 7,40139 294
Valor pronosticado tip. -2,168 3,440 ,000 1,000 294
Error tpico del valor
,701 2,513 ,948 ,286 294
pronosticado
Valor pronosticado
8,4853 50,5264 24,3848 7,39960 294
corregido
Residuo bruto -31,97624 38,33554 ,00000 11,98817 294
Residuo tip. -2,663 3,192 ,000 ,998 294
Residuo estud. -2,675 3,205 ,000 1,002 294
Residuo eliminado -32,27098 38,65010 -,00046 12,07426 294
Residuo eliminado estud. -2,704 3,258 ,001 1,006 294
Dist. de Mahalanobis ,001 11,835 ,997 1,559 294
Distancia de Cook ,000 ,050 ,004 ,007 294
Valor de influencia
,000 ,040 ,003 ,005 294
centrado
a. Variable dependiente: estrs total
5
0 V
a
r
i
b
l
e
dH
i
s
t
p
e
n
do
g
r
a
m
i
e
n
t
:e
s
t
r
t
o
a
l
4
0
3
0
ia
n
c
u
2
0
Fc
re
1
0
0-3-2R
grs
-e
1i
n
R
e
s
id
0u
o
tip
1 fc
a
d
o
2
34M
e
d
i
a
=
1
,
D
s
v
c

9
8
N
=
2
9
46
E
-
1
n
t

p
i6
c
a
=
0
,
G
r
fic
o
r0,6ibP
-01,,80V
n
or
lam
a
d
e
r
g
le
d
p
e
n
de
s
ie
ni
n
R
t:e
s e
si
du
o
t
i
p
f
c
a
trto
a
ld
o
Pm
p
s
e
u
c
b
a
ro d
ra
0
,0
4
,0
2
,00ro
,2b
a
c
,P
u
m
o
b
s
0
4
0e
rv
,
6a
d
0
,8
1
,0
4
3
o
dG
r

V
a
r
i
b
l
e
df
i
c
o
d
p
e
n
de
i
s
p
e
i
e
n
t
:r
s
i

n
e
s
t
r
t
o
a
l
2
a
fc
tip
1
Ro
u
id
0
s
e
n
--1
Ri
rs
2
g
3-3-2R
grs
-ei
n
V
a
lo
rp
o
n
s
tic
a
d
o
tip
fc
a
d
o
e
1 0 1 234
Descripcin de las tablas y grficos obtenidos con las
opciones marcadas en los cuadros Guardar y Grficos
de Regresin Lineal

La tabla Estadsticos sobre los residuos(a) nos ofrece


informacin del rango, tendencia central y dispersin de
las variables que hemos creado con objeto de identificar
casos alejados y/o influyentes. No es necesario para saber
si hay casos atpicos o influyente listar todos esos valores.
Es suficiente con evaluar si el valor mximo y/o mnimo de
las medidas de alejamiento o influencia superan los
umbrales establecidos. En tal caso conviene realizar un
histograma, un grfico de puntos o un grfico de
dispersin colocando el nmero del caso (filas de la matriz
de datos) en el eje de abscisas y las medidas de
alejamiento o de influencia en el eje de ordenadas. En
nuestro no parece que haya ningn caso claramente
influyente.
Los grficos Histograma y grfico P-P normal de
regresin nos permiten valorar el alejamiento del
supuesto de normalidad. Comparando la curva normal con
la distribucin emprica en el histograma y evaluando el
alejamiento de los puntos representados en el segundo
grfico con respecto a la diagonal. Podemos concluir que
no existen grandes desviaciones de la curva normal. No
obstante, para ser ms precisos se puede utilizar la
prueba de Kolmogorov del men de pruebas no
paramtricas para evaluar este supuesto.

Por ltimo el grfico ms valioso para evaluar


incumplimientos de los supuestos: el grfico de
dispersin de residuos frente a puntuaciones
ajustadas. Con este grfico podemos evaluar errores en
la especificacin del modelo por incumplimiento del
supuesto de linealidad. En la medida en que aparezcan
tendencias curvilneas en el grfico, el modelo utilizado
sera incorrecto. Podemos tambin a partir de este grfico
evaluar el supuesto de homocedasticidad (igualdad de
varianzas). Si queremos ser ms precisos en la evaluacin
del supuesto de homocedasticidad podemos representar
los errores al cuadrado frente a puntuaciones ajustadas,
calcular la correlacin de los valores absolutos de los
errores con la puntuaciones ajustadas o bien realizar una
prueba de Levene previa divisin de los residuos en dos
grupos en funcin de un valor (puede ser la mediana) de
la variable predictora.

En nuestro caso no se observan ni curvaturas que


hagan sospechar que el supuesto de linealidad es
incorrecto ni incrementos o decrementos grandes de
variabilidad.
En consecuencia podemos considerar validas las
conclusiones obtenidas del modelo de regresin utilizado
para estudiar la relacin entre estrs y competencia.

También podría gustarte