Está en la página 1de 16

Regresión lineal simple utilizando SPSS

(13.0)

Objetivos de la práctica:

Con este documento pretendemos que aprendáis a


implementar un análisis de regresión lineal simple
utilizando el programa SPSS (13.0). Las distintas opciones
de los cuadros de diálogo que iremos describiendo nos
proporcionarán información sobre la estimación, validación
y significación de parámetros así como de los supuestos
básicos del modelo.

Archivos de datos:
Vamos a realizar un análisis de regresión lineal
simple para estudiar la posible relación entre síntomas de
estrés y la competencia percibida en una muestra de 315
personas que trabajan en la Universidad de Sevilla. La
figura 1 muestra una porción de la matriz de datos que
vamos a analizar. Como puede observarse hemos
incluido tres variables: sexo, competen y estres. Las
variables competen y estres son variables cuantitativas y
concretamente competen será la variable predictora o
independiente en el modelo de regresión que vamos a
utilizar para estudiar su relación con el estrés. La variable
dependiente será estres. El archivo de datos se llama
“regresion lineal simple.sav”
Figura 1. Porción de la matriz de datos que vamos a analizar.

Descripción detallada del procedimiento para


implementar un análisis de regresión lineal con SPSS
(13.0)

Para realizar un análisis de regresión lineal con


SPSS seleccionamos en el menú analizar la opción de
regresión lineal como muestra la figura 2.
Figura 2. Secuencia de menús para implementar un análisis de
regresión lineal con SPSS.

La secuencia mostrada en la Figura 2 nos permite


acceder al cuadro de diálogo Regresión lineal como se
muestra en la Figura 3. En dicho cuadro disponemos de
una lista completa de las variables que hemos incluido en
el archivo de datos. En nuestro caso: sexo, competencia
percibida y estrés total. Como mínimo, para que se pueda
ejecutar el análisis, tenemos que seleccionar dos variables
y trasladarlas respectivamente al cuadro de
“Dependiente” e “Independientes”. Estrés total será la
variable dependiente y competencia percibida la variable
independiente. Sólo con estas especificaciones podemos,
al pulsar el botón Aceptar, obtener información acerca de
la bondad de ajuste del modelo, de la validación y de la
ecuación de regresión estimada así como de la
significación de los parámetros.
Figura 3. Cuadro de diálogo de regresión lineal.

Los resultados que nos proporciona SPSS, con las


opciones por defecto del cuadro de regresión lineal, son
las tablas etiquetadas como Variables
introducidas/eliminadas(b), Resumen del modelo(b),
Anova y Coeficientes que aparecen a continuación. De
cada tabla describiremos los valores incluidos en las
mismas, su significado y cómo se han calculado.

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Método
1 competencia
a . Introducir
percibida
a. Todas las variables solicitadas introducidas
b. Variable dependiente: estrés total
Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,525a ,276 ,273 12,00868
a. Variables predictoras: (Constante), competencia percibida
b. Variable dependiente: estrés total

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 16050,710 1 16050,710 111,302 ,000a
Residual 42108,858 292 144,208
Total 58159,568 293
a. Variables predictoras: (Constante), competencia percibida
b. Variable dependiente: estrés total

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 66,937 4,094 16,351 ,000
competencia percibida -1,221 ,116 -,525 -10,550 ,000
a. Variable dependiente: estrés total

Descripción de las tablas obtenidas con las opciones


por defecto del cuadro de diálogo de regresión lineal

1. La tabla Variables introducidas/eliminadas identifica a


la variable independiente (predictora) y dependiente
(criterio).

2. La tabla Resumen del modelo nos proporciona


información acerca de la bondad de ajuste del modelo.
Concretamente:

R es la raíz cuadrada positiva de R cuadrado

R Cuadrado es la bondad de ajuste y viene dada por:


N 2

SC exp
  Y  Y 
i1
i
1 6 0 5 0 ,7 1 0
R 2
 2   0 ,2 7 6
SC N
5 8 1 5 9 ,5 6 8
t
 Y
i1
i Y 
Y
X

1-0,276
0,276

R cuadrado corregida: la R cuadrado (bondad de ajuste)


sobreestima el valor poblacional. Una estimación más
adecuada de la bondad de ajuste poblacional es R
cuadrado corregida que se obtiene con la expresión

 k 1  R 2  
R 2
 R 2
  
N  k 1
c o r r e g id a

Error típ. de la estimación es la raíz cuadrada de la


varianza residual

 Y  Y 
2
4 2 1 0 8 ,8 5 8
E r r o r tip .d e la e s tim a c io n    1 4 4 ,2 0 8  1 2 ,0 0 8 6 8
N  K  1 292

3. La tabla ANOVA: es un cuadro resumen del análisis de


varianza para la validación del modelo de regresión lineal.
El término Regresión en esta tabla equivale a Explicada
en la terminología que hemos utilizado en clase. Los
valores que aparecen en esta tabla se han calculado con
las expresiones siguientes:

Fuentes de Sumas de Grados Varianza o


variación cuadrados de Media F
libertad Cuadrática
Regresión o N
S C exp
  Y  Y 
2
explicada i K S e2 x p  R 2
i1 K 2
y . 1 , 2 , ... , k
S exp K
Residual o no N
S C res 
  Y i  Yi  2 1  R y2 . 1 , 2 , ... , k
2
S 2
 S res
explicada N-K-1 res
N  K  1
i1 N  K  1
Total N
SCt
 Y  2
 Y N-1 S 2

i1
i t
N  1

La columna Sig, corresponde al valor de probabilidad de


F. Es la probabilidad de obtener el valor de F si la hipótesis
nula fuera cierta. Como este valor es menor que 0,05 se
rechaza la hipótesis nula y se concluye que el modelo de
regresión es válido.

4. Tabla de coeficientes: Esta tabla contiene los


coeficientes no estandarizados (en directas) y
estandarizados de la recta de regresión estimada.
Concretamente, la columna etiquetada como B nos
permite escribir la recta de regresión en puntuaciones
directas. Así, la recta que relaciona estrés con la
competencia es:

Y  66,937  1,221X

Por otro lado, el valor que aparece en la columna


etiquetada como Beta es la pendiente de la recta en
típicas que como sabemos, en el modelo de regresión
simple, es el coeficiente de correlación de Pearson. La
recta de regresión en típicas es:

Zˆ y  ,525Z x

En la columna de Coeficientes No estandarizados,


además de los coeficientes de la recta en directas, la
columna Error típ. hace referencia a los errores típicos de
la constante (ordenada en origen) y de la pendiente de la
recta. Son los denominadores del estadístico de contraste
t de student de la penúltima columna. Concretamente, el
error típico de la pendiente (ver el formulario) se obtiene
con la siguiente expresión:

2
S 1 4 4 ,2 0 8
Sb  N
res
  0 ,1 1 6
10770
 X  2
i  X
i1

Los valores de la columna t se obtienen dividiendo el valor


de los coeficientes no estandarizados entre sus error
estándar concretamente,
a 6 6 ,9 3 7
t    1 6 ,3 5 1
Sa 4 ,0 9 4

b  1 ,2 2 1
t     1 0 ,5 5 0
Sb 0 ,1 1 6

La columna Sig, corresponde a los valores de probabilidad


de las los valores de t. Es la probabilidad de obtener el
valor de t si la hipótesis nula fuera cierta. Como estos
valores son menores que 0,05 se rechaza la hipótesis nula
y se concluye que los parámetros son distintos de cero
información coincidente con la obtenida del análisis de la
varianza (validación del modelo). En el caso del contraste
referido a la pendiente de la recta implica que el cambio
medio en estrés por unidad de variación en competencia
es estadísticamente distinto de cero.

Comprobación de los supuestos del modelo de


regresión lineal: análisis de residuos

En el cuadro de diálogo de Regresión lineal


disponemos de una serie de opciones que nos van
permiten obtener información acerca de la adecuación de
los datos a los supuestos del modelo de regresión lineal.
Un cumplimiento razonable de dichos supuestos garantiza
que las inferencias a la población son válidas. Las
herramientas de las que disponemos en SPSS para
evaluar los supuestos de linealidad, normalidad,
homocedasticidad, independencia de errores y presencia
de valores alejados y/o influyentes son tanto de naturaleza
gráfica como analítica.
Para obtener información acerca de los supuestos
vamos a seleccionar algunas de las opciones disponibles
en los distintos botones que aparecen en el cuadro de la
Figura 3.
Pulsando en el botón Guardar podemos añadir a la
matriz de datos original las puntuaciones ajustadas
(pronósticadas) y los residuos del modelo de regresión
distintos formatos:
Residuos No tipificados: son los residuos
ordinarios del modelo de regresión ( e i  Y i  Y i ).
Residuos tipificados: tienen media cero y
varianza próxima a 1. Un sujeto con un residuo
tipificado grande se puede considerar atípico. Se
suelen considerar atípicos los sujetos con residuos
tipificados absolutos superiores a 3.
El residuo estudentizado de un sujeto se calcula
igual que el anterior sólo que de la varianza
residual se elimina el residuo del sujeto
correspondiente. Los residuos estudentizados
siguen una distribución t de student con N-k-2
grados de libertad. Son observaciones atípicas las
correspondientes a residuos estudentizados
significativos.
Los residuos anteriores nos permiten identificar
observaciones alejadas lo cual no significa que sean
observaciones influyentes. Que una observación sea
atípica no conlleva necesariamente que sea influyente.
Observaciones influyentes son aquellas que tienen un
peso muy grande en los coeficientes del modelo. Se sabe
si una observación (sujeto) es influyente comparando las
estimaciones obtenidas cuando se le incluye en la muestra
con las obtenidas cuando se le excluye. Varios son los
estadísticos que miden la influencia de cada sujeto sobre
los estadísticos. Nosotros hemos seleccionado las
siguientes:
a) Distancia de Mahalanobis es una medida de influencia a
priori: mide la distancia de cada caso respecto a las
medias de las variables predictoras. En regresión simple
es el cuadrado de la puntuación típica de cada caso. No
debe superar al valor de chi-cuadrado para k grados de
libertad y un nivel de significación de 0,001.
b) La distancia de Cook es una medida de influencia a
posteriori. La influencia se mide por la diferencia en los
coeficientes de la ecuación calculados con la muestra
completa y con la muestra menos la observación en
cuestión. Valores de D mayores que 1 o mayores que F
para un α = .50 y con k+ l y N- k- 1 grados de libertad se
pueden considerar influyentes.
c) Valores de influencia: miden el impacto a priori de cada
caso. Como regla general valores menores que 0,2 se
consideran poco influyentes, entre 0,2 y 0,5 son
arriesgados los valores superiores a 0,5 indican influencia.
Creemos que con estas nuevas variables obtendremos
información suficiente para evaluar casos atípicos y/o
influyentes.
Pulsando en el botón Estadísticos se accede al
cuadro de diálogo mostrado en la Figura 4. En dicho
cuadro, por defecto, aparecen marcadas las opciones
Estimaciones y Ajuste del modelo. Estas opciones son
las que nos han proporcionado las tablas Variables
introducidas/eliminadas, Resumen del modelo,
ANOVA, coeficientes que hemos comentado antes. Del
resto de opciones que nos proporciona el cuadro
Estadísticos, para nuestros propósitos en esta práctica,
no marcaremos ninguna.
Figura 4.

Pulsando en el botón Gráficos accedemos al siguiente


cuadro de diálogo:

Por defecto en el cuadro anterior no hay ninguna opción


seleccionada. Sin embargo, nos parece muy útil realizar el
gráfico de dispersión de los residuos estandarizados frente
a las puntuaciones ajustadas estandarizadas (pronósticos
estandarizados). Estos gráficos de residuos frente a
puntuaciones ajustadas son los que proporcionan más
información acerca del cumplimiento de los supuestos del
modelo y juegan un papel fundamental en la identificación
de valores alejados e influyentes.
Además del gráfico de dispersión, hemos
seleccionado el Histograma y el Gráfico de Prob.
Normal. Estos gráficos nos permiten, mediante inspección
visual, valorar el cumplimiento del supuesto de normalidad
en los residuos. No obstante, se puede realizar una
prueba de significación que elimine la ambigüedad
inherente a la inspección visual.
Con las opciones marcadas en los cuadros Guardar y
Gráficos además de las tablas ya comentadas se obtiene
la siguiente información.

Resultados

Estadísticos sobre los residuosa

Desviación
Mínimo Máximo Media típ. N
Valor pronosticado 8,3397 49,8464 24,3844 7,40139 294
Valor pronosticado tip. -2,168 3,440 ,000 1,000 294
Error típico del valor
,701 2,513 ,948 ,286 294
pronosticado
Valor pronosticado
8,4853 50,5264 24,3848 7,39960 294
corregido
Residuo bruto -31,97624 38,33554 ,00000 11,98817 294
Residuo tip. -2,663 3,192 ,000 ,998 294
Residuo estud. -2,675 3,205 ,000 1,002 294
Residuo eliminado -32,27098 38,65010 -,00046 12,07426 294
Residuo eliminado estud. -2,704 3,258 ,001 1,006 294
Dist. de Mahalanobis ,001 11,835 ,997 1,559 294
Distancia de Cook ,000 ,050 ,004 ,007 294
Valor de influencia
,000 ,040 ,003 ,005 294
centrado
a. Variable dependiente: estrés total
Histograma

Variable dependiente: estrés total

50

40
Frecuencia

30

20

10

Media =1,6E-16
Desviación típica =0,
0 998
-3 -2 -1 0 1 2 3 4 N =294

Regresión Residuo tipificado


Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: estrés total


1,0

0,8
Prob acum esperada

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada


Gráfico de dispersión

Variable dependiente: estrés total

4
Regresión Residuo tipificado

-1

-2

-3

-3 -2 -1 0 1 2 3 4

Regresión Valor pronosticado tipificado

Descripción de las tablas y gráficos obtenidos con las


opciones marcadas en los cuadros Guardar y Gráficos
de Regresión Lineal

La tabla Estadísticos sobre los residuos(a) nos ofrece


información del rango, tendencia central y dispersión de
las variables que hemos creado con objeto de identificar
casos alejados y/o influyentes. No es necesario para saber
si hay casos atípicos o influyente listar todos esos valores.
Es suficiente con evaluar si el valor máximo y/o mínimo de
las medidas de alejamiento o influencia superan los
umbrales establecidos. En tal caso conviene realizar un
histograma, un gráfico de puntos o un gráfico de
dispersión colocando el número del caso (filas de la matriz
de datos) en el eje de abscisas y las medidas de
alejamiento o de influencia en el eje de ordenadas. En
nuestro no parece que haya ningún caso claramente
influyente.
Los gráficos Histograma y gráfico P-P normal de
regresión nos permiten valorar el alejamiento del
supuesto de normalidad. Comparando la curva normal con
la distribución empírica en el histograma y evaluando el
alejamiento de los puntos representados en el segundo
gráfico con respecto a la diagonal. Podemos concluir que
no existen grandes desviaciones de la curva normal. No
obstante, para ser más precisos se puede utilizar la
prueba de Kolmogorov del menú de pruebas no
paramétricas para evaluar este supuesto.

Por último el gráfico más valioso para evaluar


incumplimientos de los supuestos: el gráfico de
dispersión de residuos frente a puntuaciones
ajustadas. Con este gráfico podemos evaluar errores en
la especificación del modelo por incumplimiento del
supuesto de linealidad. En la medida en que aparezcan
tendencias curvilíneas en el gráfico, el modelo utilizado
sería incorrecto. Podemos también a partir de este gráfico
evaluar el supuesto de homocedasticidad (igualdad de
varianzas). Si queremos ser más precisos en la evaluación
del supuesto de homocedasticidad podemos representar
los errores al cuadrado frente a puntuaciones ajustadas,
calcular la correlación de los valores absolutos de los
errores con la puntuaciones ajustadas o bien realizar una
prueba de Levene previa división de los residuos en dos
grupos en función de un valor (puede ser la mediana) de
la variable predictora.

En nuestro caso no se observan ni curvaturas que


hagan sospechar que el supuesto de linealidad es
incorrecto ni incrementos o decrementos grandes de
variabilidad.
En consecuencia podemos considerar validas las
conclusiones obtenidas del modelo de regresión utilizado
para estudiar la relación entre estrés y competencia.

También podría gustarte