Está en la página 1de 34

El Anlisis de la Regresin

a travs de SPSS
M . D olores M artnez M iranda
Profesora del D pto. E stadstica e I.O.
U niversidad de G ranada

Referencias bibliogrficas
1.

Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante
(5 edicin). Ed. Prentice Hall.

2.

Prez, C. (2001) Tcnicas estadsticas con SPSS. Ed. Prentice Hall.

INTRODUCCIN
El Anlisis de Regresin tiene como objetivo
estudiar la relacin entre variables.
Permite expresar dicha relacin en trminos de
una ecuacin que conecta una variable de
respuesta Y, con una o ms variables
explicativas X1,X2,,Xk.
Finalidad:



Determinacin explcita del funcional que relaciona


las variables. (Prediccin)
Comprensin por parte del analista de las
interrelaciones entre las variables que intervienen
en el anlisis.

PLANTEAMIENTO GENERAL
Notacin:
Y variable de respuesta (dependiente, endgena, explicada)
X1,X2,,Xk variables explicativas (independientes, exgenas,
regresores)

Modelo general de Regresin:


Y = m (X1,X2,,Xk ) +
m funcin de regresin
residuos del modelo (errores de observacin, inadecuacin del
modelo)

Variantes del Anlisis de Regresin


en SPSS
 Segn el nmero de v. explicativas: Simple o Mltiple.
 Supuestos sobre la funcin de regresin
Regresin lineal

Y=

0+

1 X1+

2 X2 ++

k Xk +

Estimacin curvilnea (Potencial, exponencial, hiperblica, etc.)


Y = exp (a + b X)

ln Y = a + b X
Linealizacin

Regresin no lineal (Algoritmos de estimacin iterativos)

Variantes del Anlisis de Regresin


en SPSS
 Tipo de datos
Regresin logstica, Modelos Probit (La variable de respuesta es
binaria)
Regresin ordinal (La variable de respuesta es de tipo ordinal)
Escalamiento ptimo o regresin categrica (Las variables
explicativas y/o explicada, pueden ser nominales)

 Situaciones especiales en la estimacin del modelo lineal: Mnimos


cuadrados en dos fases (correlacin entre residuos y v. explicativas),
estimacion ponderada (situacin de heterocedasticidad)

Submen REGRESIN
Regresin lineal mltiple
Ajuste de curvas mediante linealizacin

Modelos de regresin con


respuestas binarias u ordinales

Modelos de regresin no lineales


Modelos de regresin con
variables categricas

Correcciones en el modelo lineal

Contenidos: Aplicaciones con SPSS


Regresin lineal (mltiple)
Estimacin ponderada
Mnimos cuadrados en dos fases
Escalamiento ptimo
Regresin curvilnea
Regresin no lineal

Regresin lineal mltiple


-Modelo tericoModelo lineal

Y=

0+

1 X1+

2 X2 ++

k Xk +

(1)

Parmetros
j

magnitud del efecto que Xj tienen sobre Y (incremento en la media de


Y cuando Xj aumenta una unidad)
trmino constante (promedio de Y cuando las v. explicativas valen 0)
residuos (perturbaciones aleatorias, error del modelo)

Datos (observaciones, muestra) { (Yi, X1i,,Xki) : i = 1,,n }


PROBLEMA

Suponiendo que la relacin entre las variables es como


en (1), estimar los coeficientes ( j ) utilizando la
informacin proporcionada por la muestra

Regresin lineal mltiple


-Modelo tericoExpresin matricial

Y=X

HIPTESIS


Homocedasticidad:

No autocorrelacin:

X 21 L Xk1 0 1

X 22 L Xk 2 1 2
+

M
O
M
M
M

X 2n L Xkn k n

son v.v.a.a. con media 0 e independientes de las Xj

Y X
1 11
Y2 X12
M = M

Yn X1n

tienen varianzas iguales (

j
j

2)

son incorreladas entre s

son normales e independientes (Inferencia sobre el modelo)

No multicolinealidad: Las columnas de X son linealmente


independientes ( rango(X) = k+1 )

Estimacin del modelo


^

Yi valor predicho

Problema de mnimos cuadrados

Minimizar
0 , 1,..., k

Solucin
( n > k+1 )

{ Yi (
i=1

1X i1

+ ... +

k X ik

)}

Suma residual de cuadrados

Residuo estimado :

=
0

T
T X)-1 XT Y

(X
L
=
1
k

Estimacin de los coeficientes

i = Yi Yi

Ejemplo con SPSS

(Coches.sav)

Objetivo: Ajustar un modelo lineal que permita predecir el consumo en


funcin de motor, cv, peso y acel
Variable dependiente

CONSUMO

Consumo (l/100Km)

Variables independientes

MOTOR
CV
PESO
ACEL

Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h (segundos)

Analizar
Regresin
Lineal
Coeficientesa

Modelo
1

(Constante)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)

Coeficientes no
estandarizados
B
Error tp.
,432
1,166
3,093E-04
,000
4,386E-02
,008
4,948E-03
,001
2,504E-02

,059

Coeficientes
estandarizad
os
Beta

Coeficientes tipificados
t

,134
,424
,355

,370
1,612
5,582
4,404

Sig.
,711
,108
,000
,000

,018

,424

,672

Comparacin de los efectos

a. Variable dependiente: Consumo (l/100Km)

(0

T
L
k
2

Consumo = 0.432 + 3.093E-04 Motor + 4.386E-02 CV +


+ 4.948E-03 Peso + 2.504E-02 Acel

b =
j

Xj
Y

Significacin
individual de las
variables y de la
constante
(Inferencia)

Inferencia sobre el modelo


Significacin individual de las variables
Utilidad: Verficar si cada variable aporta informacin significativa al anlisis
Nota:

Depende de las interrelaciones entre las variables, no es concluyente

Contraste de hiptesis ( Xj )

Resolucin

H0 :

=0

H1 :

T=

j
SE( j )

Aceptar H0 significa que la variable


no aporta informacin significativa
en el anlisis de regresin realizado

t n-k -1
Bajo H
0

Inferencia sobre el modelo


Significacin de la constante
Utilidad: Verficar si la v.dependiente tiene media 0 cuando las v.explicativas se anulan

Contraste de hiptesis

Resolucin

H0 :

=0

H1 :

Aceptar H0 significa que


no es conveniente incluir un trmino constante
en el anlisis de regresin realizado

0
T=

t n- 2
Bajo H0

SE( 0 )

Ejemplo (Coches.sav)
Interpretacin del p-valor
(en un contraste al nivel de significacin )

Si p-valor <

entonces se rechaza la hiptesis nula

Coeficientesa

Modelo
1

(Constante)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)

Coeficientes no
estandarizados
B
Error tp.
,432
1,166
3,093E-04
,000
4,386E-02
,008
4,948E-03
,001
2,504E-02

,059

Coeficientes
estandarizad
os
Beta

,134
,424
,355

,370
1,612
5,582
4,404

Sig.
,711
,108
,000
,000

,018

,424

,672

H0 :

=0

H1 :

Al 5% se puede no incluir
constante en el modelo

a. Variable dependiente: Consumo (l/100Km)

Al nivel de significacin del 5%:

Motor (0.108) y Acel (0.672) no son significativas


CV (0.000) y Peso (0.000) s son significativas

H0 :

=0

H1 :

Inferencia sobre el modelo


Bondad de ajuste
Descomposicin de la variabilidad
n

( Yi y )

2
= ( Yi y ) + i
i=14
i=14
i=123
1
4244
3 1
4244
3 1
VT

Coeficiente de determinacin
R2 =

VE
VNE
= 1VT
VT

VE

VNE

R: Coeficiente correlacin lineal mltiple


Indica la mayor correlacin entre Y y las
c.l. de las v. explicativas

Inconveniente: Sobrevalora la bondad del ajuste


Coeficiente de determinacin corregido

R = 1-

n -1 2
R
n - k -1

Ejemplo (Coches.sav)
Resumen del modelob

Modelo
1

R
R cuadrado
,869a
,755

R cuadrado
corregida
,752

Error tp. de la
estimacin
1,970

a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h


(segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
b. Variable dependiente: Consumo (l/100Km)

R2 = 0.755

Consumo queda explicada en un 75.5% por las variables


explicativas segn el modelo lineal considerado

R2 corregido = 0.752

(siempre algo menor que R2)

Inferencia sobre el modelo


Contraste de regresin (ANOVA)
Utilidad: Verificar que (de forma conjunta) las v.explicativas aportan
informacin en la explicacin de la variable de respuesta
Contraste:

H0 :

H1 : Algn

= =
j

=0

H0 : R = 0
H1 : R

Aceptar H0 significa que


las v.explicativas no estn relacionadas linealmente con Y

Resolucin (ANOVA)
F=

VE / k

H Fk, n-k -1
Bajo
0
VNE / (n - k - 1)

Ejemplo (Coches.sav)
Contraste de regresin
ANOVAb

Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
4626,220
1502,188
6128,408

gl
4
387
391

Media
cuadrtica
1156,555
3,882

F
297,956

Sig.
,000a

Al 5% se rechaza H0
(las variables explicativas
influyen de forma conjunta
y lineal sobre Y)

a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso


total (kg), Potencia (CV), Cilindrada en cc
b. Variable dependiente: Consumo (l/100Km)

Fuente de
variabilidad
Modelo
Residual
Total

Suma de
cuadrados

Grados de
libertad

Media
cuadrtica

F exp.

VE

VE / k

VE / k
VNE / (n-k-1)

VNE

n-k-1

VNE / (n-k-1)

VT

n-1

Prediccin
Bandas de confianza
Grfico de dispersin

Predicciones para Y
Y( x1, x 2 ,..., x k ) =

1x 1

+ ... +

k xk

I.C. para los valores predichos de Y


I.C. para la media de Y

Regresin Valor pronosticado tipificado

Variable dependiente: Consumo (l/100Km)

(dentro del rango de prediccin)

-1

-2

R = 0.7549
0

10

Consumo (l/100Km)

20

30

El anlisis de los residuos


Objetivo: Verificar que no se violan las hiptesis sobre las
que se estima el modelo y se realiza la inferencia

1. Normalidad de los residuos


2. No autocorrelacin
3. Homocedasticidad

Posibles correcciones:
Deteccin de atpicos y
puntos influyentes
Transformaciones

4. Falta de linealidad

Variables ficticias

5. No multicolinealidad

Ajustes polinomiales
Trminos de interaccin

1.1. Normalidad de los residuos


Herramientas disponibles en SPSS
Grficos: Histograma, grfico probabilstico normal
Grfico P-P normal de regresin Residuo tipificado

Histograma

1.00

100

.75

80

60

Frecuencia

40

20
Desv. tp. = ,99
Media = 0,00
N = 392,00

Residuo tipificado

Prob acum esperada

.50

.25

0.00
0.00

.25

.50

.75

Prob acum observada

Contrastes: Kolmogorov-Smirknov, Shapiro-Wilks,

1.00

1.2. No autocorrelacin
Hace referencia a los efectos de la inercia de una observacin a otra
que pueda indicar la no independencia entre los residuos.
Se trata de buscar modelos o pautas en los grficos residuales frente
al nmero de caso (incluso con cada variable independiente).

Herramientas disponibles en SPSS: Grficos residuales y el


estadstico de Durbin-Watson
4

Error tp. de la
estimacin
1,970

Durbin-W
atson
1,228

Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos),

Standardized Residual

H0: No hay autocorrelacin


0

Si d<1.18 rechazar,
-1

Si d>1.4 no rechazar.
Si 1.18<d<1.4 no es concluyente

-2

-3
-100

100

200

300

Nmero de orden de las observaciones

400

500

Posibles soluciones:
- Transformaciones
- Aadir variables

1.3. Homocedasticidad
Hace referencia a la constancia de los residuos para los
valores que van tomando las variables independientes.

Herramientas disponibles en SPSS: Grficos residuales

20

Standardized Residual

Standardized Residual

30

-1

-2

-3
0

100

200

300

-1

-2

-3
1000

2000

3000

4000

5000

6000

7000

8000

Cilindrada en cc

10

-2

-1

Regresin Valor pronosticado tipificado

Standardized Residual

0
Standardized Residual

Consumo (l/100Km)

Potencia (CV)

-1

-2

-3
400

600

800

Peso total (kg)

1000

1200

1400

1600

1800

-1

-2

-3
0

10

20

Aceleracin 0 a 100 km/h (segundos)

30

1.4. Falta de linealidad


Hace referencia a las posibles desviaciones de los datos
desde el modelo lineal que se est ajustando.

Herramientas disponibles en SPSS:


Grfico de regresin parcial

Grfico de regresin parcial

Variable dependiente: Consumo (l/100Km)

Variable dependiente: Consumo (l/100Km)

30

Grficos de regresin parcial


y grficos residuales

20

20
10

Consumo (l/100Km)

Consumo (l/100Km)

10

-10
-2000

-1000

1000

2000

3000

-10
-800

-600

-400

-200

200

Grfico de regresin parcial

Grfico de regresin parcial

Variable dependiente: Consumo (l/100Km)

Variable dependiente: Consumo (l/100Km)

30

30

20

20

10

10

-10
-40

-20

Potencia (CV)

400

Peso total (kg)

Consumo (l/100Km)

Consumo (l/100Km)

Cilindrada en cc

20

40

60

80

-10
-6

-4

-2

Aceleracin 0 a 100 km/h (segundos)

Son diagramas de dispersin


de los residuos de cada v.
independiente y los residuos
de la v. dependiente cuando
se regresan ambas por
separado sobre las restantes
v. independientes.

1.5. No multicolinealidad
Colinealidad es la asociacin, medida como correlacin,
entre dos variables explicativas (el trmino multicolinealidad
se utiliza para tres o ms variables explicativas).
Impacto de la
multicolinealidad
Reduccin del poder explicativo de cualquier v. explicativa individual en la medida
en que est correlada con las otras v. explicativas presentes en el modelo.

Herramientas disponibles en SPSS: ndices de condicionamiento, FIV


Diagnsticos de colinealidada

1.

Identificar los ndices que


estn por encima del
umbral: 30

2.

Para los ndices


identificados, identificar las
variables con proporciones
de varianza por encima del
90%: Habr
multicolinealidad si ocurre
con dos o ms coeficientes.

Proporciones de la varianza

Modelo
1

Dimensin
1
2
3
4
5

Autovalor
4,729
,238
2,268E-02
6,265E-03
3,612E-03

Indice de
condicin
1,000
4,454
14,440
27,474
36,185

a. Variable dependiente: Consumo (l/100Km)

(Constante)
,00
,00
,03
,20
,76

Cilindrada
en cc
,00
,03
,22
,75
,01

Potencia (CV)
,00
,00
,29
,02
,69

Peso total
(kg)
,00
,00
,01
,70
,29

Aceleracin
0 a 100 km/h
(segundos)
,00
,02
,06
,00
,92

Posibles soluciones:
- ACP y utilizar las componentes principales como regresores.
- A la vista de las correlaciones eliminar variables redundantes.

Datos anmalos
Medidas de influencia
Objetivo: Detectar datos anmalos y datos influyentes
Datos anmalos (atpicos)
Individuos cuyo residuos tipificado es superior a 3 (en valor
absoluto)

Datos influyentes
Individuos cuya omisin produce cambios notables en los
resultados del anlisis

Herramientas estadsticas (medidas de influencia)


Identificacin de puntos de apalancamiento (observaciones
aisladas del resto sobre una o ms v.independientes)

Observaciones influyentes: influencias sobre coeficientes individuales,


medidas globales de influencia.

Medidas para identificar puntos de apalancamiento:


Leverage o medida de influencia: Lmite: 2(k+1) / n (Si n>50, 3(k+1) / n)
Distancia de Mahalanobis: Considera la distancia de cada observacin
desde los valores medios de las v.independientes. Existen tablas para contrastar,
pero en general se procede a identificar valores considerablemente altos
respecto al resto.

Medidas para identificar observaciones influyentes:


Influencias sobre coeficientes individuales:
DFBETA

Mide el efecto del dato i-simo ejerce sobre j. Lmites para la versin
estandarizada: 2 n

- 1 / 2 (si

n<50 usar los lmites de la normal)

Medidas globales de influencia:


DFITTS

Mide el efecto del dato i-simo ejerce en su propia prediccin. Lmites para la
versin estandarizada: 2 [ (k+2) / (n-k-2) ]1 / 2

COVRATIO Representa el grado al que una observacin tiene impacto sobe los errores
estndar de los coeficientes. Lmites: 1 3(k+1) / n

Distancia de Cook:

Localizar valores que exceden a 4 / (n-k-1)

Deteccin de residuos atpicos: Los valores tipificados deben estar entre -3 y 3


Diagnsticos por casoa

Nmero de caso
35

SPSS

Residuo tip.
10,176

Consumo
(l/100Km)
26

Valor
pronosticado
5,95

Residuo bruto
20,05

a. Variable dependiente: Consumo (l/100Km)

Deteccin de puntos influyentes: Dist. De Mahalanobis, Cook, valor de influencia


Estadsticos sobre los residuosa

Valor pronosticado
Valor pronosticado tip.
Error tpico del valor
pronosticado
Valor pronosticado
corregido
Residuo bruto
Residuo tip.
Residuo estud.
Residuo eliminado
Residuo eliminado estud.
Dist. de Mahalanobis
Distancia de Cook
Valor de influencia
centrado

Mnimo
5,95
-1,545

Mximo
21,05
2,843

Media
11,27
,000

Desviacin
tp.
3,440
1,000

,107

,831

,210

,075

392

4,57

21,08

11,26

3,447

392

-5,16
-2,618
-2,641
-5,25
-2,661
,166
,000

20,05
10,176
10,520
21,43
12,433
68,628
1,520

,00
,000
,001
,00
,006
3,990
,007

1,960
,995
1,011
2,024
1,067
4,866
,077

392
392
392
392
392
392
392

,000

,176

,010

,012

392

N
392
392

El rango de valores para la distancia de


Mahalanobis es elevado
Hay valores de la distancia de Cook
superiores a 4 / (n-k-1) = 0.010
Medida de influencia. Lmite (k=4): 0.038

a. Variable dependiente: Consumo (l/100Km)

Posible solucin: Eliminar observaciones

Seleccin de un subconjunto ptimo


de variables independientes
Objetivo: Seleccionar aquellas variables que sin ser redundantes
proporcionen la mejor explicacin de la v. dependiente.

Mtodos secuenciales en SPSS:

Hacia atrs, Hacia delante, Pasos sucesivos

En trminos muy muy generales


Evalan estadsticos F que controlan la
entrada y salida de variables, adems de las
correlaciones parciales de la v. dependiente
con cada regresor.

Mtodo forward (hacia delante)


Inicialmente no hay regresores, se van introduciendo uno a uno
aquellos que tienen alta correlacin parcial con la v. dependiente y
que son significativos (valor F-entrar).
Variables introducidas/eliminadasa

Modelo
1
2

Variables
introducidas
Peso total (kg)
Potencia (CV)

Variables
eliminadas
,
,

Mtodo
Hacia adelante (criterio: Prob. de F para entrar <= ,050)
Hacia adelante (criterio: Prob. de F para entrar <= ,050)

a. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio
Modelo
1
2

R
R cuadrado
,837a
,700
,868b
,753

R cuadrado
corregida
,699
,752

Error tp. de la
estimacin
2,172
1,972

Cambio en
R cuadrado
,700
,053

a. Variables predictoras: (Constante), Peso total (kg)


b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)

Cambio en F
909,085
84,214

gl1
1
1

gl2
390
389

Sig. del
cambio en F
,000
,000

Mtodo backward (hacia atrs)


Inicialmente se incluyen todos las v. independientes, se van eliminando
una a una las que van resultando significativas (valor F-salir).

Variables introducidas/eliminadasb
Modelo
1

Variables introducidas
Aceleracin 0 a 100 km/h
(segundos), Peso total (kg), a
Potencia (CV), Cilindrada en cc

Variables eliminadas
,
,

Mtodo

Aceleracin 0 a 100 km/h


(segundos)
Cilindrada en cc

Introducir
Hacia atrs (criterio: Prob. de F para eliminar >= ,100).
Hacia atrs (criterio: Prob. de F para eliminar >= ,100).

a. Todas las variables solicitadas introducidas


b. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio
Modelo
1
2
3

R
R cuadrado
,869a
,755
b
,869
,755
,868c
,753

R cuadrado
corregida
,752
,753
,752

Error tp. de la
estimacin
1,970
1,968
1,972

Cambio en
R cuadrado
,755
,000
-,002

Cambio en F
297,956
,180
2,456

gl1
4
1
1

gl2
387
389
390

a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en cc
c. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)

Sig. del
cambio en F
,000
,672
,118

Mtodo Stepwise (pasos sucesivos)


Combina los dos mtodos anteriores definiendo un procedimiento en el
que las variables independientes entran o salen del modelo dependiendo
de su significacin (valores F-entrar y F-salir).

Variables introducidas/eliminadasa

Modelo
1
2

Variables
introducidas

Variables
eliminadas

Peso total (kg)

Potencia (CV)

Mtodo
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).

a. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio
Modelo
1
2

R
R cuadrado
,837a
,700
,868b
,753

R cuadrado
corregida
,699
,752

Error tp. de la
estimacin
2,172
1,972

Cambio en
R cuadrado
,700
,053

a. Variables predictoras: (Constante), Peso total (kg)


b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)

Cambio en F
909,085
84,214

gl1
1
1

gl2
390
389

Sig. del
cambio en F
,000
,000

Resumen
Pasos a seguir en un anlisis de regresin

Paso 1. Objetivos del anlisis


Paso 2. Diseo de la investigacin mediante regresin mltiple
Paso 3. Supuestos del anlisis
Paso 4. Estimacin del modelo de regresin y valoracin global del
ajuste
Paso 5. Interpretacin y validacin de los resultados.

También podría gustarte