Documentos de Académico
Documentos de Profesional
Documentos de Cultura
a travs de SPSS
M . D olores M artnez M iranda
Profesora del D pto. E stadstica e I.O.
U niversidad de G ranada
Referencias bibliogrficas
1.
Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante
(5 edicin). Ed. Prentice Hall.
2.
INTRODUCCIN
El Anlisis de Regresin tiene como objetivo
estudiar la relacin entre variables.
Permite expresar dicha relacin en trminos de
una ecuacin que conecta una variable de
respuesta Y, con una o ms variables
explicativas X1,X2,,Xk.
Finalidad:
PLANTEAMIENTO GENERAL
Notacin:
Y variable de respuesta (dependiente, endgena, explicada)
X1,X2,,Xk variables explicativas (independientes, exgenas,
regresores)
Y=
0+
1 X1+
2 X2 ++
k Xk +
ln Y = a + b X
Linealizacin
Submen REGRESIN
Regresin lineal mltiple
Ajuste de curvas mediante linealizacin
Y=
0+
1 X1+
2 X2 ++
k Xk +
(1)
Parmetros
j
Y=X
HIPTESIS
Homocedasticidad:
No autocorrelacin:
X 21 L Xk1 0 1
X 22 L Xk 2 1 2
+
M
O
M
M
M
X 2n L Xkn k n
Y X
1 11
Y2 X12
M = M
Yn X1n
j
j
2)
Yi valor predicho
Minimizar
0 , 1,..., k
Solucin
( n > k+1 )
{ Yi (
i=1
1X i1
+ ... +
k X ik
)}
Residuo estimado :
=
0
T
T X)-1 XT Y
(X
L
=
1
k
i = Yi Yi
(Coches.sav)
CONSUMO
Consumo (l/100Km)
Variables independientes
MOTOR
CV
PESO
ACEL
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h (segundos)
Analizar
Regresin
Lineal
Coeficientesa
Modelo
1
(Constante)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Coeficientes no
estandarizados
B
Error tp.
,432
1,166
3,093E-04
,000
4,386E-02
,008
4,948E-03
,001
2,504E-02
,059
Coeficientes
estandarizad
os
Beta
Coeficientes tipificados
t
,134
,424
,355
,370
1,612
5,582
4,404
Sig.
,711
,108
,000
,000
,018
,424
,672
(0
T
L
k
2
b =
j
Xj
Y
Significacin
individual de las
variables y de la
constante
(Inferencia)
Contraste de hiptesis ( Xj )
Resolucin
H0 :
=0
H1 :
T=
j
SE( j )
t n-k -1
Bajo H
0
Contraste de hiptesis
Resolucin
H0 :
=0
H1 :
0
T=
t n- 2
Bajo H0
SE( 0 )
Ejemplo (Coches.sav)
Interpretacin del p-valor
(en un contraste al nivel de significacin )
Si p-valor <
Coeficientesa
Modelo
1
(Constante)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Coeficientes no
estandarizados
B
Error tp.
,432
1,166
3,093E-04
,000
4,386E-02
,008
4,948E-03
,001
2,504E-02
,059
Coeficientes
estandarizad
os
Beta
,134
,424
,355
,370
1,612
5,582
4,404
Sig.
,711
,108
,000
,000
,018
,424
,672
H0 :
=0
H1 :
Al 5% se puede no incluir
constante en el modelo
H0 :
=0
H1 :
( Yi y )
2
= ( Yi y ) + i
i=14
i=14
i=123
1
4244
3 1
4244
3 1
VT
Coeficiente de determinacin
R2 =
VE
VNE
= 1VT
VT
VE
VNE
R = 1-
n -1 2
R
n - k -1
Ejemplo (Coches.sav)
Resumen del modelob
Modelo
1
R
R cuadrado
,869a
,755
R cuadrado
corregida
,752
Error tp. de la
estimacin
1,970
R2 = 0.755
R2 corregido = 0.752
H0 :
H1 : Algn
= =
j
=0
H0 : R = 0
H1 : R
Resolucin (ANOVA)
F=
VE / k
H Fk, n-k -1
Bajo
0
VNE / (n - k - 1)
Ejemplo (Coches.sav)
Contraste de regresin
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
4626,220
1502,188
6128,408
gl
4
387
391
Media
cuadrtica
1156,555
3,882
F
297,956
Sig.
,000a
Al 5% se rechaza H0
(las variables explicativas
influyen de forma conjunta
y lineal sobre Y)
Fuente de
variabilidad
Modelo
Residual
Total
Suma de
cuadrados
Grados de
libertad
Media
cuadrtica
F exp.
VE
VE / k
VE / k
VNE / (n-k-1)
VNE
n-k-1
VNE / (n-k-1)
VT
n-1
Prediccin
Bandas de confianza
Grfico de dispersin
Predicciones para Y
Y( x1, x 2 ,..., x k ) =
1x 1
+ ... +
k xk
-1
-2
R = 0.7549
0
10
Consumo (l/100Km)
20
30
Posibles correcciones:
Deteccin de atpicos y
puntos influyentes
Transformaciones
4. Falta de linealidad
Variables ficticias
5. No multicolinealidad
Ajustes polinomiales
Trminos de interaccin
Histograma
1.00
100
.75
80
60
Frecuencia
40
20
Desv. tp. = ,99
Media = 0,00
N = 392,00
Residuo tipificado
.50
.25
0.00
0.00
.25
.50
.75
1.00
1.2. No autocorrelacin
Hace referencia a los efectos de la inercia de una observacin a otra
que pueda indicar la no independencia entre los residuos.
Se trata de buscar modelos o pautas en los grficos residuales frente
al nmero de caso (incluso con cada variable independiente).
Error tp. de la
estimacin
1,970
Durbin-W
atson
1,228
Standardized Residual
Si d<1.18 rechazar,
-1
Si d>1.4 no rechazar.
Si 1.18<d<1.4 no es concluyente
-2
-3
-100
100
200
300
400
500
Posibles soluciones:
- Transformaciones
- Aadir variables
1.3. Homocedasticidad
Hace referencia a la constancia de los residuos para los
valores que van tomando las variables independientes.
20
Standardized Residual
Standardized Residual
30
-1
-2
-3
0
100
200
300
-1
-2
-3
1000
2000
3000
4000
5000
6000
7000
8000
Cilindrada en cc
10
-2
-1
Standardized Residual
0
Standardized Residual
Consumo (l/100Km)
Potencia (CV)
-1
-2
-3
400
600
800
1000
1200
1400
1600
1800
-1
-2
-3
0
10
20
30
30
20
20
10
Consumo (l/100Km)
Consumo (l/100Km)
10
-10
-2000
-1000
1000
2000
3000
-10
-800
-600
-400
-200
200
30
30
20
20
10
10
-10
-40
-20
Potencia (CV)
400
Consumo (l/100Km)
Consumo (l/100Km)
Cilindrada en cc
20
40
60
80
-10
-6
-4
-2
1.5. No multicolinealidad
Colinealidad es la asociacin, medida como correlacin,
entre dos variables explicativas (el trmino multicolinealidad
se utiliza para tres o ms variables explicativas).
Impacto de la
multicolinealidad
Reduccin del poder explicativo de cualquier v. explicativa individual en la medida
en que est correlada con las otras v. explicativas presentes en el modelo.
1.
2.
Proporciones de la varianza
Modelo
1
Dimensin
1
2
3
4
5
Autovalor
4,729
,238
2,268E-02
6,265E-03
3,612E-03
Indice de
condicin
1,000
4,454
14,440
27,474
36,185
(Constante)
,00
,00
,03
,20
,76
Cilindrada
en cc
,00
,03
,22
,75
,01
Potencia (CV)
,00
,00
,29
,02
,69
Peso total
(kg)
,00
,00
,01
,70
,29
Aceleracin
0 a 100 km/h
(segundos)
,00
,02
,06
,00
,92
Posibles soluciones:
- ACP y utilizar las componentes principales como regresores.
- A la vista de las correlaciones eliminar variables redundantes.
Datos anmalos
Medidas de influencia
Objetivo: Detectar datos anmalos y datos influyentes
Datos anmalos (atpicos)
Individuos cuyo residuos tipificado es superior a 3 (en valor
absoluto)
Datos influyentes
Individuos cuya omisin produce cambios notables en los
resultados del anlisis
Mide el efecto del dato i-simo ejerce sobre j. Lmites para la versin
estandarizada: 2 n
- 1 / 2 (si
Mide el efecto del dato i-simo ejerce en su propia prediccin. Lmites para la
versin estandarizada: 2 [ (k+2) / (n-k-2) ]1 / 2
COVRATIO Representa el grado al que una observacin tiene impacto sobe los errores
estndar de los coeficientes. Lmites: 1 3(k+1) / n
Distancia de Cook:
Nmero de caso
35
SPSS
Residuo tip.
10,176
Consumo
(l/100Km)
26
Valor
pronosticado
5,95
Residuo bruto
20,05
Valor pronosticado
Valor pronosticado tip.
Error tpico del valor
pronosticado
Valor pronosticado
corregido
Residuo bruto
Residuo tip.
Residuo estud.
Residuo eliminado
Residuo eliminado estud.
Dist. de Mahalanobis
Distancia de Cook
Valor de influencia
centrado
Mnimo
5,95
-1,545
Mximo
21,05
2,843
Media
11,27
,000
Desviacin
tp.
3,440
1,000
,107
,831
,210
,075
392
4,57
21,08
11,26
3,447
392
-5,16
-2,618
-2,641
-5,25
-2,661
,166
,000
20,05
10,176
10,520
21,43
12,433
68,628
1,520
,00
,000
,001
,00
,006
3,990
,007
1,960
,995
1,011
2,024
1,067
4,866
,077
392
392
392
392
392
392
392
,000
,176
,010
,012
392
N
392
392
Modelo
1
2
Variables
introducidas
Peso total (kg)
Potencia (CV)
Variables
eliminadas
,
,
Mtodo
Hacia adelante (criterio: Prob. de F para entrar <= ,050)
Hacia adelante (criterio: Prob. de F para entrar <= ,050)
Estadsticos de cambio
Modelo
1
2
R
R cuadrado
,837a
,700
,868b
,753
R cuadrado
corregida
,699
,752
Error tp. de la
estimacin
2,172
1,972
Cambio en
R cuadrado
,700
,053
Cambio en F
909,085
84,214
gl1
1
1
gl2
390
389
Sig. del
cambio en F
,000
,000
Variables introducidas/eliminadasb
Modelo
1
Variables introducidas
Aceleracin 0 a 100 km/h
(segundos), Peso total (kg), a
Potencia (CV), Cilindrada en cc
Variables eliminadas
,
,
Mtodo
Introducir
Hacia atrs (criterio: Prob. de F para eliminar >= ,100).
Hacia atrs (criterio: Prob. de F para eliminar >= ,100).
Estadsticos de cambio
Modelo
1
2
3
R
R cuadrado
,869a
,755
b
,869
,755
,868c
,753
R cuadrado
corregida
,752
,753
,752
Error tp. de la
estimacin
1,970
1,968
1,972
Cambio en
R cuadrado
,755
,000
-,002
Cambio en F
297,956
,180
2,456
gl1
4
1
1
gl2
387
389
390
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en cc
c. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Sig. del
cambio en F
,000
,672
,118
Variables introducidas/eliminadasa
Modelo
1
2
Variables
introducidas
Variables
eliminadas
Potencia (CV)
Mtodo
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Por pasos (criterio: Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100).
Estadsticos de cambio
Modelo
1
2
R
R cuadrado
,837a
,700
,868b
,753
R cuadrado
corregida
,699
,752
Error tp. de la
estimacin
2,172
1,972
Cambio en
R cuadrado
,700
,053
Cambio en F
909,085
84,214
gl1
1
1
gl2
390
389
Sig. del
cambio en F
,000
,000
Resumen
Pasos a seguir en un anlisis de regresin