Documentos de Académico
Documentos de Profesional
Documentos de Cultura
simple y múltiple
30
20
10
0
10000 12000 14000 16000 18000 20000 22000 24000
30 y = a + bx
25
20
Constante
(a)
15
10
0
0 5000 10000 15000 20000 25000
b = -0,0015962
a = 15 + b(16001)
a = 40,55
Análisis multivariante de datos sociales
6
30
Valor real
(18,3%)
20 A Coruña
Errores de predicción
40
Los casos que están por
encima de la recta tienen
una proporción de población
30
sin estudios superior a
la que tendrían en función
de su PIB per cápita
20 (residuo positivo)
Los casos que están por
debajo de la recta tienen
una proporción de población
10
Errores de predicción
40
La mayor parte de las
Lugo
provincias caen dentro
de un espacio cercano a la
30
recta de regresión, es decir,
presentan un residuo
relativamente pequeño
20
10
0
10000 12000 14000 16000 18000 20000 22000 24000
Errores de predicción
Expresa la pendiente
cuando todas las variables
se han transformado en
Coeficientesa
puntuaciones Z
Coeficien- (la constante es siempre 0)
Constante (a) Coeficientes no
tes
es tandari- Intervalo de confianza
es tandarizados zados para B al 95%
Lím ite Lím ite
Modelo B Error típ. Beta t Sig. inferior s uperior
1 (C ons tante) 40.556 4.138 9.801 .000 32.237 48.876
PIB per capita -1.60E-03 .000 -.673 -6.301 .000 -.002 -.001
a. Variable dependiente: Proporción de población de 16 y m ás años analfabetas /s in es tudios
Capacidad predictiva
PIB Analf. Pron. Resid.
Casos (xi) (yi) (y’) (yi-y)2 (yi- y’i) (yi- y’i)2 (y’i-y) (y’i-y)2
A Coruña 14784 18,3 16,96 10,89 1,34 1,80 1,96 3,79
Desv. Típ. 3311 7,8 5,28 74,31 5,81 37,34 5,28 30,01
Capacidad predictiva
gl = 1, porque F = MCreg / MCres
sólo hay una variable F = t2
pronosticadora
ANOVAb -6,3012 = 39,704
Suma de M edia
M odelo cuadrados gl cuadrática F Sig.
1 Regresión 1368.562 1 1368.562 39.704 .000 a
Residual 1654.538 48 34.470
Total 3023.100 49 gl totales = N - 1
a. Variables p redictoras: (Constante), PIB p er cap ita (en €). 2002
b. Variable dependient e: Prop orción de p oblación de 16 y más años analfabet as/sin
est udios
Capacidad predictiva
Correlación de Pearson
Error típico de la estimación
entre las dos variables
sy·x= 5,871
Resumen del model ob
R2 corregida: descuenta
SCReg. / SCTotal = R2 el efecto del número
1368,56 / 3023,10 = 0,453 de variables pronosticadoras
y del tamaño de la muestra
Análisis multivariante de datos sociales
14
Capacidad predictiva
PIB Analf. Pron. Resid.
Casos (xi) (yi) (y’) (yi-y)2 (yi- y’i) (yi- y’i)2 (y’i-y) (y’i-y)2
A Coruña 14784 18,3 16,96 10,89 1,34 1,80 1,96 3,79
Desv. Típ. 3311 7,8 5,28 74,31 5,81 37,34 5,28 30,01
Multicolinealidad
Varianza propia
(no explicada por
las variables Y Varianza explicada
pronosticadoras) por la pronosticadora X1
X1
X3
Varianza
explicada
Varianza explicada por X1 y X2
por X1, X2 y X3 (colinealidad)
(multicolinealidad) X2
Multicolinealidad
Coeficientes altos = Coeficientes altos =
baja colinealidad alta colinealidad
Coefi ci entesa
Impacto
R múltiple Tolerancia FIV sobre ET Baja
0 1 1 1 multicolinealidad
0,4 0,84 1,19 1,09
0,6 0,64 1,56 1,25 Multicolinealidad
0,75 0,44 2,25 1,5 media
0,8 0,36 2,78 1,67
Muy alta
0,87 0,25 4 2
multicolinealidad
0,9 0,19 5,26 2,29
Análisis multivariante de datos sociales
17
18
Linealidad
Gráfico de regresión parcial
Los casos que no80caen
en la banda se pueden
60
considerar “outliers”
Guipúzcoa
40 Cantabria
Asturias
20
La mayoría de los
-20
-40
Guadalajara casos se distribuyen
dentro de la banda
-60
-4000 -2000 0 2000 4000 6000
Linealidad
Gráfico de regresión parcial
80
Guipúzcoa
60
40
Baleares Lugo
20
Burgos
-20
Guadalajara
-40
-60
-8 -6 -4 -2 0 2 4 6
Normalidad
Histograma
La distribución es asimétrica
positiva; es decir, los casos
8
La línea en el 0 es
la recta de regresión están fuertemente concentrados
6 por debajo de la recta de
regresión y tienen una amplia
dispersión por encima de ella
4
2
Frecuencia
0 N = 50.00
-1.75 -1.25 -.75 -.25 .25 .75 1.25 1.75 2.25
-1.50 -1.00 -.50 0.00 .50 1.00 1.50 2.00
Normalidad
Gráfico P-P normal de regresión Residuo tipificado
1.00
.75
.50
Homoscedasticidad
Homoscedasticidad Heteroscedasticidad
Varianza constante y Varianza inconstante y
distribución normal en distribución no normal
ambas variables en alguna variable
Homoscedasticidad
Homoscedasticidad y
normalidad están muy
relacionadas: la primera
es sólo una extensión
de la segunda
Homoscedasticidad
Gráfico de dispersión La dispersión parece
3 constante a lo largo
Baleares
Guipúzcoa
de la recta, salvo
2 para los casos que
Navarra tienen un índice de
difusión muy superior
1
al pronosticado y a
los que se les
Vizcaya
0
pronostica un índice
de difusión muy alto
-1
Álava
Madrid
-2
-2 -1 0 1 2 3
Observaciones influyentes
Recta con
Gráfico de regresión parcial
100
todas las
observaciones
r = 0,74
80 Baleares
b = 0,0081
Baleares, Girona y
60 Guipúzcoa
Girona
40 Cantabria
Asturias Guipúzcoa pueden
20
considerarse como
observaciones
influyentes, pues su
0
r = 0,70
-3000 -1000 1000 3000 5000 7000
BIBLIOGRAFÍA
• Pardo Merino, A. y Ruiz Díaz, M.A. SPSS 11. Guía para el análisis de
datos. McGraw-Hill. Cap. 18.