Está en la página 1de 26

Análisis de regresión

simple y múltiple

Una introducción a las técnicas


de predicción de datos

Análisis multivariante de datos sociales – Curso 2022-23


2

Criterio de mínimos cuadrados


40

30

20

10

0
10000 12000 14000 16000 18000 20000 22000 24000

PIB per capita (en €)


Análisis multivariante de datos sociales
3

Criterio de mínimos cuadrados


45

40 Pendiente Recta de regresión


(b) calculada mediante
la fórmula
35

30 y = a + bx
25

20
Constante
(a)
15

10

0
0 5000 10000 15000 20000 25000

PIB per capita (en €)


Análisis multivariante de datos sociales
Criterio de mínimos cuadrados
PIB Analf. (xi-x) · y’=
Casos (xi) (yi) (xi-x) (yi-y) (xi-x)2 (yi-y)2 (yi-y) a+bx
A Coruña 14784 18,3 -1217 3,3 1481016 10,89 -4016.0 16,96

Álava 23806 11,3 7805 -3,7 60927547 13,69 -28880.8 2,54

Albacete 12078 27,4 -3923 12,4 15386163 153,79 -48639.2 21,28

... ... ... ... ... ... ... ... ...

Suma 800054 750,7 0 0 537087622 3023,11 857343 750,7

Media 16001 15 0 0 10741752 60,46 -17147 15,0

Desv. Típ. 3311 7,8 0 0 11784164 74,31 19950 5,28

b = -0,0015962

Análisis multivariante de datos sociales


4
5

Criterio de mínimos cuadrados


PIB Analf. (xi-x) · y’=
Casos (xi) (yi) (xi-x) (yi-y) (xi-x)2 (yi-y)2 (yi-y) a+bx
A Coruña 14784 18,3 -1217 3,3 1481016 10,89 -4016.0 16,96

Álava 23806 11,3 7805 -3,7 60927547 13,69 -28880.8 2,54

Albacete 12078 27,4 -3923 12,4 15386163 153,79 -48639.2 21,28

... ... ... ... ... ... ... ... ...

Suma 800054 750,7 0 0 537087622 3023,11 857343 750,7

Media 16001 15,0 0 0 10741752 60,46 -17147 15,0

Desv. Típ. 3311 7,8 0 0 11784164 74,31 19950 5,28

a = 15 + b(16001)
 a = 40,55
Análisis multivariante de datos sociales
6

Criterio de mínimos cuadrados


PIB Analf. (xi-x) · y’=
Casos (xi) (yi) (xi-x) (yi-y) (xi-x)2 (yi-y)2 (yi-y) a+bx
A Coruña 14784 18,3 -1217 3,3 1481016 10,89 -4016,0 16,96

Álava 23806 11,3 7805 -3,7 60927547 13,69 -28880,8 2,54

Albacete 12078 27,4 -3923 12,4 15386163 153,79 -48639,2 21,28

... ... ... ... ... ... ... ... ...

Suma 800054 750,7 0 0 537087622 3023,11 857343 750,7

Media 16001 15,0 0 0 10741752 60,46 -17147 15,0

Desv. Típ. 3311 7,8 0 0 11784164 74,31 19950 5,28

Valor pronosticado para A Coruña


y’ = 40,55 + (-0,0015962)(14784)
Análisis multivariante de datos sociales
7

Criterio de mínimos cuadrados


40

30

Valor real
(18,3%)
20 A Coruña

Valor pronosticado de Residuo: diferencia


población sin10 estudios entre el valor real y
para A Coruña en el valor pronosticado
función de su PIB per (1,34%)
cápita (16,96%)
0
10000 12000 14000 16000 18000 20000 22000 24000

PIB per capita (en €)


Análisis multivariante de datos sociales
8

Errores de predicción
40
Los casos que están por
encima de la recta tienen
una proporción de población
30
sin estudios superior a
la que tendrían en función
de su PIB per cápita
20 (residuo positivo)
Los casos que están por
debajo de la recta tienen
una proporción de población
10

sin estudios inferior a


la que tendrían en función
de su PIB per cápita
0
10000 12000 14000 16000 18000 20000 22000 24000
(residuo negativo)
PIB per capita (en €)
Análisis multivariante de datos sociales
9

Errores de predicción
40
La mayor parte de las
Lugo
provincias caen dentro
de un espacio cercano a la
30
recta de regresión, es decir,
presentan un residuo
relativamente pequeño
20

10

0
10000 12000 14000 16000 18000 20000 22000 24000

PIB per capita (en €)


Análisis multivariante de datos sociales
10

Errores de predicción
Expresa la pendiente
cuando todas las variables
se han transformado en
Coeficientesa
puntuaciones Z
Coeficien- (la constante es siempre 0)
Constante (a) Coeficientes no
tes
es tandari- Intervalo de confianza
es tandarizados zados para B al 95%
Lím ite Lím ite
Modelo B Error típ. Beta t Sig. inferior s uperior
1 (C ons tante) 40.556 4.138 9.801 .000 32.237 48.876
PIB per capita -1.60E-03 .000 -.673 -6.301 .000 -.002 -.001
a. Variable dependiente: Proporción de población de 16 y m ás años analfabetas /s in es tudios

Límites de confianza con


Pendiente (b) t = B / Error típico
2 desviaciones típicas
40,556/4,138 = 9,801
40,56 ± (4,138)2
Análisis multivariante de datos sociales
11

Capacidad predictiva
PIB Analf. Pron. Resid.
Casos (xi) (yi) (y’) (yi-y)2 (yi- y’i) (yi- y’i)2 (y’i-y) (y’i-y)2
A Coruña 14784 18,3 16,96 10,89 1,34 1,80 1,96 3,79

Álava 23806 11,3 2,54 13,69 8,75 76,50 -12,44 155,15

Albacete 12078 27,4 21,28 153,79 6,12 37,51 6,28 39,26

... ... ... ... ... ... ... ... ...

Suma 800054 750,7 750,7 3023,10 0 1654,54 0 1368,56

Media 16001 15,0 15,0 60,46 0 33,09 0 27,37

Desv. Típ. 3311 7,8 5,28 74,31 5,81 37,34 5,28 30,01

Suma de cuadrados Suma de cuadrados Suma de cuadrados


residual + de la regresión = total
Análisis multivariante de datos sociales
12

Capacidad predictiva
gl = 1, porque F = MCreg / MCres
sólo hay una variable F = t2
pronosticadora
ANOVAb -6,3012 = 39,704
Suma de M edia
M odelo cuadrados gl cuadrática F Sig.
1 Regresión 1368.562 1 1368.562 39.704 .000 a
Residual 1654.538 48 34.470
Total 3023.100 49 gl totales = N - 1
a. Variables p redictoras: (Constante), PIB p er cap ita (en €). 2002
b. Variable dependient e: Prop orción de p oblación de 16 y más años analfabet as/sin
est udios

SCTotal = SCReg. + SCRes. MC = SC / gl


1368,562 + 1654,538 = 3023,1 1654,538 / 48 = 34,47
Análisis multivariante de datos sociales
13

Capacidad predictiva
Correlación de Pearson
Error típico de la estimación
entre las dos variables
sy·x= 5,871
Resumen del model ob

R cuadrado Error típ . de


M odelo R R cuadrado corregida la estimación
1 .673 a .453 .441 5.871
a. Variables p redictoras: (Const ante), PIB p er cap ita (en €). 2002
b. Variable dep endient e: Prop orción de p oblación de 16 y más
años analfabet as/sin estudios

R2 corregida: descuenta
SCReg. / SCTotal = R2 el efecto del número
1368,56 / 3023,10 = 0,453 de variables pronosticadoras
y del tamaño de la muestra
Análisis multivariante de datos sociales
14

Capacidad predictiva
PIB Analf. Pron. Resid.
Casos (xi) (yi) (y’) (yi-y)2 (yi- y’i) (yi- y’i)2 (y’i-y) (y’i-y)2
A Coruña 14784 18,3 16,96 10,89 1,34 1,80 1,96 3,79

Álava 23806 11,3 2,54 13,69 8,75 76,50 -12,44 155,15

Albacete 12078 27,4 21,28 153,79 6,12 37,51 6,28 39,26

... ... ... ... ... ... ... ... ...

Suma 800054 750,7 750,7 3023,11 0 1654,54 0 1368,56

Media 16001 15,0 15,0 60,46 0 33,09 0 27,37

Desv. Típ. 3311 7,8 5,28 74,31 5,81 37,34 5,28 30,01

Error típico de la estimación


sy·x= 5,871%
(frente a σ = 7,8%)
Análisis multivariante de datos sociales
15

Multicolinealidad
Varianza propia
(no explicada por
las variables Y Varianza explicada
pronosticadoras) por la pronosticadora X1

X1
X3

Varianza
explicada
Varianza explicada por X1 y X2
por X1, X2 y X3 (colinealidad)
(multicolinealidad) X2

Análisis multivariante de datos sociales


16

Multicolinealidad
Coeficientes altos = Coeficientes altos =
baja colinealidad alta colinealidad
Coefi ci entesa

Est adíst icos de


Correlaciones colinealidad
M odelo Orden cero Parcial Semip arcial Tolerancia FIV
1 PIB p er cap ita -.673 -.616 -.531 .346 2.887
Tasa de act ividad -.148 .391 .288 .539 1.854
Tasa de p aro .467 -.149 -.102 .290 3.446
% de Contrastos indefinidos -.489 -.135 -.092 .317 3.157
a. Variable dependient e: Prop orción de p oblación de 16 y más años analfabet as/sin estudios

Altas diferencias = Coeficientes bajos =


alta colinealidad alta colinealidad
Análisis multivariante de datos sociales
Multicolinealidad
Las diferentes medidas de la multicolinealidad
están relacionadas entre sí

Impacto
R múltiple Tolerancia FIV sobre ET Baja
0 1 1 1 multicolinealidad
0,4 0,84 1,19 1,09
0,6 0,64 1,56 1,25 Multicolinealidad
0,75 0,44 2,25 1,5 media
0,8 0,36 2,78 1,67
Muy alta
0,87 0,25 4 2
multicolinealidad
0,9 0,19 5,26 2,29
Análisis multivariante de datos sociales
17
18

Linealidad
Gráfico de regresión parcial
Los casos que no80caen
en la banda se pueden
60
considerar “outliers”
Guipúzcoa

40 Cantabria
Asturias

20

La mayoría de los
-20

-40
Guadalajara casos se distribuyen
dentro de la banda
-60
-4000 -2000 0 2000 4000 6000

PIB per capita (en €) (tipificado)

Análisis multivariante de datos sociales


19

Linealidad
Gráfico de regresión parcial
80
Guipúzcoa

60

40

Baleares Lugo
20

Burgos
-20

Guadalajara
-40

-60
-8 -6 -4 -2 0 2 4 6

Proporción de población de 16 y más años con estudios superiores (tip.)

Análisis multivariante de datos sociales


20

Normalidad
Histograma
La distribución es asimétrica
positiva; es decir, los casos
8
La línea en el 0 es
la recta de regresión están fuertemente concentrados
6 por debajo de la recta de
regresión y tienen una amplia
dispersión por encima de ella
4

2
Frecuencia

Desv. típ. = .98


Media = 0.00

0 N = 50.00
-1.75 -1.25 -.75 -.25 .25 .75 1.25 1.75 2.25
-1.50 -1.00 -.50 0.00 .50 1.00 1.50 2.00

Regresión Residuo tipificado

Análisis multivariante de datos sociales


21

Normalidad
Gráfico P-P normal de regresión Residuo tipificado
1.00

.75

.50

Los casos que están


por debajo de la curva
.25
denotan una distribución
asimétrica positiva
0.00
0.00 .25 .50 .75 1.00

Probabilidad acumulada observada

Análisis multivariante de datos sociales


22

Homoscedasticidad

Homoscedasticidad Heteroscedasticidad
Varianza constante y Varianza inconstante y
distribución normal en distribución no normal
ambas variables en alguna variable

Análisis multivariante de datos sociales


23

Homoscedasticidad

Homoscedasticidad y
normalidad están muy
relacionadas: la primera
es sólo una extensión
de la segunda

Análisis multivariante de datos sociales


24

Homoscedasticidad
Gráfico de dispersión La dispersión parece
3 constante a lo largo
Baleares
Guipúzcoa
de la recta, salvo
2 para los casos que
Navarra tienen un índice de
difusión muy superior
1
al pronosticado y a
los que se les
Vizcaya

0
pronostica un índice
de difusión muy alto
-1
Álava
Madrid

-2
-2 -1 0 1 2 3

Regresión Valor pronosticado tipificado


Análisis multivariante de datos sociales
25

Observaciones influyentes
Recta con
Gráfico de regresión parcial
100
todas las
observaciones
r = 0,74
80 Baleares

b = 0,0081
Baleares, Girona y
60 Guipúzcoa
Girona
40 Cantabria
Asturias Guipúzcoa pueden
20
considerarse como
observaciones
influyentes, pues su
0

-20 exclusión implicaría


-40
Guadalajara
Recta sin las una recta de regresión
-60 observaciones menos pronunciada
-4000 -2000 0 2000influyentes
4000 6000

r = 0,70
-3000 -1000 1000 3000 5000 7000

PIB per capita (en €) (tipificado) b = 0,0070


Análisis multivariante de datos sociales
26

BIBLIOGRAFÍA

• Hair, Joseph F.; Anderson, Rolph E.; Tatham, Ronald L. y Black,


William C. 1999. Análisis multivariante. Prentice Hall. Capítulo 4.

• Bisquerra Alzina, Rafael. 1989. Introducción conceptual al análisis


multivariable. PPU. Capítulo 8.

• Cea D’Ancona, María Ángeles. 2002. Análisis multivariable. Teoría y


práctica en la investigación social. Síntesis. Capítulo 1.

• Pardo Merino, A. y Ruiz Díaz, M.A. SPSS 11. Guía para el análisis de
datos. McGraw-Hill. Cap. 18.

Análisis multivariante de datos sociales

También podría gustarte