Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escuela de Sociologa
Prof: Berta Teitelboim G.
Capitulo 1:
Correlacin bivariada y anlisis de
regresin simple
Agosto 2014
1
Introduccin
DIAGRAMA DE DISPERSION
1.1
Orden Pais
40
45
51
71
77
85
89
91
111
Chile
Argentina
Uruguay
Venezuela
Peru
Brazil
Ecuador
Colombia
Paraguay
Ingreso
PP en
miles de Esperanza de
US$ 2012 vida (aos)
15,0
15,3
13,3
11,5
9,3
10,2
7,5
8,7
4,5
79,3
76,1
77,2
74,6
74,2
73,8
75,8
73,9
72,7
80,0
79,0
78,0
77,0
76,0
75,0
74,0
73,0
72,0
0,0
5,0
10,0
15,0
20,0
1.1
r =
r=
(x x) *( y y)
(x x) *(( y y)
i
S
nS
xy
x
n xi * yi ( xi * yi )
(n xi2 ) ( xi )2 * n yi2 ) ( yi )2
En el ejemplo r= 0.771
Pero no sufran
1.1.2 Caractersticas
Se denomina
En resumen
Los valores que puede tomar el coeficiente de correlacin
"r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor
de una variable sube el de la otra). La correlacin es tanto
ms fuerte cuanto ms se aproxime a 1.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor
de una variable disminuye el de la otra). La correlacin
negativa es tanto ms fuerte cuanto ms se aproxime a -1.
Por ejemplo: En una dieta para bajar de peso y su relacin
con el tiempo: A medida que aumentan los das, disminuye
el peso.
Si "r" = 0, no existe correlacin lineal entre las variables.
Aunque podra existir otro tipo de correlacin
(parablica, exponencial, etc.)
10
Positiva
Ninguno
Correlacin
-0,09 a 0,0
0,0 a 0,09
Pequeo
-0,3 a -0,1
0,1 a 0,3
Medio
Grande (fuerte)
-0,5 a -0,3
-1,0 a -0,5
0,3 a 0,5
0,5 a 1,0
11
Fuente:
http://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg
12
y = b 0 + b1 x + e
y =
+ 1x + e
80,0
79,0
78,0
77,0
76,0
75,0
74,0
73,0
72,0
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
1.2
13
79,0
)
y = b 0 + b1 x
78,0
77,0
76,0
75,0
74,0
73,0
72,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
)
y = b 0 + b1 x
14
1.2
y i = b 0 + b1 x i + e i
y i = b 0 + b 1 x i
Donde Yi es la variable dependiente o explicada por X
Xi es la variable independiente.
La recta de regresin es la que minimiza los errores (ei=0).
)
yi = y i+ ei
)
ei = yi y i
Si se reemplaza Y estimado,
1.2
15
)
e i = y i ( b 0 + b1 x i ) = y i y i
e i2 = 0
)
( y i y i )2 = 0
( y i b 0 b1 x i ) 2 = 0
b 0 = y b1 x
b1 =
( xi x ) * ( yi y )
( xi x )
S xy
S xx
16
)
y = b 0 + b1 x
Recordemos que:
bo es el intercepto
b1 es la pendiente de la recta
Una vez calculada bo y b1, se identifica la ecuacin
estimada de regresin, esta es la que se ajusta mejor a
los puntos muestrales.
17
Retomando Ejemplo
Orden Pais
40
45
51
71
77
85
89
91
111
Chile
Argentina
Uruguay
Venezuela
Peru
Brazil
Ecuador
Colombia
Paraguay
Ingreso PP
en US$
14.987
15.347
13.333
11.475
9.306
10.152
7.471
8.711
4.497
Esperanza de
vida (aos)
79,3
76,1
77,2
74,6
74,2
73,8
75,8
73,9
72,7
B
(Constante)
70,644
INGRESO_MILES 0,439
Ecuacin
:
y = 70 . 6 + 0 , 439 x
x = IngresoPP
18
Fuente: Estadistica Aplicada a los Negocios y la Economia Allen Webster; cap. Cap.11, 3 edicin, pag. 359
1.3
19
( y
) = 0
y i = b 0 + b 1 x i
20
10
^yi +
ei
( y
Y ) = ( y i Y ) + ( y
Desviacin observada
Respecto de la media
muestral
Desviacin Predicha
Respecto de la media
muestral
y i )
Residuo
21
( yi Y )2 =
Variabilidad total
de la muestra
( y i Y )
( y i y i ) 2
22
11
80,0
Desviacin
no
explicada
79,0
78,0
y = 70 . 6 + 0 , 439 x
77,0
76,0
75,0
Desviacin
explicada
74,0
73,0
72,0
4,0
6,0
8,0
10,0
12,0
Ingreso PP en miles de US$ 2012
)
D.Explicada = yi yi
14,0
16,0
)
D _ no _ exp licada = y i y i
23
En resmen
(i=1,2,.,n)
y i = b 0 + b 1 x
SCT
SCR
( y
Y )
( y
Y )
e i2
24
12
Variabilidad total =
de la muestra
SCT
Variabilidad Explicada +
SCR
Suma de Cuadrados
Suma de Cuadrados
de la Regresin
Total
Variabilidad no
explicada
SCE
Suma de
Cuadrados Residual (o
del error)
25
SCT = ( yi Y ) 2
1
n
)
SCR = ( yi Y )
SCE = ei2
1
R2 =
SCR
SCE
= 1
SCT
SCT
Variacin Explicada
---------------------Variacin Total
13
En el ejemplo
Estadsticas de la regresin
Coeficiente de correlacin
mltiple
Coeficiente de determinacin
R^2
0,771
0,595
gl
SC
SCM
Fcalc
Regresin o
explicada
SCR
SCR/1
SCMR/
SCME
Residuo o no
explicada
n-2
SCE
SCE/(n-2)
Total
n-1
SCT
Fcalc se distribuye F(1- /2,(1,n-2))
Recordemos que
n
( y
Y )
Variabilidad total
de la muestra
SCT
( y
Y )
Variabilidad Explicada +
SCR
2
i
Variabilidad no
explicada
SCE
28
14
H0 : 1 = 0
H1 : 1 0
H1 : El _ ingreso_ del_ pas_
incide
H0 : El _ ingreso_ del_ pas_ no_ incide_ en_ los_ aos_ de_ Esperanza_ de_ vida
_ en_ los_ aos_ de_ Esperanza_ de_ vida
H0 : 1 = 0
H0 : El _ ingreso_ del_ pas_
n o
H1 : 1 0
H1 : El _ ingreso_ del_ pas_ incide_ en_ los_ aos_ de_ Esperanza_ de_ vida
Sig de B1, es menor que 0,05, por lo tanto se rechaza H0
30
15
1.5
Prediccin
31
Prediccin
Supongamos que la variable independiente toma el valor Xk y que la
relacin entre las variables es lineal. El valor de la variable
dependiente ser:
y k = b 0 + b1 * x k
En el ejemplo de la esperanza de vida y el Ingreso,
S un pas tiene un INGPP de US$ 10.000 diarios Cul ser su
esperanza de vida estimada?
La ecuacin era:
y k = 70 . 6 + 0 . 439 x k
Si Xi=10 reemplazando
Ecuacin :
y i = 70 . 6 + 0 . 439 * 10 = 75
32
16
Ejemplo 2
Ejemplo 3
adecuado.
Interprete el coeficiente b1.
Estime cuanto se demorara en seg. Una persona de 50 aos.
34
17
Ejemplo 4
En el archivo empleados.sav, construir un modelo de regresin
lineal que explique la variable salario actual(y), como variable
independiente utilice la educacin (x).
Resumen del modelo
Modelo
1
R
,661a
R cuadrado
corregida
,435
R cuadrado
,436
Error tp. de la
estimacin
$12,833.540
Suma de
cuadrados
6,018E+10
7,774E+10
1,379E+11
Regresin
Residual
Total
gl
1
472
473
Media
cuadrtica
6,02E+10
1,65E+08
F
365,381
Sig.
,000a
Coeficientes a
Modelo
1
(Constante)
nivel educacional
Coeficientes no
estandarizados
B
Error tp.
-18331,2
2821,912
3909,907
204,547
Coeficientes
estandarizad
os
Beta
,661
t
-6,496
19,115
Sig.
,000
,000
35
Notas a Considerar
1. Si no existe correlacin lineal entre las variables , no
utilice la ecuacin de regresin.
2. Una ecuacin de regresin esta basada en datos
antiguos, no sirven necesariamente para los actuales.
3. No haga predicciones acerca de una poblacin distinta
de la poblacin donde se obtuvieron los datos
muestrales.
36
18
1.6
Anlisis de Residuos
37
38
19
39
40
20
41
Ejemplo
Utilice la base de datos IDH 2012 Mundial,
construya un modelo de regresin,
Variable dependiente : la Esperanza de Vida
Variable independiente: Escolaridad.
42
21
Si n > 30
43
44
22
x
y
31 33 22 24 35 29 23 37 Salario
17 20 13 15 18 17 12 21 Satisfaccin
45
Grfico
Puntajes de satisfaccin en el trabajo (x) y salario
diario(y)
40
35
30
y=miles de $
25
Lineal (y=miles de $)
20
15
10
12
14
16
Ttulo del eje
18
20
22
r=
0,94
46
23
Bibliografa utilizada:
Berenson, Mark L., Levine, David M. , coaut., Krehbiel, Timothy C. , coaut. Ed 2,
Mxico Pearson, Educacin, 2006 (cap. 12)
PARDO MERINO Antonio, RUIZ DIAZ Miguel A. (2002): SPSS 11. Gua para el
anlisis de datos. Editorial Mac Graw Hill. 1a edicin.
SANCHEZ CARRION Juan J. (1999): Manual de anlisis estadstico de los datos.
Editorial Alianza. 2a edicin. Cap.8
TRIOLA Mario (2004): Estadsticas. Editorial Pearson. 9a edicin.
Webster, A. Estadistica Aplicada a los Negocios y la Economia, Editorial Mac Graw
Hill 3 edicicin.
En la web:
http://www.cienciaytrabajo.cl/V2/index.html
AO 8, NMERO 22, OCTUBRE-DICIEMBRE 2006 | Pags. 185/189.
AO 10, NMERO 27, ENERO-MARZO 2008
http://www.ine.es/
Importancia de Darwin en el desarrollo de la estadstica moderna
Toni Monlen Getino; Estadstica espaola,, Vol. 52, N 175, 2010, pgs. 371-392.
47
Capitulo 1:
Correlacin bivariada y anlisis de
regresin simple
Agosto 2013
48
24