Está en la página 1de 24

UDP - Facultad de Ciencias Sociales e Historia

Escuela de Sociologa
Prof: Berta Teitelboim G.

Capitulo 1:
Correlacin bivariada y anlisis de
regresin simple
Agosto 2014
1

Introduccin

El objetivo de este captulo es determinar si hay


relacin entre dos variables cuantitativas:
si hay la describiremos con una ecuacin.
Se emplea para determinar si existe una relacin
estadsticamente significativa entre dos variables (datos
bivariados).
Se considerarn solamente relaciones lineales.

1.1 COEFICIENTE DE CORRELACIN LNEAL

El coeficiente de correlacin lineal mide el grado de


intensidad de la relacin entre las variables.
Este coeficiente se aplica cuando la relacin que puede
existir entre las variables es lineal.
Si representramos en un grfico los pares de valores
de las dos variables la nube de puntos se aproximara a
una recta.

DIAGRAMA DE DISPERSION

Def: Es un grfico en donde aparecen los datos muestrales


apareados (x,y). Cada par individual es un punto.

1.1

COEFICIENTE DE Correlacin Lneal

Tambin se conoce como coeficiente de Pearson.


Como se calcula con datos muestrales se basa en los
siguientes supuestos:
La muestra de datos apareados (x,y) es una
muestra aleatoria (m.a.) y ambas variables son
cuantitativas.
Los pares de datos (x,y) tienen una distribucin
normal.

Ejemplo 1: Se tiene la siguiente informacin sobre 10


pases de Amrica Latina
Evida: Esperanza de vida aos
Ingreso: ING Per cpita en US$

Orden Pais
40
45
51
71
77
85
89
91
111

Chile
Argentina
Uruguay
Venezuela
Peru
Brazil
Ecuador
Colombia
Paraguay

Ingreso
PP en
miles de Esperanza de
US$ 2012 vida (aos)
15,0
15,3
13,3
11,5
9,3
10,2
7,5
8,7
4,5

79,3
76,1
77,2
74,6
74,2
73,8
75,8
73,9
72,7

Grfique los datos,


eje x el ingreso
eje y la Esperanza de Vida

80,0
79,0
78,0
77,0
76,0
75,0
74,0
73,0
72,0
0,0

5,0

10,0

15,0

20,0

1.1

Formula COEFICIENTE DE Correlacin


Lineal

r =

r=

(x x) *( y y)
(x x) *(( y y)
i

S
nS

xy
x

n xi * yi ( xi * yi )
(n xi2 ) ( xi )2 * n yi2 ) ( yi )2

Mide el grado de asociacin lineal entre X e Y

En el ejemplo r= 0.771

Pero no sufran

Los clculos los realizaremos en el computador

1.1.2 Caractersticas

Se denomina

(rho) a la correlacin poblacional y


r a la correlacin muestral

nmero sin dimensiones entre -1 y 1.


si las variables son independientes r=0.
si las variables estuvieran perfectamente
relacionadas linealmente r=1
A mayor valor de r mayor relacin entre las
variables.
Cuando la correlacin es 0, el grfico muestra una
lnea plana.
9

En resumen
Los valores que puede tomar el coeficiente de correlacin
"r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor
de una variable sube el de la otra). La correlacin es tanto
ms fuerte cuanto ms se aproxime a 1.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor
de una variable disminuye el de la otra). La correlacin
negativa es tanto ms fuerte cuanto ms se aproxime a -1.
Por ejemplo: En una dieta para bajar de peso y su relacin
con el tiempo: A medida que aumentan los das, disminuye
el peso.
Si "r" = 0, no existe correlacin lineal entre las variables.
Aunque podra existir otro tipo de correlacin
(parablica, exponencial, etc.)
10

Algunos autores sugieren la


siguiente tabla:
Negativo

Positiva

Ninguno

Correlacin

-0,09 a 0,0

0,0 a 0,09

Pequeo

-0,3 a -0,1

0,1 a 0,3

Medio
Grande (fuerte)

-0,5 a -0,3
-1,0 a -0,5

0,3 a 0,5
0,5 a 1,0

11

Grficos de relaciones entre variables

Fuente:
http://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg
12

Si se concluye que hay una correlacin lineal significativa entre


las dos variables ( x e y), se puede obtener una ecuacin lineal que
exprese la variable y en trminos de x del tipo:
Ecuacin datos muestrales

Ecuacin datos poblacionales

y = b 0 + b1 x + e

y =

+ 1x + e

Retomando el problema: Correlacin entre el ingreso per cpita


y la esperanza de vida en 9 pases de Amrica Latina
Esperanza de vida (aos)
s

80,0
79,0
78,0
77,0
76,0
75,0
74,0
73,0
72,0
0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

INGRESO EN MILES DE US$

1.2

13

Modelo de Regresin Lneal

Se puede describir la relacin entre dos variables por medio del


clculo de la ecuacin de la recta que representa la relacin de stas.
Esta recta se conoce como la recta de regresin y su ecuacin como la
ecuacin de regresin.
En el ejemplo: la relacin entre la esperanza de vida y el ingreso per
cpita del pas.
80,0
Esperanza de vida (aos)
s

79,0

)
y = b 0 + b1 x

78,0
77,0
76,0
75,0
74,0
73,0
72,0
4,0

6,0

8,0

10,0

12,0

14,0

16,0

INGRESO EN MILES DE US$

)
y = b 0 + b1 x

14

1.2

Modelo de Regresin Lneal

Una ecuacin de regresin lineal intenta emplear informacin


proporcionada por una variable independiente, X, para explicar
el comportamiento de la variable dependiente Y (tambin
llamada variable respuesta).

y i = b 0 + b1 x i + e i

y i = b 0 + b 1 x i
Donde Yi es la variable dependiente o explicada por X
Xi es la variable independiente.
La recta de regresin es la que minimiza los errores (ei=0).

)
yi = y i+ ei
)
ei = yi y i

Si se reemplaza Y estimado,

1.2

15

Modelo de Regresin Lneal

)
e i = y i ( b 0 + b1 x i ) = y i y i

e i2 = 0

)
( y i y i )2 = 0

Se estima la ecuacin anterior por:

( y i b 0 b1 x i ) 2 = 0

A travs del mtodo de los mnimos cuadrados se calculan b0 y b1


Donde:

b 0 = y b1 x
b1 =

( xi x ) * ( yi y )

( xi x )

S xy
S xx

16

)
y = b 0 + b1 x

Recordemos que:

bo es el intercepto
b1 es la pendiente de la recta
Una vez calculada bo y b1, se identifica la ecuacin
estimada de regresin, esta es la que se ajusta mejor a
los puntos muestrales.

17

Retomando Ejemplo

Ejemplo 1: Se tiene la siguiente informacin sobre 10


pases de Amrica Latina
Evida: Esperanza de vida aos
Ingreso: ING Per cpita en US$
Encontrar la recta de regresin, determine cual es la variable
dependiente y la independiente
Modelo Obtenido

Orden Pais
40
45
51
71
77
85
89
91
111

Chile
Argentina
Uruguay
Venezuela
Peru
Brazil
Ecuador
Colombia
Paraguay

Ingreso PP
en US$
14.987
15.347
13.333
11.475
9.306
10.152
7.471
8.711
4.497

Esperanza de
vida (aos)
79,3
76,1
77,2
74,6
74,2
73,8
75,8
73,9
72,7

B
(Constante)
70,644
INGRESO_MILES 0,439

Ecuacin
:
y = 70 . 6 + 0 , 439 x
x = IngresoPP
18

Fuente: Estadistica Aplicada a los Negocios y la Economia Allen Webster; cap. Cap.11, 3 edicin, pag. 359

1.3

19

La Capacidad Explicativa de una Ecuacin de


Regresin Lineal o Bondad de Ajuste

Ahora veremos la capacidad de ese ajuste, esto va a


depender de la proporcin de la variabilidad que puede
explicarse por la dependencia lineal de Y sobre X.
Yi = 0 + 1xi
Los trminos del error ei son variables aleatorias con media
cero, es decir E(ei) =o
para i=1,----n

( y

) = 0

Como ya se mencion para los valores muestrales, la recta de


regresin estimada puede escribirse como:

y i = b 0 + b 1 x i
20

10

El valor ^yi es el valor predicho por la recta de regresin


ei es el residuo, diferencia entre el valor observado y el
predicho.
ei corresponde a la parte del comportamiento de la variable
dependiente que no puede ser explicada por su relacin lneal con
la variable independiente.
Podemos escribir:
yi =

^yi +

ei

Si sumamos y restamos la media de y tenemos:

( y

Y ) = ( y i Y ) + ( y

Desviacin observada
Respecto de la media
muestral

Desviacin Predicha
Respecto de la media
muestral

y i )
Residuo

21

Si se eleva al cuadrado la ecuacin anterior y se suma


respecto a i, se obtiene:
n

( yi Y )2 =

Variabilidad total
de la muestra

( y i Y )

( y i y i ) 2

Variabilidad Explicada + Variabilidad no


explicada

A mayor proporcin de variabilidad explicada , mayor capacidad


explicativa tiene la regresin.

22

11

Volvemos al ejemplo de la relacin entre la Esperanza de


Vida y el Ingreso
Ingreso PP en miles de US$ 2012
Valores observados y pronosticados

80,0

Desviacin
no
explicada

79,0

Esperanza de vida (aos)

78,0

y = 70 . 6 + 0 , 439 x

77,0
76,0
75,0

Desviacin
explicada

Media de y = 75.3 aos

74,0
73,0
72,0
4,0

6,0

8,0
10,0
12,0
Ingreso PP en miles de US$ 2012

)
D.Explicada = yi yi

14,0

16,0

Esperanza de vida (aos)


Pronstico Esperanza de vida
(aos)

)
D _ no _ exp licada = y i y i

23

En resmen

Si se ajusta una ecuacin de reg. Lneal,


y i = b 0 + b 1 x i + e i = y i + e i
estimando:

(i=1,2,.,n)

y i = b 0 + b 1 x

Donde b0 y b1 son las estimaciones y ei los residuos, y se definen


las siguientes expresiones
Suma de Cuadrados Total:

SCT

Suma de Cuadrados de la Regresin:

SCR

Suma de Cuadrados Residual (o del error) SCE

Donde SCT = SCR + SCE


n

( y

Y )

( y

Y )

e i2
24

12

Variabilidad total =
de la muestra

SCT

Variabilidad Explicada +

SCR

Suma de Cuadrados

Suma de Cuadrados
de la Regresin

Total

Variabilidad no
explicada

SCE

Suma de
Cuadrados Residual (o
del error)

Donde SCT = SCR + SCE

25

1.4 Coeficiente de Determinacin


n

SCT = ( yi Y ) 2
1
n
)
SCR = ( yi Y )

SCE = ei2
1

El coeficiente de Determinacin, R2 de la regresin ajustada es:

R2 =

SCR
SCE
= 1
SCT
SCT

Variacin Explicada
---------------------Variacin Total

Est es la proporcin de la variabilidad dependiente explicada por


su relacin lineal con la variable independiente.
26

13

Corresponde al coeficiente de correlacin lineal al cuadrado, donde:


0 <= R2 <= 1

A mayor R2 , mayor capacidad explicativa de la


regresin

En el ejemplo

Estadsticas de la regresin
Coeficiente de correlacin
mltiple
Coeficiente de determinacin
R^2

0,771
0,595

El resultado indica (R2=0,595) que el 59,5% de la variabilidad de


los aos de Esperanza de Vida est explicada por la dependencia
lineal del Ingreso per cpita.
27

Tabla de Anlisis de la Varianza


Resumen se utiliza para probar la hiptesis del modelo
Variacin

gl

SC

SCM

Fcalc

Regresin o
explicada

SCR

SCR/1

SCMR/
SCME

Residuo o no
explicada

n-2

SCE

SCE/(n-2)

Total

n-1

SCT
Fcalc se distribuye F(1- /2,(1,n-2))

Recordemos que
n

( y

Y )

Variabilidad total
de la muestra
SCT

( y

Y )

Variabilidad Explicada +
SCR

2
i

Variabilidad no
explicada
SCE
28

14

1.5 Prueba de hiptesis Coeficiente B


En el ejemplo

y : Evida = 70.6 + 0,439( x = ING)


b1 representa el cambio marginal que ocurre en y cuando x cambia en
una unidad, por lo tanto de la ecuacin se desprende que si se
incrementa en mil dlares el ingreso per cpita, la esperanza de vida
predicha, aumentar en 0,439 aos. .

H0 : 1 = 0
H1 : 1 0
H1 : El _ ingreso_ del_ pas_

incide

H0 : El _ ingreso_ del_ pas_ no_ incide_ en_ los_ aos_ de_ Esperanza_ de_ vida
_ en_ los_ aos_ de_ Esperanza_ de_ vida

Se debe realizar la prueba de Hiptesis


29

1.5 Prueba de hiptesis Coeficiente B

H0 : 1 = 0
H0 : El _ ingreso_ del_ pas_

n o

H1 : 1 0

_ incide_ en_ los_ aos_ de_ Esperanza_ de_ vida

H1 : El _ ingreso_ del_ pas_ incide_ en_ los_ aos_ de_ Esperanza_ de_ vida
Sig de B1, es menor que 0,05, por lo tanto se rechaza H0

30

15

1.5

Prediccin

Las ecuaciones de regresin sern tiles cuando se emplean para


predecir el valor de una variable, a partir de algn valor particular de
otra slo cuando existe correlacin lineal entre ellas.
Hay que tener presente que:
Una ecuacin de regresin que est basada en datos antiguos no
necesariamente es vlida hoy.
No se deben hacer predicciones acerca de una poblacin
distinta de la cual se obtuvieron los datos.

31

Prediccin
Supongamos que la variable independiente toma el valor Xk y que la
relacin entre las variables es lineal. El valor de la variable
dependiente ser:
y k = b 0 + b1 * x k
En el ejemplo de la esperanza de vida y el Ingreso,
S un pas tiene un INGPP de US$ 10.000 diarios Cul ser su
esperanza de vida estimada?
La ecuacin era:

y k = 70 . 6 + 0 . 439 x k
Si Xi=10 reemplazando

Ecuacin :
y i = 70 . 6 + 0 . 439 * 10 = 75

32

16

Ejemplo 2

En el archivo estaturas.sav, construir un modelo de


regresin lineal que explique la variable estatura del
hijo(y)
a. Utilice como variable independiente la estatura promedio
del padre y la madre.
b. Ahora la var. Independiente es estatura de la madre.
c. Seleccione solo a los hombre la var independiente: altura
del padre.
d. Seleccione solo a las mujeres, la var independiente: altura
del padre.
En cada uno de los casos grafique.
33

Ejemplo 3

En el archivo maraton.sav, estn los datos de la edad y el


tiempo en segundos de los corredores de la Maratn de N.Y..
Ajustar una recta de regresin que explique el tiempo en

funcin de la edad de los corredores.


Realizar los test de hiptesis para probar si el ajuste es

adecuado.
Interprete el coeficiente b1.
Estime cuanto se demorara en seg. Una persona de 50 aos.

34

17

Ejemplo 4
En el archivo empleados.sav, construir un modelo de regresin
lineal que explique la variable salario actual(y), como variable
independiente utilice la educacin (x).
Resumen del modelo
Modelo
1

R
,661a

R cuadrado
corregida
,435

R cuadrado
,436

Error tp. de la
estimacin
$12,833.540

a. Variables predictoras: (Constante), nivel educacional


ANOVA b
Modelo
1

Suma de
cuadrados
6,018E+10
7,774E+10
1,379E+11

Regresin
Residual
Total

gl
1
472
473

Media
cuadrtica
6,02E+10
1,65E+08

F
365,381

Sig.
,000a

a. Variables predictoras: (Constante), nivel educacional


b. Variable dependiente: Salario Actual

Coeficientes a

Modelo
1

(Constante)
nivel educacional

Coeficientes no
estandarizados
B
Error tp.
-18331,2
2821,912
3909,907
204,547

Coeficientes
estandarizad
os
Beta
,661

t
-6,496
19,115

Sig.
,000
,000

a. Variable dependiente: Salario Actual

35

Notas a Considerar
1. Si no existe correlacin lineal entre las variables , no
utilice la ecuacin de regresin.
2. Una ecuacin de regresin esta basada en datos
antiguos, no sirven necesariamente para los actuales.
3. No haga predicciones acerca de una poblacin distinta
de la poblacin donde se obtuvieron los datos
muestrales.

36

18

1.6

Anlisis de Residuos

Los residuos de un modelo estadstico son la diferencia entre los


valores observados y pronosticados o predichos (yi- i).
Informan sobre el grado de exactitud de los pronsticos, cuanto
ms pequeos, mayor es la precisin.
Estos pueden obtenerse en el SPSS a travs del comando
Regresin grabar y la opcin diagnsticos por casos, entrega
un listado de los residuos ms grandes.
El inters por los residuos reside en que pueden ser usadas para
probar la mayora de los supuestos del modelo.

37

1.6.1 Obtencin de los valores estimados y los


residuos con SPSS
Retomando el archivo salarios y satisfaccin en el
empleo

38

19

39

1.6.2 Casos Atpicos - Outliers


Los casos atpicos son observaciones con
caractersticas diferentes de los dems datos.
No pueden ser caracterizados como problemticos,
slo deben ser contemplados en el anlisis.
Su principal problema es que pueden constituir
elementos no representativos de la poblacin.
Tambin pueden mostrar una caracterstica de la
poblacin.

40

20

Casos Atpicos - Identificacin


Pueden identificarse a travs del anlisis
univariante, considerando que corresponden a casos
atpicos aquellos cuyos valores caigan fuera de la
distribucin.
Estos datos pueden ser observados, a travs del
histograma, grfico de cajas. Tambin pueden
calcularse nmericamente.

41

Ejemplo
Utilice la base de datos IDH 2012 Mundial,
construya un modelo de regresin,
Variable dependiente : la Esperanza de Vida
Variable independiente: Escolaridad.

42

21

Casos Atpicos - Identificacin


Se sugiere lo siguiente:
Si n < 30

los datos que estn fuera del intervalo


de la media ms menos 2,5 desviaciones
estndar

Si n > 30

los datos que estn fuera del intervalo


de la media ms menos 3 desviaciones
estndar

43

Observacin Atpica e Influyente


1. Es una observacin que tiene alto impacto sobre
los valores de prediccin a travs de los
parmetros estimados del modelo de regresin.
2. Se puede detectar a travs del anlisis de
residuos, revisando que valores se alejan de la
media en ms de 2,5 o 3 desviaciones estndar.
3. Una vez detectado se debe excluir del modelo y
analizar los cambios producidos en los
coeficientes y en R2.

44

22

Ejemplo : Se mide la satisfaccin en el trabajo a 8 sujetos. Los


datos representan los puntajes de satisfaccin(y) y el salario
diario en miles de pesos(x) de cada encuestado.
Encuentre el coeficiente de correlacin lneal.

x
y

31 33 22 24 35 29 23 37 Salario
17 20 13 15 18 17 12 21 Satisfaccin

45

Grfico
Puntajes de satisfaccin en el trabajo (x) y salario
diario(y)
40

Ttulo del eje

35

30
y=miles de $
25

Lineal (y=miles de $)

20

15
10

12

14

16
Ttulo del eje

18

20

22

Ahora calcularemos el coeficiente de correlacin: en excel: COEF.DE.CORREL

r=

0,94
46

23

Bibliografa utilizada:
Berenson, Mark L., Levine, David M. , coaut., Krehbiel, Timothy C. , coaut. Ed 2,
Mxico Pearson, Educacin, 2006 (cap. 12)
PARDO MERINO Antonio, RUIZ DIAZ Miguel A. (2002): SPSS 11. Gua para el
anlisis de datos. Editorial Mac Graw Hill. 1a edicin.
SANCHEZ CARRION Juan J. (1999): Manual de anlisis estadstico de los datos.
Editorial Alianza. 2a edicin. Cap.8
TRIOLA Mario (2004): Estadsticas. Editorial Pearson. 9a edicin.
Webster, A. Estadistica Aplicada a los Negocios y la Economia, Editorial Mac Graw
Hill 3 edicicin.
En la web:
http://www.cienciaytrabajo.cl/V2/index.html
AO 8, NMERO 22, OCTUBRE-DICIEMBRE 2006 | Pags. 185/189.
AO 10, NMERO 27, ENERO-MARZO 2008
http://www.ine.es/
Importancia de Darwin en el desarrollo de la estadstica moderna
Toni Monlen Getino; Estadstica espaola,, Vol. 52, N 175, 2010, pgs. 371-392.
47

UDP - Facultad de Ciencias Sociales e Historia


Escuela de Sociologa
Prof: Berta Teitelboim G.

Capitulo 1:
Correlacin bivariada y anlisis de
regresin simple
Agosto 2013
48

24

También podría gustarte