Está en la página 1de 28

CORRELACIN y REGRESIN

ESTADSTICA
ESTADSTICA

Ejemplo 1:
Se desea saber si el ingreso y el gasto de las familias
de cierto distrito estn relacionadas o no. Por lo que
se toma una muestra de 10 familias y se registra su
ingreso y gasto (en miles de soles). Los datos son:
Familia
Ingreso
Gasto

1
3,4
3

2
3
4
5
6
7
8
9 10
1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
1,6 5,87 4,6
2 3,67 1,25 4,5 4 2,7

Diagrama de dispersin: Grfica que presenta la

relacin entre dos variables de inters.

Grfico de dispersin
entre el ingreso y el gasto
7
6
5
4
Gasto (miles de soles)

3
2
1
0
1

Ingreso (miles de soles)

Coeficiente de correlacin lineal

(Pearson)

Mide el grado de relacin entre dos variables

xy nxy
x nx y
2

ny 2

r= 1
Correlacin positiva perfecta

SPXY xy nyx

Si 1 r 0.8
Si 0.8 r 0.2
Si 0.2 r 0
0 r 0.2
Si
Si
Si

SCX x 2 nx 2
SCY y 2 ny 2

SPXY
SCX SCY

r = -1
Correlacin negativa perfecta

1 r 1

0.2 r 0.8
0.8 r 1

Correlacin negativa intensa


Correlacin negativa normal
Correlacin negativa dbil
Correlacin positiva dbil
Correlacin positiva normal
Correlacin positiva intensa

SCX X nX 156.2166 10(3.662) 2 22.1142


2

SCY Y nY 129.7483 10(3.319) 2 19.5907


2

SPXY XY nX Y 142.0293 10(3.662)(3.319) 20.4875


SPXY
20.4875
r

0.9864
SCX SCY
22.1142 19.507

Regresin Lineal Simple


Tcnica estadstica que nos lleva a encontrar una
ecuacin que exprese la relacin funcional (lineal-recta)
entre dos variables cuantitativas, donde una de ellas es la
variable respuesta (dependiente Y) y la otra es la variable
predictora (independiente X) con el objetivo de realizar
prediccin.
El modelo poblacional el cual se pretende estimar es:

yi 0 1 xi ei

Regresin Lineal Simple


La recta se estima como:

SPXY
b1
;
SCX
b0 y b1 x
Interpretar b0

y b 0 b1 x
El coeficiente de regresin: es el cambio (aumento o
disminucin) en promedio en Y cuando X vara en una unidad.

Ejemplo 2: Usando los datos del ejemplo 1

b1

xy nxy

0.0736
x nx 0.9264
2

bo y b1 x 0.9264

-0.0736

y b0 b1 x 0.0736 0.9264 x
Interpretacin del coeficiente de regresin:
Si el ingreso de una familia aumenta en mil soles, en promedio el gasto aumentar en 926.4 soles, Qu significa
b ?
0

Error estndar de la estimacin


Se

2
y
b0 y b1 xy

n2

CME

Mide la variabilidad de los puntos alrededor de la lnea de regresin estimada.

129.7483 (0.0736)(36.19) (0.9264)(142.0293)


se
0.2774
10 2

Coeficiente de Determinacin

Mide el porcentaje de variacin de la variable Y


(dependiente)

explicado

por

independiente).

0 < R2 < 1

SC Re g
R
SCT
2

R (0.9864) 0.9730
2

(variable

Prueba de Significancia del Modelo o


Validacin del modelo

Es el modelo significativo?, El modelo es vlido?


X influye en Y?

1. Hiptesis:

H o : 1 0
H1 : 1 0

III. Decisin:

t tab t c t tab
t c t tab t tab t c

II. Estadstico de Prueba:

b1
tc
~ t n 2
Sb1

No Rechazar H : El modelo no es vlido.


o
No hay relacin lineal entre X e Y.
Rechazar H : El modelo es vlido.
o

Hay relacin lineal entre X e Y.

Sb1

Se
SCX

Prueba de validez del modelo


H 0 : 1 0(noexiste relacin entreY , X )
H a : 1 0( existe relacin entreY , X )

0.05
se
0.2774
Sb1

0.0590
SCX
22.1142
b1 0.9264
tc

15.7017
Sb1 0.0590
Se Re chaza H 0 , por lo tan to
existe relacin entreY , X
El mod eloes significativo.

Prueba de hiptesis para la pendiente


Hiptesis:

H 0 : 1 k

H 0 : 1 k

H 0 : 1 k

H1 : 1 k

H 1 : 1 k

H1 : 1 k

Estadstico de Prueba:

Decisin:

b1 k
tc
~ t n 2
S b1

t c t n 2,1

tc t n 2,1

se rechaza Ho

se rechaza Ho

t c t n 2 , / 2

t c t n 2,1 / 2
se rechaza Ho

Intervalo de confianza para la


Estimacin Media de Y dado X=x0
El propsito del intervalo de confianza para el valor medio de prediccin es ubicar entre qu valores se encuentra el valor
promedio poblacional de Y respecto a un valor dado de X, considerando un nivel de confianza o seguridad

IC( y/x0 ) (b 0 b1x 0 ) t 0Se

(x 0 x ) 2
1

2
2
n x nx

Intervalo de Prediccin para X=x

Ejemplo 2:
Para un 95% de confianza, estime el gasto promedio
para un ingreso de 1500 soles.

IC( y/x0 ) (b 0 b1x 0 ) t 0Se

(x 0 x ) 2
1

n x2 n x2

Para un 95% de confianza, estime el gasto para un


ingreso de 1500 soles.

Regresin Lineal Mltiple

El objetivo bsico del Anlisis de Regresin Lineal


Mltiple es el de construir un modelo que permita
predecir o estimar el valor de una variable Y, en base
a un conjunto de variables X1, X2,....,Xk

A la variable Y se le llama variable dependiente, y es


la que se quiere estimar o predecir.

Las variables X1, X2,....,Xk son las


independientes o variables predictoras.

variables

Modelo Estadstico
El modelo poblacional de regresin lineal mltiple,
con k variables independientes, es el siguiente:

Yi 0 1X1 2 X 2 ... k X k i
Donde:

i :

Son Parmetros desconocidos, llamados


coeficientes de regresin. (i =0,1,2,3,...,k)

1 : Son los errores del modelo, y se suponen

independientes y normalmente distribuidos


con media 0 y varianza 2

Modelo Estimado
A partir de una muestra aleatoria
de n
observaciones multivariadas (yi ,xi1, xi2 ,...,xik ),
podremos hallar el modelo de regresin estimado
que tendr la siguiente forma:

i b 0 b1X1 b 2 X 2 ... b k X k
Y

donde:
b i : Son los estimadores de los coeficientes de
regresin i , i = 0,1,2,3,...,k
Estos coeficientes son calculados a partir del
mtodo de los mnimos cuadrados.

Prueba global del modelo


Esta prueba permite determinar si el modelo es
significativo o no, para esto realizamos una prueba
de Anlisis de Varianza, y las hiptesis a plantear
son las siguientes:

H0: 1 = 2 = .... = k = 0
(El modelo no es significativo)
H1: Al menos un i es diferente de cero
(El modelo si es significativo)

Para decidir sobre estas hiptesis se construye la


siguiente tabla de anlisis de varianza (Tabla ANOVA)
Fuente de
Variacin

Suma de
Cuadrados
(SC)

Grados
de Libertad
(GL)

Cuadrado
Medio
(CM)

Valor
F

Debido a la
Regresin

SCReg

CMReg

FC

Debido al
Error

SCE

n-k-1

CME

Total

SCT

n-1

Regla de decisin
Rechace Ho al nivel de significancia si Fc > F(, k,n-k-1)

De otro modo no rechace Ho

Ejemplo:

Un investigador esta estudiando la posibilidad de explicar la


presin arterial media de un paciente a partir de la medicin
de otras variables que el considera que influyen sobre la
presin arterial media. Para ello el decide construir un
modelo de regresin lineal relacionando las variables que se
mencionan a continuacin. La siguiente base de datos
corresponde a una muestra aleatoria de 20 pacientes con
hipertensin.
Y : Presin arterial media (mm/Hg)
X1 : Edad (aos)

X4 : Duracin de la hipertensin (aos)

X2 : Peso (Kg)

X5 : Pulso basal (latidos/min)

X3 : Area de la superficie del cuerpo (m2) X6 : Nivel de tensin nerviosa

Pacient
es
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

X1

X2

X3

X4

X5

X6

105
115
116
117
112
121
121
110
110
114
114
115
114
106
125
114
106
113
110
122

47
49
49
50
51
48
49
47
49
48
47
49
50
45
52
46
46
46
48
56

85.4
94.2
95.3
94.7
89.4
99.5
99.8
90.9
89.2
92.7
94.4
94.1
91.6
87.1
101.3
94.5
87.0
94.5
90.5
95.7

1.75
2.10
1.98
2.01
1.89
2.25
2.25
1.90
1.83
2.07
2.07
1.98
2.05
1.92
2.19
1.98
1.87
1.90
1.88
2.09

5.1
3.8
8.2
5.8
7.0
9.3
2.5
6.2
7.1
5.6
5.3
5.6
10.2
5.6
10.0
7.4
3.6
4.3
9.0
7.0

63
70
72
73
72
71
69
66
69
64
74
71
68
67
76
69
62
70
71
75

33
14
10
99
95
10
42
8
62
35
90
21
47
80
98
95
18
12
99
99

H0: 1 = 2 = .... = 6 = 0

(El modelo no es significativo)

H : Al menos un 0 (El modelo si es significativo)


1
i
Con un nivel de significacin = 0.05
Estadstico de Prueba:
ANOVA (Utilizando el MINITAB)

Source
DF
SS
MS
F
P
Regression 6 557.844 92.974 560.64 0.000
Residual
13
2.156
0.166

Total
19
560

Regla de decisin:
Como Fc = 560.64 > F(, k,n-k-1)= F(0.05, 6,13) =2.92
Entonces se rechaza H , es decir el modelo es significativo.
0
Modelo Estimado:
Y = - 12.9 + 0.703 X + 0.970 X + 3.78 X + 0.0684 X - 0.0845 X + 0.00557 X
1
2
3
4
5
6

Pruebas Individuales
Estas pruebas permiten determinar si cada una de
las variables Xi (i=1,2,...,k), son significativas para el
modelo, las hiptesis a probar son:

H0: i = 0 (La variable Xi no es significativa)


H1: i 0 (La variable Xi si es significativa)
Donde i = 1,2, ..., k, es decir se aplica esta prueba a
cada una de la k variables independientes Xi .
T: Estadstico de prueba para una distribucin t con
n-k-1 grados de libertad.

H0: i = 0 (La variable Xi no es significativa)


H1: i 0 (La variable Xi si es significativa)
Con un nivel de significacin = 0.05
Estadstico de Prueba: Utilizando el MINITAB

Predict
or
Coef
Constant -12.87
X1
0.70326
X2
0.96992
X3
3.776
X4
0.06838
X5
-0.08448
X6
0.005572

SE Coef
T
2.557
-5.03
0.04961 14.18
0.06311 15.37
1.58
2.39
0.04844
1.41
0.05161 -1.64
0.003412 1.63

P
0.000
0.000
0.000
0.033
0.182
0.126
0.126

Regla de decisin:
Si |Tc|> T(1-/2, n-k-1)= T(1-0.05/2, 13) = T(0.975, 13) = 2.160
Entonces se rechaza H , es decir la variable es significativa.
0
De los resultados obtenidos se aprecia que las variables significativas para el modelo son X , X y X
1 2
3

Multicolinealidad
En el anlisis de regresin mltiple se espera que las variables independientes no estn correlacionadas
entre si.
Una forma de detectar este problema es a travs del Factor de Inflacin de Varianza (VIF).

1
VIF
1 R 2j
Donde, R2 es el coeficiente de determinacin, donde la variable independiente seleccionada sirve como una
j
variable dependiente, y las variables independientes restantes, como variables independientes.

Si

VIF > 10, indica la presencia de multicolinealidad y que la variable independiente se deber

eliminar del anlisis.

Predicto
r

Coef

Constant -12.87

SE Coef
2.557

-5.03 0.000

VIF

X1

0.70326 0.04961 14.18 0.000 1.763

X2

0.96992 0.06311 15.37 0.000 8.417

X3

3.776

1.58

2.39

0.033 5.329

1.41

0.182 1.237

X4

0.06838 0.04844

X5

-0.08448 0.05161 -1.64 0.126 4.414

X6

0.00557 0.00341
2
2

1.63

Ningn VIF es mayor que 10, por lo que no se tiene presencia de multicolinealidad.

0.126 1.835

También podría gustarte