P. 1
AnÁlisis de RegresiÓn y de CorrelaciÓn

AnÁlisis de RegresiÓn y de CorrelaciÓn

4.67

|Views: 12.118|Likes:
Publicado porapi-3697274

More info:

Published by: api-3697274 on Oct 15, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

03/18/2014

pdf

text

original

ANÁLISIS DE REGRESIÓN Y DE CORRELACIÓN

INTRODUCCIÓN
En la aplicación de los métodos estadísticos estudiados en los capítulos anteriores, se ha tratado con una
única variable de interés. A estas variables se le examinaron varias medidas que describen su comporta-
miento y se aplicaron diversas técnicas de inferencia estadística, como intervalos de confianza y pruebas
de hipótesis, para hacer estimaciones y sacar conclusiones acerca de ellas. En esta unidad se tratará con
problemas que abarcan dos variables cuantitativas para establecer y medir las relaciones existentes entre
ellas.
Análisis de Regresión
El análisis de regresión es un método estadístico que permite explicar el comportamiento de una variable
Y, llamada variable dependiente (explicada, de respuesta) a partir del comportamiento de otra u otras va-
riables X
i
, llamadas variables independientes (o explicativas, regresoras), estableciendo la expresión
funcional del modelo matemático que describa dicho comportamiento.
Análisis de Regresión Simple
Se llama modelo estadístico de regresión simple al modelo que tiene sólo una variable explicativa:
Yi = f(Xi) + ei
donde: Y: variable explicada
X: variable explicativa
f(Xi): función de regresión
ei: error aleatorio
Supuestos Básicos de la Regresión
La aplicación del análisis inferencial al modelo estadístico de regresión requiere de los siguientes supues-
tos sobre la variable aleatoria ei
1) La variable aleatoria residual ei, para cada valor Xi, cumple:
ei ∼ N(0,σ
2
)
1
Es decir: (a) ei tiene la distribución normal, (b) su valor esperado es cero, E(ei) = 0 y (c) la va-
rianza de ei, es la misma para cada valor de X, o sea, la varianza se mantiene constante V(ei) = σ
2
.
2) Las variables aleatorias ei y ej, para dos valores de X cualesquiera, son independientes, o sea, la
covarianza entre ellas es cero Cov(ei, ej) = 0.
Análisis de Regresión Lineal Simple
El análisis de regresión lineal simple se realiza cuando la función de regresión es una función afín, o sea,
una recta
Yi = β
0
+ β
1
Xi + ei
donde:
Yi: Variable dependiente
Xi: Variable independiente
f(Xi) = β
0
+ β
1
Xi: Recta de regresión
β
0
: Ordenada al origen
β
1
: Pendiente de la recta
ei : error aleatorio

Estimadores de los parámetros β
0
y β
1

Denotando al estimador de la ordenada al origen y de la pendiente, respectivamente:
0
β
ˆ
= b
0
y
1
β
ˆ
= b
1
se tiene el modelo estimado de regresión lineal simple:
i
Y = b
0
+ b
1
Xi + ei
donde
i
Y
ˆ
= b
0
+ b
1
Xi : Recta de regresión estimada
y
ei = [ i
Y
- ( b
0
+ b
1
Xi )] = ( i
Y
-
i
Y
ˆ
) : Residuo muestral.
Para construir los estimadores de la regresión, o sea, b
0
y b
1
, se utiliza un método estadístico llamado
MÉTODO DE MÍNIMOS CUADRADOS.
2
Este método consiste en calcular los valores b
0
y b
1
de modo tal que minimice la suma del cuadrado de
los residuos, SC
RES
SC
RES
=

·
n
i
i
1
2
e
o la expresión equivalente
SC
RES
=
2
1
1
0
) (
i
n
i
i
X b b Y − −

·

Hallando las derivadas parciales de SC
RES
con respecto a b
0
y b
1
respectivamente, e igualándolas a cero,
se obtiene el siguiente sistema de ecuaciones llamado SISTEMA DE ECUACIONES NORMALES.
¹
¹
¹
'
¹
· + ⋅
· +
∑ ∑ ∑
∑ ∑

⋅ ⋅
i i
2
i i
i i
n
Y X X b X b
Y X b b
1 0
1 0

Resolviendo este sistema se obtienen los estimadores correspondientes
Estimador de β
0

( )
2
2
0
∑ ∑
∑ ∑ ∑ ∑
− ⋅
⋅ − ⋅
·
i
2
i
i i i i i
n X X
X Y X X Y
b
Estimador de β
1

( ) ( )
( )

n
n

i i
i i

i i

2
2
1
∑ ∑
∑ ∑ ∑
− ⋅
⋅ ⋅
·

X X
Y X Y X
b
Expresiones equivalentes para b
1
son:
( ) ( )
( )

n

n



i
i
i i

i i

2
2
1


∑ ∑



·

X
X
Y X
Y X
b

n
n

i
i i



2 2

1
X X
Y X Y X
b
⋅ −
⋅ ⋅
·



De la primera ecuación del SISTEMA DE ECUACIONES NORMALES se puede despejar b
0
X b Y b
1 0
− ·
3
Coeficiente de Determinación
El Coeficiente de Determinación (R
2
) es un coeficiente que mide la proporción de la variación total ex-
plicada por la regresión, y se calcula haciendo el cociente entre la SUMA DE CUADRADO EXPLICADA y la
SUMA DE CUADRADO TOTAL
R
2





·
2
2
) (
) (
Y Y
Y Y
i
i
ˆ
o
R
2





·
2
2 2
1
) (
) (
Y Y
X b X
i
i
Se cumple que 0 ≤R
2
≤1. En la medida que se acerca a 1 mejor es el ajuste de la recta a los datos, y vice-
versa, en la medida que se acerca a 0 peor es el ajuste de la recta a los datos.
Distribución de los estimadores
Como se ha estudiado anteriormente, para poder inferir sobre los parámetros de la función de regresión
hay que determinar la distribución de los estimadores.
Se puede demostrar que tanto b
0
como b
1
son combinaciones lineales de la variable residual e, por lo tan-
to, dado que se supone que los residuos tienen distribución normal, entonces, los estimadores tienen dis-
tribución normal.
b
0
∼ Normal
b
1
∼ Normal
La esperanza matemática y la varianza de cada uno de ellas son:
E(b
0
) = β
0
y V(b
0
) = σ

,
`

.
|

+ ⋅

2
X X
X
n
i
2
2
e
) (
1
E(b
1
) = β
1
y V(b
1
) =


σ
2
2
) ( X X
i
e
luego
) (
0
0 0
b
b
V
β −
∼ N(0,1)
) (
1
1 1
b
b
V
β −
∼ N(0,1)
Intervalos de Confianza
4
INTERVALO DE CONFIANZA PARA β
0
(Con un nivel de confianza de 1-α)
La varianza estimada de b
0
es
V
ˆ
(b
0
) = S

,
`

.
|

+ ⋅

2
2
2
) (
1
X X
X
e
i
n
donde
2
2
2
) (


·

n
i i
Y Y
S
e
ˆ
el intervalo es, entonces
b
0
t
) 2 (
2
1


n t
α

) (
0
b V
ˆ
INTERVALO DE CONFIANZA PARA β
1
(Con un nivel de confianza de 1-α)
La varianza estimada de la pendiente muestral b
1
es:
V
ˆ
(b
1
) =


2
2
) ( X X
S
e
i
el intervalo es, entonces
b
1
t
) 2 (
2
1


n t
α

) (
1
b V
ˆ
INTERVALO DE CONFIANZA PARA UN VALOR INDIVIDUAL DE LA RECTA DE REGRESIÓN
POBLACIONAL (Con un nivel de confianza de 1-α)
Dada la recta de regresión
i
Y
ˆ
= b
0
+ b
1
Xi
se puede estimar puntualmente el valor de la recta para un valor dado x
0
de la variable explicativa
Y
ˆ
0
= b
0
+ b
1
x0
La varianza estimada para un valor individual de la recta de regresión muestral es
V
ˆ
(
Y
ˆ
0
) = S

,
`

.
|


+ + ⋅

2
i
2
0 2
n
1
) (
) ( 1
X X
X x
e
el intervalo es, entonces
Y
ˆ
0
t
) 2 (
2
1


n t
α
⋅ )
0
ˆ
( V
ˆ
Y
Prueba de Hipótesis para los parámetros de la recta de regresión
5
Al igual que para los intervalos de confianza, la varianza poblacional σ
2
e
es desconocida en todos los ca-
sos, luego, hay que utilizar su estimador S
2
e
, por lo tanto, las varianzas que se utilizan en los respectivos
estadígrafos son varianzas estimadas, y la distribución de cada uno de los estadígrafos de prueba es la dis-
tribución t de Student con n-2 grados de libertad.
PRUEBA DE HIPÓTESIS PARA β
0

H
o
: β
0
=

β
0

H
1
: β
0


β
0

Se rechaza H
o
si ) 2 (
V
ˆ
|
'
0
|
2
1
0
0
− >


n t
b
b
α
β
) (
PRUEBA DE HIPÓTESIS PARA β
1

H
o
: β
1
=

β
1

H
1
: β
1


β
1

Se rechaza H
o
si ) 2 (
V
ˆ
|
'
1
|
2
1
1
1
− >


n t
b
b
α
β
) (
Ejemplo
El responsable de costos de una empresa de construcción desea estimar el costo total de la construcción
de las casas unifamiliares suponiendo que el costo de la construcción tiene una fuerte relación con el ta-
maño del lote. Se toma una muestra aleatoria de 12 casas construidas el año pasado, y la información re-
copilada se presenta en el siguiente cuadro:
Costo de construcción y tamaño del lote para una muestra
aleatoria de 12 casas unifamiliares
Observación
Tamaño del lote
(en decenas de m
2
)
Costo de construcción
(en miles de dólares)
1 5 31,6
2 7 32,4
3 10 41,7
4 10 50,2
5 12 46,2
6 20 58,5
7 22 59,3
8 15 48,4
9 30 63,7
10 40 85,3
11 12 53,4
6
12 15 54,5
Se pide:
a) Indique cuál es la variable explicativa y cuál es la variable explicada.
b) Construya un diagrama de dispersión.
c) Estime e interprete, en los términos de este problema, la ordenada al origen y la pendiente de la recta
de regresión poblacional.
d) Calcule e interprete el coeficiente de determinación.
e) Estime, con una confianza del 95% el costo de construcción para un lote de 150 metros cuadrados.
f) Estime, con una confianza del 99% el costo fijo.
g) Pruebe, con un nivel de significación del 1% si el costo medio variable es superior a $US 1000.
SOLUCION
a) La variable explicativa X es el tamaño del lote (en decenas de metros cuadrados), porque esta variable
es la que se utiliza para estimar el costo de la construcción. La variable explicada Y es, entonces, el costo
de construcción (en miles de dólares) porque ella es la variable que se quiere estimar. El comportamiento
del costo de la construcción está explicado por el comportamiento del tamaño del lote.
b) Con los datos de la muestra que se presentan en el cuadro anterior, se puede el siguiente Diagrama de
Dispersión.
7
c) Se supone que la relación entre las variables es lineal, por lo tanto hay que estimar los parámetros de la
RECTA DE REGRESIÓN utilizando las correspondientes fórmulas

n
n

i
i i



2 2

1
X X
Y X Y X
b
⋅ −
⋅ ⋅
·



; X b Y b
1 0
− · donde, obviamente,
n
i

·
X
X
;
n
i

·
Y
Y
Para obtener las estimaciones de los parámetros se construye la siguiente tabla de cálculo
Cálculos para el problema del Costo de Construcción
Observación
Tamaño del lote
(en decenas de
metros cuadrados)
Xi
Costo de construcción
(en miles de dólares)
Yi XiYi Xi
2
Yi
2
1 5 31,6 158,0 25 998,56
2 7 32,4 226,8 49 1049,76
3 10 41,7 417,0 100 1738,89
4 10 50,2 502,0 100 2520,04
5 12 46,2 554,4 144 2134,44
6 20 58,5 1170,0 400 3422,25
7 22 59,3 1304,6 484 3516,49
8 15 48,4 726,0 225 2342,56
9 30 63,7 1911,0 900 4057,69
10 40 85,3 3412,0 1600 7276,09
11 12 53,4 640,8 144 2851,56
12 15 54,5 817,5 225 2970,25
Totales 198 625,2 11840,1 4396 34878,58
Aplicando las fórmulas correspondientes se pueden calcular los valores b
0
y b
1
:
5 16
12
198
, · · X ; 1 52
12
2 625
,
,
· · Y
35 1
1129
3 1524
5 16 12 4396
1 52 5 16 12 1 11840
2
1
,
,
,
, , ,
· ·
⋅ −
⋅ ⋅ −
· b
b
0
= 52,1 – 1,35 ⋅ 16,5 = 29,825
8
DIAGRAMA DE DISPERSIÓN
Tamaño del Lote y Costo de Construcción
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20 25 30 35 40 45
Tamaño del Lote
Por tanto, la recta de regresión estimada es:
i
Y
ˆ
= 29,825 + 1,35 Xi
La ordenada al origen b
0
representa el valor de Y cuando X es igual a cero. En este problema, la ordenada
al origen es el costo fijo, o sea, el costo que no varía con el tamaño del lote.
La pendiente b
1
representa la variación de Y, cuando X varía en una unidad. En este problema la pendien-
te representa el costo medio variable del costo de construcción. La parte del costo que varía por unidad
de tamaño del lote.
d) Para calcular el coeficiente de determinación R
2
hay que calcular las sumas de cuadrados explicada y
la suma de cuadrado total
SCEXP.= b
2
1
∑( Xi - X )
2
SCTOTAL= ∑(

Yi - Y )
2
Entonces se tiene:
∑ ( Xi - X )
2
= ∑ X
2
i
- n⋅
2
X = 4396 – 12 ⋅ 16,5
2
= 1129
luego
SCEXP.= 1,35
2
⋅ 1129 = 2057,6025
SCTOTAL= ∑(

Yi - Y )
2
= ∑ Y
2
i
- n⋅
2
Y = 34878,58 – 12 ⋅ 52,1
2
= 2305,66
R
2
=
8924 0
66 2305
6025 2057
,
,
, .
· ·
TOTAL
EXP
SC
SC

Expresado en porcentaje, el 89,24% de la variación del costo de construcción está explicada por la varia-
ción del tamaño del lote.
e) El costo de construcción para un lote de 150 m
2
se puede estimar puntualmente utilizando la recta de
regresión
i
Y
ˆ
sustituyendo X = 15 en la ecuación.
Y
ˆ
= 29,825 + 1,35 ⋅ 15 = 50,075
Dado que Y representa miles de dólares, el costo promedio estimado es US$ 50,075 para casas a cons-
truirse sobre un lote de 150 m
2
.
Para construir el intervalo de confianza es necesario calcular la varianza residual muestral. Utilizando la
fórmula siguiente:
9
∑(

Yi-
i
Y
ˆ
)
2
= ∑(

Yi - Y )
2
- b
2
1
∑( Xi - X )
2
= 2305,66 - 2057,6025 = 248,0575
entonces:

80575 24
10
0575 248
2
2
2
) (
,
,
ˆ
· ·


·

n
i i
Y Y
S
e
La varianza estimada de la estimación de un valor puntual de la recta
V
ˆ
(
Y
ˆ
) = S

,
`

.
|


+ + ⋅

2
2
0 2
) (
) ( 1
1
X X
X x
e
i
n
para X = 15 es
V
ˆ
[
Y
ˆ
] = 24,80575 ⋅

,
`

.
|

+ +
1129
) 5 16
12
1
1
2
15 ( ,
= 26,92
El valor del percentil (1 - α/2) = 0,975 de la distribución t de Student con (n-2) = 10 grados de libertad
es
) 2 (
2
1


n t
α
= 2,228
Luego, el intervalo
Y
ˆ
t
) 2 (
2
1


n t
α

)
ˆ
( V
ˆ
Y
es
50,075 t 2,228 ⋅ 92 26,
Li = 50,075 – 11,5603 = 38,5147
Ls = 50,075 + 11,5603 = 61,635
El costo de construcción para un lote de 150 metros cuadrados estaría entre 38,5147 y 61,6353 miles de
dólares con una confianza del 95%
f) El costo fijo, como ya fue explicado en el punto c), es la ordenada al origen
La varianza estimada de la ordenada al origen
V
ˆ
(b
0
) = S

,
`

.
|

+ ⋅

2
2
2
) (
1
X X
X
e
i
n
es
V
ˆ
(b
0
) = 24,80575 ⋅

,
`

.
|
+
1129
5 16
12
1
2
,
= 8,0489
10
El valor del percentil (1 - α/2) = 0,995 de la distribución t de Student con (n-2) = 10 grados de libertad
es
) 2 (
2
1


n t
α
= 3,169
Luego el intervalo
b
0
t
) 2 (
2
1


n t
α

) (
0
b V
ˆ
es
29,825 t 3,169 ⋅ 0489 8,
Li = 29,825 – 8,99 = 20,835
Ls = 29,825 + 8,99 = 38,815
El costo fijo estaría entre 20,835 y 38,815 miles de dólares con una confianza del 99 %.
g) El costo medio variable, como ya fue explicado en el punto c), es la pendiente.
Hay que probar si β
1
es superior a 1 (mil), por lo tanto, la hipótesis nula y la hipótesis alternativa son
H
0
: β
1
≤ 1
H
1
: β
1
> 1
Se rechazará H
0
si ) 2 (
V
ˆ
'
1
1
1
1
− >


n t
b
b
α
β
) (
El punto crítico es el percentil (1 - α) = 0,99 de la distribución t de Student con (n-2) = 10 grados de li-
bertad t = 2,764
si
) (
1
1
V
ˆ
'
1
b
b β −
> 2,764 se rechaza H
0
La varianza estimada de la pendiente muestral
V
ˆ
(b
1
) =


2
2
) ( X X
S
e
i
es
V
ˆ
(b
1
) = 02197 0
1129
80575 24
,
,
·
El valor del estadígrafo de prueba es
36 2
02197 0
1 35 1
,
,
,
·

11
como 2,36 < 2,764 no se rechaza H
0
Con un nivel de significación del 1%, no se puede considerar que el costo medio variable sea superior a
$US 1000.
Análisis de Correlación
El análisis de correlación es un método estadístico que permite medir el grado de asociación entre las
variables.
Análisis de Correlación Lineal Simple
El análisis de correlación lineal simple se lleva a cabo cuando la función de regresión que
explica el comportamiento conjunto de las variables es una recta.
Coeficiente de Correlación Lineal Poblacional
La intensidad de la relación lineal entre las variables se mide en la población con el parámetro coeficien-
te de correlación lineal (ρ). Este coeficiente surge del cociente entre la covarianza de las variables y el
producto de las desviaciones estándares de cada una de ellas
ρ =
Y X
XY
σ ⋅ σ
σ
Se puede demostrar que el coeficiente de correlación lineal (ρ), cumple con:
-1 ≤ ρ ≤ 1
En los casos que:
ρ = -1 : Existe una perfecta relación lineal inversa entre las variables X e Y. Todos los puntos pertenecen a
una recta de pendiente negativa.
ρ = 1 : Existe una perfecta relación lineal directa entre las variables X e Y. Todos los puntos pertenecen a
una recta de pendiente positiva
ρ = 0 : No existe relación lineal entre las variables X e Y. Ya sea porque, o las variables no están asocia-
das, o porque la relación entre ellas no es lineal.
Cuando ρ se acerca a –1 ó 1 el grado de relación lineal aumenta y cuando ρ se acerca a 0 el grado de rela-
ción lineal disminuye.

12
Coeficiente de Correlación Lineal Muestral.
El coeficiente de correlación lineal muestral (r), es el estimador del coeficiente de correlación lineal
poblacional (ρ) y se calcula como:
r=
∑ ∑





2 2
) ( ) (
) )( (
Y Y
Y Y
X X
X X
i i
i i
=
[ ][ ]
∑ ∑ ∑ ∑
∑ ∑ ∑
− −

2
i
2
i
2
i
2
i
i i i
Y ( Y n X ( X n
Y X Y X n
i
) )
Prueba de Hipótesis para ρ (coeficiente de correlación lineal)
H0: ρ = 0
H1: ρ ≠ 0
Si
2 n
r 1
2
r

− >
) 2 n (
2
1
t −
α

se rechaza H
0
13

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->