Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ReGresion Lineal
ReGresion Lineal
MAPA CONCEPTUAL
________________________
Definicin
Con frmula
Ejemplo con la
definicin
Definicin
Correlacin
lineal
Deteccin grfica
Regresin lineal
(recta de mnimos
cuadrados)
Representacin
grfica
Supuestos del
modelo de
regresin
Por la
definicin
Inferencia en el
modelo de
regresin
Coeficiente de
Determinacin
Con frmula
Definicin
Por la
definicin
Con frmula
Clculo con
Minitab
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
INTRODUCCIN
___________________
OBJETIVOS
________________________
CONOCIMIENTOS PREVIOS
___________________________________
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CONCEPTOS FUNDAMENTALES___________________________________
Definicin de Correlacin Lineal
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos
variables aleatorias. As, por ejemplo, podemos preguntarnos si hay alguna relacin entre las
notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al
problema consistira en dibujar en el plano R2 un punto por cada alumno: la primera coordenada
de cada punto sera su nota en estadstica, mientras que la segunda sera su nota en
matemticas. As, obtendramos una nube de puntos la cual podra indicarnos visualmente la
existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo dado
y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si consideramos
un periodo de tiempo de 10 aos, una posible representacin sera situar un punto por cada ao
de forma que la primera coordenada de cada punto sera la cantidad en euros invertidos en
publicidad, mientras que la segunda sera la cantidad en euros obtenidos de su facturacin. De
esta manera, obtendramos una nube de puntos que nos indicara el tipo de relacin existente
entre ambas variables.
En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El
parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson r,
cuyo valor oscila entre 1 y +1 :
n
Cov( X , Y )
1 r =
=
s X sY
(X
t =1
(X
t =1
X ) (Yt Y )
X) *
2
(Y
t =1
Y )
VARIABLES NO CORRELACIONADAS ( r = 0 )
X
CORRELACIN NO LINEAL ( r = 0 )
+1
2
2
1
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
- 1.00
Ninguna
correlacin
- 0.50
0.50
Correlacin
postiva
perfecta
1.00
5
4
3
2
1
1
y y =
Cov( X , Y )
sx
(x x)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Vt = 1 + 2 GPt + u t
Supongamos que disponemos de los siguientes datos:
Ao
1998
200
30
1999
400
50
2000
800
50
2001
1.200
60
2002
900
60
A partir de este modelo matemtico lineal, vamos a analizar la relacin entre ambas variables,
la variable ventas (Vt ) que es la variable dependiente del modelo y la variable que vamos a
analizar y los gastos en publicidad (GPt ) que es la variable independiente o la variable
explicativa que vamos a utilizar para estudiar las ventas.
En este modelo queremos comprobar qu influencia tienen los gastos de publicidad sobre el
volumen de facturacin o las ventas de la empresa.
Para poder cuantificar dicha relacin, debemos tambin representar la recta de regresin que
subyace en el modelo matemtico que relaciona ambas variables.
Para cuantificar la relacin entre ambas variables y tener un aproximacin de la magnitud de
la influencia de los gastos en publicidad sobre las ventas de la empresa debemos estimar el
modelo por mnimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los
cuadrados de los residuos.
La recta en rojo (que aparece a continuacin en el grfico), es la que mejor se ajusta a la
nube de puntos que tenemos. Dicho de otra forma, es la recta que hace que el error de
estimacin, definido como la distancia entre el valor observado y el valor estimado de la
variable endgena (en el grfico, es la distancia vertical sealada por la flecha en rojo), sea la
mnima para cada una de las observaciones (recta de mnimos cuadrados), esta recta ser la
que utilizaremos para predecir o estimar los valores de Y que obtendremos para distintos
valores de X.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
u
t =1
2
t
Min u t2
Criterio MCO:
t =1
Cov( X , Y )
Y Y =
(X X ) =
2
sx
(X
t =1
(X
t =1
2002
2 =
(GP G P )(V
t =1998
2002
(GP G P )
t =1998
V )
=
2
X ) (Yt Y )
t
X)
(X X )
17.000
= 28,3 , sta sera la estimacin de la pendiente
600
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Regression Plot
Y = -716,667 + 28,3333X
R-Sq = 75,3 %
1200
1000
VENTAS
800
error de
estimacin (ut)
600
400
200
0
30
40
50
60
Publicidad
Del diagrama anterior, cabe observar que no todos los puntos estn en la lnea de regresin.
Si todos lo estuvieran y, adems, si el nmero de observaciones fuera suficientemente
grande, no habra ningn error de estimacin. En ese caso, no habra ninguna diferencia entre
el valor observado y el valor de prediccin.
Como imaginamos, en los casos reales, las predicciones perfectas son prcticamente
imposibles y lo que necesitamos es una medida que describa cmo de precisa es la
prediccin de Y en funcin de X o, inversamente, qu inexacta puede ser la estimacin.
A esta medida se le llama error estndar de estimacin y se denota Syx. El error estndar
de estimacin, es el mismo concepto que la desviacin estndar, aunque sta mide la
dispersin alrededor de la media y el error estndar mide la dispersin alrededor de la lnea
de regresin.
Cov( X , Y )
r=
=
s X sY
(GP G P ) (V
t
t =1998
2002
(GP G P )
t =1998
V )
= 0,868
2002
(V
t =1998
V )2
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
N (0, 2 ) .
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
R2 = r 2
Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.
Tambin se le denomina bondad del ajuste.
En nuestro ejemplo, el coeficiente de determinacin nos da bajo, el 75,3%, por lo que slo
conseguimos explicar el 75,3 % de las variaciones de las ventas a travs del ajuste por medio
de los gastos en publicidad.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
10
S
cero tambin lo ser la estimacin de la pendiente, 2 puesto que: 2 = r Y
SX
(1)
donde
H 0 : = 0
H 1 : 0
H 0 : 2 = 0
H 1 : 2 0
(2)
2
t= 2
t n 2,
2
S
),
S =
donde
1 Y 2 XY
(
X)
(n 2) X
n
donde t(n-2,/2) es el valor asociado a una t-Student con n-2 grados de libertad que deja a su
derecha un rea de /2 (o, equivalentemente, deje a su izquierda un rea de 1 - /2).
OJO!: si en vez de realizar el contraste bilateral ( 2 ) deseamos hacer un contraste unilateral
(en el cual la hiptesis alternativa sera H1 : 2 > 0 H1 : 2 < 0 ), deberemos sustituir en la
frmula anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).
Finalmente, tambin podemos obtener el intervalo de confianza para 1 a nivel de confianza
(1-) utilizando la expresin:
2 t n 2, 2 * s
)
2 2 28,3 0
t=
=
= 3,02
S
9,38
2
Si calculamos el p-valor de t = 3,02 con tres grados de libertad, vamos a la tabla t-student y
debemos calcular el rea que hay por encima de t = 3,02 y el rea por debajo de t= -3,02, si
miramos en la tabla , el valor de t ms cercano es t = 3,1824 que le corresponde un rea de
0,025, por lo que a t>=3,02 le corresponder un rea menor, por lo que el p-valor ser algo
menor del 0,05=2*0,025.
Por lo que, si el nivel de significacin es del 5%, como el p-valor es menor que 0,05,
rechazaremos la hiptesis nula a un nivel de significacin del 5%,. Esto indica que existen
evidencias estadsticas de que la variable gastos en publicidad es una variable relevante o
que influye sobre las ventas.
Es interesante notar que todo lo que hemos realizado sobre el coeficiente 2 es tambin
aplicable al coeficiente 1.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
11
14,2226
13,9336
15,5040
16,3105
17,4936
19,8906
21,4803
20,4046
21,4776
22,6821
20,9722
23,3538
26,1040
29,1101
27,2418
23,0096
27,6116
32,1111
36,1788
37,5671
33,5069
36,6088
31,1554
32,7752
41,1886
39,9715
39,6866
40,2991
40,9538
41,9323
39,8393
95,065
97,281
103,159
107,607
113,860
121,153
129,102
132,340
138,663
142,856
143,120
147,928
155,955
164,946
163,921
163,426
172,485
180,519
190,509
196,497
196,024
200,832
196,769
205,341
220,230
228,703
236,500
244,560
254,771
263,683
268,304
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
12
Correlations (Pearson)
Correlation of Publicidad y ventas = 0.973, P-Value = 0.000
El valor obtenido para el coeficiente de correlacin es de 0,973, lo cual hace suponer que, en
principio, la correlacin entre ambas variables es muy alta por lo que se puede prever que en
la regresin obtendremos un buen ajuste.
b) Representar la nube de puntos (grfico x-y) ventas vs. publicidad, junto con la recta de
regresin asociada. Piensas que el modelo obtenido sirve para explicar las ventas
obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha
gastado en publicidad?
Seleccionamos Stat > Regression > Fitted Line Plot :
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
13
Regression Plot
Y = 21,1667 + 5,33582X
R-Sq = 93,7 %
Ventas
250
200
150
100
20
30
40
Publicidad
Regression
The regression equation is
y = 21,2 + 5,34 x
Predictor
Constant
x
S = 12,94
Coef
21,167
5,3358
StDev
7,687
0,2568
R-Sq = 93,7%
T
2,75
20,78
P
0,010
0,000
R-Sq(adj) = 93,5%
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el 94%
del comportamiento de las ventas a travs de la evolucin, por lo que es un buen ajuste y
por tanto, los residuos son mnimos.
c)
En el output anterior podemos ver que el p-valor asociado al contraste de hiptesis anterior
es casi cero. Como este valor es menor que = 0,05, debemos rechazar la hiptesis nula,
i.e., concluiremos que la pendiente de la recta es distinta de cero o, lo que es lo mismo, que
el coeficiente de correlacin poblacional es no nulo (es decir, que ambas variables estn
correlacionadas y que, por tanto, el modelo tiene sentido).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
14
11
14
16
15
16
18
20
31
14
20
19
11
Rend.
10
10
a)
Correlations (Pearson)
Correlation of Rend. and Inv. = 0.618, P-Value = 0.032
Como el coeficiente de correlacin lineal es 0.618 no podemos deducir que exista una
relacin fuerte ni dbil, tendramos que realizar un contraste de hiptesis para saberlo con
claridad.
Calculemos ahora la recta de regresin. Para ello, seleccionaremos Stat > Regression >
Fitted Line Plot:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
15
Coef
-1.682
0.4522
StDev
3.015
0.1819
R-Sq = 38.2%
T
-0.56
2.49
P
0.589
0.032
R-Sq(adj) = 32.0%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
10
11
SS
26.230
42.437
68.667
MS
26.230
4.244
F
6.18
P
0.032
b)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
16
64
80
36
84
84
78
76
73
61
84
68
59
54
52
84
75
65
95
59
90
47
70
52
87
61
77
60
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
17
N
30
Variable
C1
Minimum
36.00
Mean
70.53
Maximum
95.00
Median
71.50
TrMean
70.88
Q1
59.75
Q3
84.00
StDev
14.82
SE Mean
2.71
Por tanto, como vemos en este resultado, los valores correspondientes a la media,
mediana, mximo, mnimo y cuartiles coinciden con los comentados a partir del
diagrama de cajas.
b) Adems, se quiere tambin estudiar cul es la relacin entre la cantidad gastada
semanalmente en comida (en euros) y el nmero de miembros de una familia.
Para ello, cogemos una muestra de 10 familias del barrio obteniendo los
siguientes resultados:
Miembros
familia
Cantidad
gastada
99
104
151
129
142
74
91
119
91
142
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
18
Correlations (Pearson)
Correlation of miembros f and cantidad g = 0.589, P-Value = 0.073
Como vemos, el coeficiente de correlacin es de 0.589, lo cual indica que existe cierta correlacin
entre el nmero de miembros de una familia y la cantidad gastada semanalmente.
Para representar la recta de regresin, utilizamos la opcin Stat > Regresin > Fitted Line Plot :
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
19
Coef
60.36
11.276
StDev
25.47
5.467
R-Sq = 34.7%
T
2.37
2.06
P
0.045
0.073
R-Sq(adj) = 26.6%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
8
9
SS
1843.6
3467.3
5310.9
MS
1843.6
433.4
F
4.25
P
0.073
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
20
BIBLIOGRAFA
____________________________
[1]
D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa.
Ed. Irwin McGraw-Hill.F.
[2]
[3]
[4]
Richard I. Levin & David S. Rubin (1996): Estadstica para Administradores. Ed. Prentice
Hall.
[5]
ENLACES
___________________________________
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
21