Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La metodología de la regresión lineal simple tiene como objetivo ajustar una línea recta
(una ecuación de una recta) a un conjunto de puntos en el plano. EL conjunto de puntos en
el plano es la gráfica de dispersión de los datos de una muestra aleatoria.
Suponer que un investigador sospecha de que hay una relación lineal entre dos variables (X,
Y) donde el valor de Y depende o es función del valor de X, es decir y = f(x). A la variable X
se le llama variable independiente o variable predictora y a la variable Y se le llama variable
dependiente o variable de respuesta. Suponer que se toma una muestra aleatoria (de tamaño
n) de pares ( x1 , y1 ) , ( x 2 , y 2 ) , ( x3 , y 3 ) ,..., ( x n , y n ) y al construir su diagrama de
dispersión se desea obtener la ecuación de la recta que mejor se ajusta a los puntos, como se
muestra en la figura (4.5).
• •
• •
• • •
• •
•
•
La diferencia principal entre un análisis de correlación y una regresión lineal simple es que
en el análisis de correlación se tiene que ambas variables (X, Y) son variables aleatorias y al
tomar la muestra el investigador no tiene control sobre los valores que observará de X ni de
Y. Por otra parte, en la regresión lineal se tiene que Y si es una variable aleatoria mientras
que X puede o no puede ser una variable aleatoria, es decir, puede darse el caso en que los
valores de X son controlados por el investigador (ésto es típico en un diseño de
experimentos) mientras que los valores de Y definitivamente no son controlados por el
investigador.
Entonces, para un valor fijo de X se supone que Y es una variable aleatoria con distribución
normal con media µ y|x y varianza σ 2 (la varianza es constante para todo valor de x).
Luego se supone que hay una relación lineal entre las variables (X, Y) cuya ecuación es
desconocida y relaciona µ y|x con x, esta ecuación se denota como
µ y|x = β 0 + β1 x (4.13)
Para un valor particular y observado en cierto valor x se tiene que su ecuación queda;
y = β 0 + β1 x + ε (4.14)
Como los valores de β 0 y β1 son desconocidos, se deben estimar a partir de los valores de
la muestra ( x , y ). El estimador de β que denotaremos por βˆ es:
1 i 1 1
S XY
βˆ1 = (4.15)
S XX
(∑ xi )(∑ yi )
S XY = ∑ xi yi − (4.16)
n
(∑ xi )2
S XX = ∑ ( xi ) −2
(4.17)
n
βˆ 0 = Y − βˆ1 X (4.18)
también se recomienda calcular S YY que será necesario para hacer inferencia estadística y
se define como;
(∑ yi )2
S YY = ∑ ( yi ) −2
(4.19)
n
aplicando (4.17);
(301.20) 2
S XX = 3024.447 − = 0.399
30
aplicando (4.19);
(308.83) 2
SYY = 3179.671 − = 0.472
30
10.6
10.5
10.4
venta
10.3
10.2
10.1
10.0
compra
La calidad del ajuste se evalúa mediante el coeficiente de determinación que se denota por
R 2 que toma valores entre cero y uno [0 ≤ R 2 ≤ 1], o entre cero y 100 si se expresa como
porcentaje. Solo para el caso de una regresión lineal simple se tiene que R 2 = r 2 . Mientras
el valor de R 2 más se aproxima a 1 ( o a 100) más evidencia hay de un buen ajuste, y
mientras el valor de R 2 más se aproxima al cero más evidencia hay de un mal ajuste. Por
buen ajuste se entiende que la recta pasa muy cerca de todos los puntos. En este caso se
tiene que (ver material de lectura de la semana 14) para los datos del ejemplo 4.15, r =
0.984, entonces R 2 = (0.984)2 = 0.968 lo cual es indicador de un buen ajuste como se
puede ver en la figura 4.6.
SYY − βˆ1S XY
σˆ 2 = (4.20)
n−2
Ejemplo 4.16. Considerando los datos del ejemplo 4.15, la varianza del error queda
estimada como [aplicando la fórmula (4.20)];
0.472 − (1.07)(0.4268)
σˆ 2 = = 0.00055
30 − 2
Ejemplo 4.17. Se aplica una prueba de hipótesis a βˆ1 para los datos del ejemplo 4.15 con α
= 0.05. Del ejemplo 4.15 y 4.17 tenemos que n = 30, βˆ = 1.062, S1 = 0.402 y σˆ 2 =
XX
1.07
estadístico de prueba es: t = = 28.84 , el valor crítico es t 0.025, 28 = 2.048 . Como |t|
0.0371
> t 0.025,28 se rechaza H0, es decir que hay evidencia estadística de que el valor de β1 es
diferente de cero.
La prueba de hipótesis para β1 también se puede hacer mediante una anova (donde F = t2 )
que generan los paquetes estadísticos como la que se presenta en la tabla 4.14, del ejemplo
4.17 se tiene que t = 28.84 y en la tabla 4.14 se tiene que F = t2 = 28.842 = 831.75 (las
diferencias en los decimales es por redondeo). Además, la estimación de la varianza del
error es la media de cuadrados del error de esta tabla de anova.
Analysis of Variance
Source DF SS MS F P
Regression 1 0.45695 0.45695 831.53 0.000
Residual Error 28 0.01539 0.00055
Total 29 0.47234
Tabla 4.14. tabla de anova para la prueba de hipótesis de β1
Ejemplo 4.18. Considerando nuevamente los datos del ejemplo 4.15, se tiene que el
intervalo de confianza para β1 con un nivel de confianza del 95% es (ver ejemplo 14.17);
0.994 < β1 < 1.146, es decir que el valor de β1 está entre 0.994 y 1.146 con una confianza
del 95%.
(
Otra inferencia estadística de una regresión lineal es estimar la media de Y µ y|x0 para un )
valor de x en particular que denotaremos como x0 . Los límites del intervalo de confianza
de µ y|x0 con un nivel de confianza 1−α está dado por;
1
µˆ y|x ± tα / 2, n−2 σˆ 2 +
(x0 − X ) (4.22)
n S XX
0
donde,
µˆ y|x = βˆ 0 + βˆ1 x0
0
(4.23)
además a
2 1
σˆ + 0
(
x −X )2 se le llama el error estándar de µˆ
y| x0 .
n S XX
Ejemplo 4.19. Haciendo referencia a los datos del ejemplo 4.15, se estimará mediante un
intervalo de confianza la media del precio de venta cuando el precio de compra sea 10.25
con un nivel de confianza del 95%.
=
) 0 . 00055
1 (10.25 − 10.04) 2
+ = 0.0089, luego aplicando la
n S XX
30 0 . 399
fórmula (4.22) el intervalo de confianza queda;
obteniendo, 10.501 < µ y|x =10.25 < 10.537, es decir que el valor de la media del precio de
compra cuando el precio de venta es 10.25 esta entre 10.50 y 10.54 con un nivel de
confianza del 95%. La figura 4.7 muestra una “banda” a los lados de la recta ajustada a los
datos del ejemplo 4.15 que corresponde a los intervalos de confianza de µ y|x con un nivel
de confianza del 95%.
10.6
10.5
10.4
venta
10.3
10.2
10.1 Regression
95% CI
10.0
compra
Figura 4.7. Intervalos de confianza del 95% para los datos del ejemplo 4.15.
µˆ y|x ± tα / 2, n−2 σˆ 2 1 +
(
1 x0 − X
+
) (4.24)
0
n S XX
además a 2
1 x −X
σˆ 1 + + 0
( )2 se le llama el error estándar de y | x
0.
n S XX
Ejemplo 4.20. Haciendo referencia a los datos del ejemplo 4.15, se estimará mediante un
intervalo de predicción un valor individual del precio de venta cuando el precio de compra
sea 10.25 con un nivel de confianza del 95%.
Del ejemplo 4.19 tenemos que: n = 30, x0 = 10.25, β̂ 0 = −0.449, βˆ1 = 1.07, S XX = 0.399,
X = 10.04, σˆ 2 = 0.00055, t 0.025,28 = 2.048, µˆ y|x =10.25 = 10.519. Además, el error
estándar de y | x = 10.25 es,
1 x −X
2
σˆ 1 + + 0
( )2 =
0.000551 +
1 (10.25 − 10.04) 2
+ = 0.025
n S XX 30 0.399
obteniendo, 10.47 < y | x = 10.25 < 10.57, es decir que el valor del precio de compra
cuando el precio de venta es 10.25 esta entre 10.47 y 10.57 con un nivel de confianza del
95%. La figura 4.8 muestra unas “bandas” a los lados de la recta ajustada a los datos del
ejemplo 4.15. La banda más amplia corresponde a los intervalos de predicción y la banda
más estrecha corresponde a los intervalos de confianza del 95%.
10.6
10.5
10.4
venta
10.3
10.2
Regression
10.1
95% CI
10.0 95% PI
compra
Figura 4.8. Intervalos de predicción y de confianza para los datos del ejemplo 4.15.
Los modelos de regresión lineal simple se aplican usualmente para estimar la media de y
para un valor dado. Es importante mencionar que se recomienda solo hacer inferencia
estadística sobre valores de X ubicados en el rango de los valores de la muestra aleatoria (a
esto se la llama hacer interpolación). No es recomendable hacer inferencia sobre valores de
X ubicados más allá del rango de los valores de la muestra (hacer extrapolación).
o equivalentemente:
1) Los valores del error ε tienen una distribución normal con media cero.
2) Los valores del error ε tienen una varianza constante.
Los valores de ε se estiman mediante los residuales (denotado por e). El residual del par de
valores ( xi , yi ) se define como;
Se espera que los residuales se comporten con las características ideales de los errores
aleatorios ε . La tabla 4.15 muestra los residuales de los datos del ejemplo 4.15.
Por ejemplo, de la tabla 4.15 consideremos el dato x = 9.86, y = 10.13. tenemos que µ̂ y|x =
-0.449 + 1.07(9.86) = 10.101, y su residual es, e = 1013 – 10.101 = 0.029, y así
similarmente se va obteniendo el resto de la tabla. Para evaluar el ajuste de los residuales a
una distribución normal con media cero, se construye un “Q-Q polt” de la distribución
normal que para los valores de la tabla 4.15 se muestra en la figura 4.9.
Normal Probability Plot for e
99 ML Estimates
Mean: 0.0005
95
StDev: 0.0227109
90
80
70
Percent
60
50
40
30
20
10
5
Data
De la figura 4.9 se aprecia que los residuales se ajustan bien a una distribución normal con
media cero. Excepto el residual –0.08 que se puede considerar como un valor atípico. Para
evaluar el supuesto de varianza constante de los residuales, se recomienda una gráfica de
dispersión de los residuales vs µ̂ y|x o valores ajustados. La figura 4.10 muestra esta gráfica
para los valores de la tabla 4.15.
0.04
0.02
0.00
-0.02
e
-0.04
-0.06
-0.08
0.00
Residual
0.00 X=5.00E-04
-0.02
-0.04
-0.05
-0.06 -3.0SL=-0.06526
1
-0.08 -0.10
-2 -1 0 1 2 0 10 20 30
Normal Score Observation Number
0.00
Residual
-0.02
5
-0.04
-0.06
0 -0.08
-0.07 -0.05 -0.03 -0.01 0.01 0.03 10.1 10.2 10.3 10.4 10.5 10.6
Residual Fit
La figura 4.11 es una análisis de residuales de los datos de la tabla 4.15 generado pro el
paquete estadístico Minitab.