Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La regresión lineal más simple se asocia a muestras bivariables de n pares de datos asociados a un factor
X (predictor) y una “respuesta” o variable dependiente Y. El propósito de la regresión consiste en
analizar hasta donde los datos del factor X explican a la variación de la “respuesta” Y.
Normalmente las n observaciones (X, Y) no tienen una relación lineal perfecta del tipo
Yi = b0 + b1 X
En la anterior expresión los valores Yi se expresan como una relación lineal con respecto a los valores Xi.
La representación gráfica de tal relación es una línea recta como la que se muestra con color rojo en la
gráfica del ejemplo. Los coeficientes b de la relación son parámetros poblacionales que solo pueden ser
estimados, pero nunca conocidos con exactitud. La siguiente relación lineal incluye un término
estocástico o error aleatorio ui, que no puede conocerse con exactitud y solo puede estimarse.
Yi = b0 + b1 Xi + ui
La siguiente relación es la ecuación de una recta ajustada a las n observaciones. La ecuación permite
estimar el valor de la Y a partir del valor Xi del punto.
Yi = bo + b1 X1i
En la siguiente relación cada valor observado Yi puede expresarse a partir del valor estimado Yi y el
error estimado o residual ei
Yi = bo + b1 X1i + ei
80
70
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35
OLS: Ordinary Least Squares
( X i − X )(Yi − Y ) / n
b1 = 1
, es decir, como
( X i − X )2 / n
n
( X i − X )(Yi − Y )
b1 = 1
n
, o bien como
( X1
i − X) 2
cov( X , Y )
b1 =
X2
Lo anterior es equivalente a lo siguiente
n
( X i − X )(Yi − Y )
b1 = 1
n
( X1
i − X )2
Si las desviaciones de Xi y Yi con respecto a sus medias las representamos por xi y yi
respectivamente, entonces la expresión anterior podrá representarse de la siguiente forma
n
x y i i
b1 = 1
n
x
1
2
i
9560
n n
n X i2 − ( X i )2 = 5760
1 1
n n n
(n X iYi − X i Yi )
b1 = 1 1 1
n n = 1.6597
(n X − ( X i ) )
i
2 2
1 1
( X
1
i − X )(Yi − Y ) = 956
n
( X
1
i − X )2 = 576
n
x y i i
1.6597
b1 = 1
n
=
x
1
2
i
i Xi Yi
1 6 40 240 36 -12 -17 204 144
2 10 44 440 100 -8 -13 104 64
3 12 46 552 144 -6 -11 66 36
4 14 48 672 196 -4 -9 36 16
5 16 52 832 256 -2 -5 10 4
6 18 58 1044 324 0 1 0 0
7 22 60 1320 484 4 3 12 16
8 24 68 1632 576 6 11 66 36
9 26 74 1924 676 8 17 136 64
n
X 2 = ( X i − X )2 / n = 57.6
1
y por lo tanto
1.6597
cov( X , Y )
b1 = =
X2
A continuación, se muestra el gráfico de dispersión creado en Minitab para la muestra de datos utilizada
en cálculos previos
A continuación, se muestra el producto emitido por el Minitab para la muestra de datos analizada:
HOJA DE TRABAJO 1
Ecuación de regresión
Yi = 27.13 + 1.660 Xi
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 27.13 1.98 13.70 0.000
Xi 1.660 0.101 16.38 0.000 1.00
Resumen del modelo
R-cuadrado
S R-cuadrado R-cuadrado(ajustado) (pred)
2.43171 97.10% 96.74% 95.39%
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 1586.69 1586.69 268.33 0.000
Xi 1 1586.69 1586.69 268.33 0.000
Error 8 47.31 5.91
Total 9 1634.00
La hoja de trabajo del Minitab muestra el modelo de regresión calculado, el valor de los coeficientes
estimados, el coeficiente de determinación también designado como R cuadrada, una tabla muy
importante llamada ANÁLISIS DE VARIANZA y el histograma de los residuales. A continuación, se
muestra la tabla de valores contenida en la hoja del Minitab. Pueden observarse los valores del
predictor Xi, la “respuesta” Yi, el valor estimado para Yi (ajuste), los residuales para cada punto, y los
valores de los coeficientes estimados.
Xi Yi AJUSTES RESID COEF
6 40 37.0833 2.91667 27.1250
10 44 43.7222 0.27778 1.6597
12 46 47.0417 -1.04167
14 48 50.3611 -2.36111
16 52 53.6806 -1.68056
18 58 57.0000 1.00000
22 60 63.6389 -3.63889
24 68 66.9583 1.04167
26 74 70.2778 3.72222
32 80 80.2361 -0.23611
¿Qué tan buena es una regresión para explicar o representar a una nube de observaciones o puntos?
Como puede verse en los ejemplos explicados la recta de la regresión no es perfecta pues no puede
representar en su totalidad a todos los valores “observados” en “Y”. Para una Xi específica la recta de la
regresión te permite calcular al valor Yi que no coincide con el correspondiente valor observado Yi, lo
que implica un error o residual ei. Como puede verse para una recta de regresión ya conocida tenemos
que para la observación i de la muestra se cumple lo siguiente:
Yi = Yi + ei = b0 + b1 Xi + ei
TSS: Variación Total en Y (con relación a su media): Las n observaciones bivariables muestran cierta
variación de los valores observados Yi con relación a su media. La variación total de los valores
observados de Y (con relación a su media) se calcula como la suma de las desviaciones cuadradas de Y
con relación a su media (TSS: total sum of squares: suma total de cuadrados: “variación total” en “Y”
(con relación a su media))
La “variación total de Y” o “suma total de cuadrados” está representada por la siguiente expresión
n
TSS = (Yi − Y )2
1
TSS (Total Sum of Squares) representa a la “variación total de Y” con relación al valor medio de Y
RSS: Variación en Y explicada por los valores estimados con la recta de la regresión: La variación total de
los valores estimados de Y (con relación a su media) se calcula como la suma de las desviaciones
cuadradas de Y estimada con relación a su media (RSS: regression sum of squares: suma de cuadrados
de la regresión: “variación” en “Y” “explicada” por la regresión (con relación a la media de Y))
Entre más se acerquen los puntos de la nube a la recta de la regresión, menores son los residuales o
errores y por lo tanto la “variación” en “Y” explicada por la regresión, tiende a ser más aceptable, ya que
su valor se acerca a la variación de los datos observados en “Y”. En tal caso la recta de la regresión
representa de mejor manera a la nube de puntos u observaciones.
RSS (Regression Sum of Squares) representa a la variación de Y explicada por la regresión estimada. Por
su parte la variación de Y no explicada por la regresión es aquella relacionada con los residuales “e” o
errores asociados a cada punto u observación. La suma de cuadrados de los errores (ESS: Error Sum of
Squares) se calcula según la expresión siguiente:
n n
ESS = (Yi − Yi )2 = ei2
1 1
La proporción de variación explicada por la regresión con respecto a la variación total de Y se llama
Coeficiente de Determinación (R2). El coeficiente de determinación se calcula de la siguiente manera
R2 = RSS/TSS, que también puede expresarse como:
R2 = (TSS-ESS)/TSS = 1 – ESS/TSS, donde ESS/TSS representa a la proporción de variación no explicada
por la regresión
Las siguientes son formas equivalentes de calcular al Coeficiente de Determinación R2.
n n
(Yi − Y )2 y 2
R2 = 1
n
= 1
n
(Y − Y ) y
1
i
2
1
2
i
(Yi − Yi )2 e 2
i
R2 = 1 − ESS / TSS = 1 − 1
n
= 1− 1
n
(Y − Y )
1
i
2
y
1
2
i
cov2 ( X , Y ) x y i i
R =
2
= b1 1
X2 Y2 n
y
1
2
i
De lo anterior (sacando raíz cuadrada a R2), puede verse que el coeficiente de correlación de Pearson (r),
puede calcularse como
r = R2
El coeficiente de correlación r puede calcularse según una expresión ya conocida:
cov( X , Y )
r= , y también de la siguiente forma
X Y
n
x y i i
r = b1 1
n
donde las minúsculas representan desviaciones de X y Y con respecto a sus respectivas
y
1
2
i
medias
Suma de cuadrados del error o variación de los datos Yi no explicada por la regresión
n n
ESS = (Yi − Yi )2 = ei2 = 47.3055
1 1
(Yi − Y )2 y 2
R2 = RSS / TSS = 1
n
= 1
n
= 0.9710
(Yi − Y )
1
2
y
1
2
i
La correlación r entre los valores Xi y Yi vale
r = R2 = 0.9854
Como puede verse en la hoja de trabajo del Minitab el valor de R cuadrada calculada vale 0.9710,
equivalente a 97.10%, lo que significa que e modelo de regresión explica el 97.10% de la variación total
de los datos Yi.