Está en la página 1de 11

PARTE 1: ELEMNTOS SOBRE REGRESIÓN Y APLICACIÓN DEL EXCEL Y EL MINITAB

DR. JOSE ROSARIO GONZALEZ MURILLO JUNIO DEL 2023

La regresión lineal más simple se asocia a muestras bivariables de n pares de datos asociados a un factor
X (predictor) y una “respuesta” o variable dependiente Y. El propósito de la regresión consiste en
analizar hasta donde los datos del factor X explican a la variación de la “respuesta” Y.
Normalmente las n observaciones (X, Y) no tienen una relación lineal perfecta del tipo
Yi = b0 + b1 X
En la anterior expresión los valores Yi se expresan como una relación lineal con respecto a los valores Xi.
La representación gráfica de tal relación es una línea recta como la que se muestra con color rojo en la
gráfica del ejemplo. Los coeficientes b de la relación son parámetros poblacionales que solo pueden ser
estimados, pero nunca conocidos con exactitud. La siguiente relación lineal incluye un término
estocástico o error aleatorio ui, que no puede conocerse con exactitud y solo puede estimarse.
Yi = b0 + b1 Xi + ui
La siguiente relación es la ecuación de una recta ajustada a las n observaciones. La ecuación permite
estimar el valor de la Y a partir del valor Xi del punto.
Yi = bo + b1 X1i
En la siguiente relación cada valor observado Yi puede expresarse a partir del valor estimado Yi y el
error estimado o residual ei
Yi = bo + b1 X1i + ei

Error estocástico y residual


90

80

70

60

50

40

30

20

10

0
0 5 10 15 20 25 30 35
OLS: Ordinary Least Squares

El mejor método para estimar los coeficientes b0 y b1 es el método ordinario


de mínimos cuadrados (OLS: Ordinary Least Squares).
La ecuación lineal para estimar un valor de Y correspondiente a un valor Xi
es la siguiente
Yi = b0 + b1 X i
La ecuación anterior no es perfecta pues para Xi hay un error ei con relación
al valor observado Yi, es decir
ei = Yi − Yi
¿Cuál es la mejor recta que se ajusta a los puntos de la nube de las n observaciones?
La recta cuyos coeficientes se estiman con el método ordinario de mínimos
cuadrados (OLS) es la mejor recta.
Debe buscarse una recta (sus coeficientes) tal que la suma del cuadrado de
los errores ei sea mínima. Es decir que
n n n
min  ei 2 = min  (Yi − Yi )2 = min  (Yi − b0 − b1 X i )2
1 1 1
Según la teoría básica del cálculo diferencial deben cumplirse las
condiciones siguientes:
n
 ei 2
1
=0
b0
n
 ei 2
1
=0
b1
Según lo anterior resulta el sistema simultáneo (1) y (2) de ecuaciones en b0 y b1
(0)...Yi = b0 + b1 X i
n n
(1)...Yi = nb0 + b1  X i
1 1
n n n 2
(2)...Yi Xi = b Xi + b1  Xi
1 1 1
Observe la relación entre las estructuras (0), (1) y (2).
De la solución de (1) y (2) resulta que b0 y b1 pueden estimarse
a partir de las n observaciones según las siguientes expresiones:
n n n
(n X iYi −  X i Yi )
b1 = 1 1 1
n n
(n X i2 − ( X i )2 )
1 1

La que puede escribirse en forma equivalente como


n

( X i − X )(Yi − Y ) / n
b1 = 1
, es decir, como
 ( X i − X )2 / n
n

( X i − X )(Yi − Y )
b1 = 1
n
, o bien como
( X1
i − X) 2

cov( X , Y )
b1 =
 X2
Lo anterior es equivalente a lo siguiente
n

( X i − X )(Yi − Y )
b1 = 1
n

( X1
i − X )2
Si las desviaciones de Xi y Yi con respecto a sus medias las representamos por xi y yi
respectivamente, entonces la expresión anterior podrá representarse de la siguiente forma
n

x y i i
b1 = 1
n

x
1
2
i

En la siguiente tabla elaborada en Excel se muestra un ejemplo de cálculo de estimación de los


coeficientes para una regresión lineal simple. La muestra es de una muestra bivariable de tamaño 10
para un factor X y una “respuesta” o variable dependiente Y. La tabla contiene distintas columnas cuyas
sumatorias permiten calcular las estimaciones de los coeficientes de la regresión según se ha descrito en
párrafos previos. La estimación del coeficiente b1 puede hacerse como se muestra a continuación:

9560

n n
n X i2 − ( X i )2 = 5760
1 1

n n n
(n X iYi −  X i Yi )
b1 = 1 1 1
n n = 1.6597
(n X − ( X i ) )
i
2 2

1 1

También podría estimarse dicho coeficiente de la siguiente manera:


n

( X
1
i − X )(Yi − Y ) = 956
n

( X
1
i − X )2 = 576
n

x y i i
1.6597
b1 = 1
n
=
x
1
2
i

i Xi Yi
1 6 40 240 36 -12 -17 204 144
2 10 44 440 100 -8 -13 104 64
3 12 46 552 144 -6 -11 66 36
4 14 48 672 196 -4 -9 36 16
5 16 52 832 256 -2 -5 10 4
6 18 58 1044 324 0 1 0 0
7 22 60 1320 484 4 3 12 16
8 24 68 1632 576 6 11 66 36
9 26 74 1924 676 8 17 136 64

10 32 80 2560 1024 14 23 322 196


10

180 570 11216 3816 0 0 956 576

Finalmente, otra manera de estimar dicho coeficiente de la regresión es como se describe a


continuación:
n
cov( X , Y ) =  ( X i − X )(Yi − Y ) / n = 95.6
1

n
 X 2 =  ( X i − X )2 / n = 57.6
1

y por lo tanto

1.6597
cov( X , Y )
b1 = =
 X2

La recta estimada mediante mínimos cuadrados ordinarios pasa por el


punto de los valores medios de X y Y, por lo tanto
Y = b0 + b1 X
Según lo anterior el valor b0 es equivalente a
b0 = Y − b1 X

Según lo anterior y considerando los cálculos previos se tiene que


b0 = Y − b1 X = 27.125
Según lo anterior el modelo de regresión lineal simple que nos permite estimar el valor de Y para un
valor Xi es el siguiente
Yi = 27.125 +1.65972222 Xi
A continuación, se muestra el modelo de regresión que permitiría estimar el valor futuro Yi
correspondiente a un valor Xi
Yi = 27.125 +1.65972222Xi + uI
Donde básicamente el valor futuro estimado es equivalente al valor estimado para Xi más el error
estocástico ui.

CÁLCULO DE LOS COEFICIENTES DE LA REGRESIÓN LINEAL SIMPLE UTILIZANDO EL MINITAB

A continuación, se muestra el gráfico de dispersión creado en Minitab para la muestra de datos utilizada
en cálculos previos

A continuación, se muestra el producto emitido por el Minitab para la muestra de datos analizada:
HOJA DE TRABAJO 1

Análisis de regresión: Yi vs. Xi

Ecuación de regresión
Yi = 27.13 + 1.660 Xi
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 27.13 1.98 13.70 0.000
Xi 1.660 0.101 16.38 0.000 1.00
Resumen del modelo
R-cuadrado
S R-cuadrado R-cuadrado(ajustado) (pred)
2.43171 97.10% 96.74% 95.39%
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 1586.69 1586.69 268.33 0.000
Xi 1 1586.69 1586.69 268.33 0.000
Error 8 47.31 5.91
Total 9 1634.00

La hoja de trabajo del Minitab muestra el modelo de regresión calculado, el valor de los coeficientes
estimados, el coeficiente de determinación también designado como R cuadrada, una tabla muy
importante llamada ANÁLISIS DE VARIANZA y el histograma de los residuales. A continuación, se
muestra la tabla de valores contenida en la hoja del Minitab. Pueden observarse los valores del
predictor Xi, la “respuesta” Yi, el valor estimado para Yi (ajuste), los residuales para cada punto, y los
valores de los coeficientes estimados.
Xi Yi AJUSTES RESID COEF
6 40 37.0833 2.91667 27.1250
10 44 43.7222 0.27778 1.6597
12 46 47.0417 -1.04167
14 48 50.3611 -2.36111
16 52 53.6806 -1.68056
18 58 57.0000 1.00000
22 60 63.6389 -3.63889
24 68 66.9583 1.04167
26 74 70.2778 3.72222
32 80 80.2361 -0.23611

PRUEBA DE BONDAD DE AJUSTE DE LA RECTA DE REGRESIÓN Y CORRELACIÓN.

¿Qué tan buena es una regresión para explicar o representar a una nube de observaciones o puntos?
Como puede verse en los ejemplos explicados la recta de la regresión no es perfecta pues no puede
representar en su totalidad a todos los valores “observados” en “Y”. Para una Xi específica la recta de la
regresión te permite calcular al valor Yi que no coincide con el correspondiente valor observado Yi, lo
que implica un error o residual ei. Como puede verse para una recta de regresión ya conocida tenemos
que para la observación i de la muestra se cumple lo siguiente:
Yi = Yi + ei = b0 + b1 Xi + ei

TSS: Variación Total en Y (con relación a su media): Las n observaciones bivariables muestran cierta
variación de los valores observados Yi con relación a su media. La variación total de los valores
observados de Y (con relación a su media) se calcula como la suma de las desviaciones cuadradas de Y
con relación a su media (TSS: total sum of squares: suma total de cuadrados: “variación total” en “Y”
(con relación a su media))
La “variación total de Y” o “suma total de cuadrados” está representada por la siguiente expresión
n
TSS =  (Yi − Y )2
1
TSS (Total Sum of Squares) representa a la “variación total de Y” con relación al valor medio de Y

RSS: Variación en Y explicada por los valores estimados con la recta de la regresión: La variación total de
los valores estimados de Y (con relación a su media) se calcula como la suma de las desviaciones
cuadradas de Y estimada con relación a su media (RSS: regression sum of squares: suma de cuadrados
de la regresión: “variación” en “Y” “explicada” por la regresión (con relación a la media de Y))

Entre más se acerquen los puntos de la nube a la recta de la regresión, menores son los residuales o
errores y por lo tanto la “variación” en “Y” explicada por la regresión, tiende a ser más aceptable, ya que
su valor se acerca a la variación de los datos observados en “Y”. En tal caso la recta de la regresión
representa de mejor manera a la nube de puntos u observaciones.

La “variación explicada de Y” por la regresión o “suma de cuadrados de la regresión” se calcula como


n
RSS =  (Yi − Y )2
1
ESS: Variación en “Y” no explicada por la regresión: Como se ha dicho, la recta de regresión no es
perfecta, pues no puede representar de manera exacta a todos los valores observados Yi. La “variación”
en los “Y” observados no “explicada” por la regresión, se calcula como la suma del cuadrado de los
errores o residuales ei (ESS: error sum of squares: suma del cuadrado de los errores: suma del cuadrado
de los residuales: “variación” “no explicada” por la regresión.)

RSS (Regression Sum of Squares) representa a la variación de Y explicada por la regresión estimada. Por
su parte la variación de Y no explicada por la regresión es aquella relacionada con los residuales “e” o
errores asociados a cada punto u observación. La suma de cuadrados de los errores (ESS: Error Sum of
Squares) se calcula según la expresión siguiente:
n n
ESS =  (Yi − Yi )2 =  ei2
1 1

La proporción de variación explicada por la regresión con respecto a la variación total de Y se llama
Coeficiente de Determinación (R2). El coeficiente de determinación se calcula de la siguiente manera
R2 = RSS/TSS, que también puede expresarse como:
R2 = (TSS-ESS)/TSS = 1 – ESS/TSS, donde ESS/TSS representa a la proporción de variación no explicada
por la regresión
Las siguientes son formas equivalentes de calcular al Coeficiente de Determinación R2.

n n

 (Yi − Y )2 y 2

R2 = 1
n
= 1
n

 (Y − Y )  y
1
i
2

1
2
i

donde las desviaciones con respecto a la media se representan con minúsculas.


Considerando que la proporción de la variación de Y explicada por la regresión es
equivalente al 1 menos la proporción de variación no explicada o variación asociada
a los residuales o errores, el coeficiente puede calcularse como:
n n

 (Yi − Yi )2 e 2
i
R2 = 1 − ESS / TSS = 1 − 1
n
= 1− 1
n

 (Y − Y )
1
i
2
y
1
2
i

El coeficiente de determinación R2 representa la proporción en que la variación total de la Y observada


para el rango de X, es explicada por la recta de regresión estimada, es decir por los valores estimados de
Y. El caso perfecto es cuando toda la nube de puntos u observaciones cae sobre la recta, en este caso la
R2 vale 1. La R2 vale cero para nubes de puntos u observaciones totalmente dispersas, en tal caso los
valores observados de Y no son explicados en ninguna proporción por los valores estimados de Y, es
decir por la recta de regresión estimada.
Puede demostrarse que R2 también puede calcularse según lo siguiente
n

cov2 ( X , Y ) x y i i
R =
2
= b1 1
 X2  Y2 n

y
1
2
i

De lo anterior (sacando raíz cuadrada a R2), puede verse que el coeficiente de correlación de Pearson (r),
puede calcularse como
r = R2
El coeficiente de correlación r puede calcularse según una expresión ya conocida:
cov( X , Y )
r= , y también de la siguiente forma
 X Y
n

x y i i
r = b1 1
n
donde las minúsculas representan desviaciones de X y Y con respecto a sus respectivas
y
1
2
i

medias

A continuación, se presentan los cálculos relacionados con el coeficiente de determinación (R cuadrada)


utilizando el Excel. La tabla corresponde con los datos de la muestra, los mismos valores y orden para el
predictor Xi y los correspondientes valores de la “respuesta”. En la primera columna se muestran los
valores estimados con el modelo de regresión calculado, la segunda columna contiene la variación de
cada dato Yi observado con relación a su media, la tercera columna muestra las desviaciones cuadradas
de Yi con respecto a la media de los valores Yi; la suma de tales desviaciones cuadradas corresponde con
la variación total de la “respuesta” o variable dependiente Y, en la tabla tal suma vale 1634. La cuarta y
quinta columna muestran las desviaciones simples y cuadradas del valor estimado de Y con respecto a la
media de los valores Y; la suma de tales desviaciones cuadradas corresponde con la variación explicada
por el modelo de regresión, en el ejemplo tal valor es 1586.69. La penúltima y última columna
corresponde con la variación no explicada por los valores estimados de Y, es decir, con los residuales y
residuales cuadrados respectivamente. La suma de los residuales cuadrados corresponde con la
variación de los datos Yi no explicada por los valores estimados de Y; en el ejemplo tal suma vale
47.3055
37.0833333 -17 289 -19.917 396.674 2.917 8.507
43.7222222 -13 169 -13.278 176.299 0.278 0.077
47.0416666 -11 121 -9.958 99.168 -1.042 1.085
50.3611111 -9 81 -6.639 44.075 -2.361 5.575
53.6805555 -5 25 -3.319 11.019 -1.681 2.824
57 1 1 0.000 0.000 1.000 1.000
63.6388888 3 9 6.639 44.075 -3.639 13.242
66.9583333 11 121 9.958 99.168 1.042 1.085
70.2777777 17 289 13.278 176.299 3.722 13.855

80.236111 23 529 23.236 539.917 -0.236 0.056

A continuación, se muestran los cálculos específicos de la R cuadrada.

Suma total de cuadrados o variación total de la variable Y


n
TSS =  (Yi − Y )2 = 1634
1

Suma de cuadrados explicados por la regresión o variación explicada por el modelo


n
RSS =  (Yi − Y )2 = 1586.69
1

Suma de cuadrados del error o variación de los datos Yi no explicada por la regresión
n n
ESS =  (Yi − Yi )2 =  ei2 = 47.3055
1 1

Cálculo del coeficiente de determinación o R cuadrada


n n

 (Yi − Y )2 y 2

R2 = RSS / TSS = 1
n
= 1
n
= 0.9710
 (Yi − Y )
1
2
y
1
2
i
La correlación r entre los valores Xi y Yi vale

r = R2 = 0.9854

Como puede verse en la hoja de trabajo del Minitab el valor de R cuadrada calculada vale 0.9710,
equivalente a 97.10%, lo que significa que e modelo de regresión explica el 97.10% de la variación total
de los datos Yi.

También podría gustarte