Está en la página 1de 18

ANALIZAR E INCREMENTAR

Elementos relevantes de la regresión lineal


simple (RLS)
Elementos relevantes de la regresión lineal simple (RLS)

La regresión lineal simple (RLS) es un


procedimiento estadístico muy útil y muy
empleado para modelar una variable de
respuesta en función de una variable
independiente. Tiene varios usos uno de los
cuales es determinar si existe relación entre la
variable de respuesta y el correspondiente
factor experimental o variable independiente x.

Diagrama de dispersión

El diagrama de dispersión es una gráfica simple de puntos entre dos variables (y, x).
Sirve para evaluar el tipo y el grado de relación entre dichas variables. En cuanto al tipo
de relación, en general existen dos. La gráfica de la izquierda muestra el tipo de
relación directa o positiva en la cual, si la variable x crece, también lo hará la variable y.
En la gráfica de la derecha se presenta un tipo de relación inversa o negativa en la cual,
si la variable x crece, la variable y disminuye. También puede existir un tipo de relación
no lineal entre x y y.
.

..
. ..
.

.
..
..
..

Directa (+) Inversa (−)

En cuanto al grado de relación se refiere, existe un número infinito de éstos. A


continuación, se muestran tres de ellos:

1
.. . ... . .. .
.... .. . ... .... ...
. . .. ..........
. ..
Fuerte Débil Nulo

Se tiene un grado de relación fuerte cuando el grupo o nube de puntos está bien
alineada y no existe mucha variación o dispersión. A medida que esta asociación
empieza a hacerse más difusa o dispersa, el grado de relación empieza a disminuir
hasta ser nulo cuando la nube de puntos no apunta a ninguna dirección

Revisemos el siguiente ejemplo:

Se tiene la siguiente información entre el tiempo de solidificación y la resultante


dureza de piezas de aluminio fundido

t-Solid Dureza
10 4.5
11 4.2
12 3.8
13 3.6
14 3.4
15 3.0
16 2.9
17 2.4
18 2.2
19 2.1
20 1.8

En este caso, el factor o variable experimental es el tiempo de solidificación el cual se


varía para ver el efecto que tiene en la variable de respuesta dureza.

2
Diagrama de dispersión

4
Dureza

10 11 12 13 14 15 16 17 18 19 20
t-Solid

Aquí, se observa que a medida que el tiempo de solidificación aumenta, la dureza


disminuirá, de tal forma que el tipo de relación es inversa o negativa y su grado de
relación es fuerte. Más adelante se presentará el coeficiente de correlación para
determinar en forma numérica tanto el tipo como el grado de relación lineal entre dos
variables.

Es muy importante darse cuenta de que, aunque


el grado de relación es fuerte, no necesariamente
implica una relación de causa-efecto (causal)
entre las variables. Esto se sabrá con base en el
conocimiento del proceso.

Análisis de regresión lineal simple (RLS)

Técnica usada para relacionar a través de un modelo, una variable independiente (x),
con una variable dependiente (respuesta, y).

3
Usos de un modelo de regresión

Los usos de un modelo de regresión son los siguientes:

Modelo de regresión de un factor (regresión lineal simple)

El modelo de regresión de un factor, haciendo referencia al factor x, también es


llamado modelo de regresión lineal simple. Dicho modelo es el siguiente:

y = b0 + b1x + e
donde,

y= variable dependiente a modelar (variable de respuesta).


x= variable independiente (predictor de y).
e= componente de error (medición + natural). Es una variable aleatoria.
b0= intersección. Si los datos incluyen cero, representa la media de la distribución de y
cuando x=0. No tiene sentido si los datos no incluyen cero.
b1= pendiente. Es el cambio en la media de y por cada cambio unitario de x.

4
En la siguiente figura se muestra gráficamente los coeficientes (betas) del modelo de
línea recta de la regresión lineal simple.

b1

b0

x
Estimación de los parámetros del modelo

Los parámetros del modelo son los coeficientes betas y tienen que estimarse pues no
se conocen. Dicha estimación se hace por medio del método de mínimos cuadrados
que consiste en minimizar el error del modelo que es la distancia vertical de cada
punto a la recta ajustada de regresión. Los parámetros estimados son los siguientes:

Sxy
bˆ 1 = bˆ 0 = y - bˆ 1 x
Sxx
(Sx )(Sy) ( Sx ) 2
Sxy = Sxy - Sxx = Sx -2

n n
ŷ = bˆ 0 + bˆ 1x

De tal manera que el modelo ajustado y los estimadores de los coeficientes (betas) se
representan añadiendo un acento circunflejo encima de ellos ‘^’. Todas las sumatorias
van de 1 a n, donde n es el número de datos.

Revisemos el siguiente ejemplo:

Tomando los mismos datos usados para elaborar el diagrama de dispersión, ahora se
usarán para generar el modelo de regresión. La tabla de datos la reproduce a
continuación y ahora incluye las variables correspondientes x y y.

5
La variable de respuesta es la dureza y la variable experimental es el tiempo de
solidificación. El primer paso es elevar al cuadrado la x (x-c), multiplicar x*y (xy) y
sumar todas las columnas.

t-Solid(x) Dureza(y) x-c xy


10 4.5 100 45.0
11 4.2 121 46.2
12 3.8 144 45.6
13 3.6 169 46.8
14 3.4 196 47.6
15 3.0 225 45.0
16 2.9 256 46.4
17 2.4 289 40.8
18 2.2 324 39.6
19 2.1 361 39.9
20 1.8 400 36.0
Suma 165 33.9 2585 478.9

Enseguida se obtienen los estimadores de los coeficientes y se genera el modelo de


regresión.

6
( S x )( S y ) 165 (33 .9 )
Sxy = S xy - = 478 .9 - = - 29 .6
n 11
(S x ) 2 (165 ) 2
Sxx = S x - 2
= 2585 - = 110 .0
n 11
Sxy - 29 .6
bˆ 1 = = = - 0 .2690
Sxx 110 .0
33 .9 æ 165 ö
bˆ 0 = y - bˆ 1 x = + 0 .2690 ç ÷ = 7 .1168
11 è 11 ø
ŷ = bˆ + bˆ x = 7 .1168 - 0 .2690 x
0 1

Dureza = 7 .1168 - 0 .2690 tSolid

La interpretación es que, por cada unidad de aumento en el tiempo de solidificación, la


dureza disminuirá 0.2690 unidades en promedio. Como el rango de los datos no
incluye x=0, el valor de 7.1168 no tiene un significado particular. Aplicando Minitab®
se obtiene:

Regression Plot
Dureza = 7.12 - 0.2690 t-Solid

S = 0.0889898 R-Sq = 99.1 % R-Sq(adj) = 99.0 %

4
Dureza

10 11 12 13 14 15 16 17 18 19 20
t-Solid

7
Prueba del significado de la regresión

La prueba del significado, significancia o significación del modelo de regresión es una


prueba de hipótesis que determina si en realidad existe una relación entre x y y y por
tanto vale la pena generar un modelo de regresión (modelo de regresión significativo).

Las hipótesis a probar están relacionadas con la pendiente y son:

Ho: b1 = 0 No existe relación lineal entre x, y. La regresión


no tiene sentido.

Ha: b1 ¹ 0 x es valiosa para explicar la variación en y.

. ..
. .. . .. . . .. . . ...
. . . . .. .. .. .
.
Si Ho no es rechazada, significa que no existe relación lineal entre x, y, y por tanto la
regresión no tiene sentido. El modelo de regresión no es significativo. Por otro lado, si
Ho es rechazada, significa que x es valiosa para explicar la variación en y, y por tanto
vale la pena aplicar un modelo de regresión (modelo significativo).

Ho es equivalente a no rechazar que la pendiente es cero, es decir, el modelo no logra


despegarse de una línea horizontal, de tal forma que, si x cambia, y permanecerá casi
constante.

8
Revisemos el siguiente ejemplo:

Se aplicará la prueba del significado de la regresión al ejemplo anterior en el que se


generó un modelo de regresión. Se repite la tabla anterior la cual incluye una columna
adicional que es la columna n. Se repite la tabla anterior la cual incluye una columna
adicional que es la columna y elevada al cuadrado (y-c)

t-Solid(x) Dureza(y) x-c xy y-c


10 4.5 100 45.0 20.25
11 4.2 121 46.2 17.64
12 3.8 144 45.6 14.44
13 3.6 169 46.8 12.96
14 3.4 196 47.6 11.56
15 3.0 225 45.0 9.00
16 2.9 256 46.4 8.41
17 2.4 289 40.8 5.76
18 2.2 324 39.6 4.84
19 2.1 361 39.9 4.41
20 1.8 400 36.0 3.24
Suma 165 33.9 2585 478.9 112.51

Recordar que las hipótesis para esta prueba del significado de la regresión son las
siguientes:

Ho : b1 = 0 Ha : b1 ¹ 0

Los cálculos que hay que realizar para aplicar el ANOVA son los siguientes:

(å y i ) 2 (33 .9) 2 8.03636


Syy = å y - 2
i
= ( 4.5) + ... + (1.8) -
2 2
=
n 11
SSR = bˆ 1Sxy = -0.269(−29.6) = 7.9624
SSE = Syy - SSR = 8.03636−7.9624=0.07396
Donde Syy=SST es la suma de cuadrados del total de datos, SSR es la suma de
cuadrados de la regresión y SSE es la suma de cuadrados del error. Recordar que
SST=SSR+SSE. Por tanto se obtiene el ANOVA

9
Fuentes de Variación SS gl MS F
Regresión 7.9624 1 7.9624 968.9237
Error 0.07396 9 0.008218
TOTAL 8.03636 10

Como F calculada es mayor que la F de tablas=Fa, gl(R), gl(E) = F0.05,1,9=5.12, se concluye


que la regresión tiene sentido. Los grados de libertad de la regresión son el número de
parámetros (betas) menos 1, es decir, 2-1=1. Los grados de libertad del total de los
datos son el número de datos menos 1, o 11-1=10. Los grados de libertad del error se
obtiene por diferencia entre gl(T) y gl(R).

Otra forma de probar la significación de los parámetros del modelo es usando las
Pruebas t:

Para beta 1 (pendiente), la prueba es la siguiente:

Ho : b1 = 0 Ha : b1 ¹ 0
bˆ 1 bˆ 1 - 0.2690
t= = = = -31.1219
se(bˆ 1 ) MSE 0.008218
Sxx 110
t a / 2,n - 2 = t 0.025,9 = 2.26

‘se’ es el error estándar del estimador de beta 1. Se rechaza Ho si |t| > t tablas=2.26.
Como |t|=|-31.12|> 2.26, se rechaza Ho y por tanto el modelo de regresión es
estadísticamente significativo.

Para beta 0 (intersección), la prueba es la siguiente:

10
Ho : b 0 = 0 Ha : b 0 ¹ 0
bˆ 0 bˆ
t= = 0

se (bˆ 0 ) æ 1 (x) 2 ö
MSE çç + ÷
÷
è n Sxx ø
7 .1168
= = 53 .71
æ 1 (15 ) ö2
0 .008218 çç + ÷÷
è 11 110 ø
t a / 2 , n - 2 = t 0.025 , 9 = 2 .26

Se rechaza Ho si |t| > t tablas=2.26. Como |t|=|53.71|> 2.26, se rechaza Ho y por tanto
el término de intersección (beta 0) debe formar parte del modelo de regresión.

Revisemos el siguiente ejemplo:

Se tiene la siguiente información sobre la dureza de aros de metal en función de la


temperatura de templado en un tratamiento térmico. La variable experimental es la
temperatura de templado (x), y la variable de respuesta es la dureza resultante (y).

x (Te m p) y (Dure za )
101 49
115 44
115 46
140 38
123 43
107 47
135 41
135 38
105 47
110 45
110 43
135 37
125 44
132 40
130 39

11
El resultado en Minitab® es:

Resultado en Minitab Modelo


The regression equation is Pruebas t
Dureza(y) = 75.3 - 0.268 TEMP(x)
p-value
b0 Predictor Coef SE Coef T P
Constant 75.269 3.736 20.14 0.000
b1 TEMP(x) -0.26845 0.03067 -8.75 0.000

S = 1.482 R-Sq = 85.5% R-Sq(adj) = 84.4%


MSE
R2
Analysis of Variance

Source DF SS MS F P
Regression 1 168.37 168.37 76.63 0.000
Residual Error 13 28.56 2.20
Total 14 196.93

F(tablas)=F(0.05,1,13)=4.67

Para la prueba del significado de la regresión (ANOVA), como el p-value0.000 <


alfa=5%, se rechaza Ho. Es decir, se rechaza que beta1=0 y por tanto el modelo de
regresión es significativo. Lo mismo sucede con respecto a la prueba t para beta 1.

Coeficiente de determinación

El coeficiente de determinación R2 indica la proporción de la variación explicada


(representada) por el modelo de regresión. Es el % de la variación en y explicada por x.

SSR
R2 = r2 = 0 £ R2 £1
Syy
Se obtiene dividiendo la suma de cuadrados de la regresión (SSR) entre la suma de
cuadrados del total de datos (Syy). Su rango de valores está entre 0 y 1, o entre 0 y
100%.

12
Para el caso del tratamiento térmico:

168.37
R2 = = 0.855
196.93

Es decir, el 85.48% de la variación en la dureza es explicada por la temperatura.

Coeficiente de correlación

El coeficiente de correlación representa el grado de asociación existente entre x y y es


el siguiente:

Sxy n å xy - å x å y
r= = = ± R2
Sxx Syy [n å x 2
][
- (å x ) 2 n å y 2 - (å y) 2 ]
-1 £ r £ 1

El rango de ‘r’ está entre -1 y 1. Cuando es negativo, indica que el tipo de relación es
inversa. Cuando es positivo, el tipo de relación es directo. Para el caso del tratamiento
térmico:

- 627.2
r= = -0.9246
(2336.4)(196.933)

-0.9246 representa un tipo de relación inversa, es decir, a mediad que la temperatura


crece, la dureza disminuye. El grado de relación es muy fuerte.

Las suposiciones del modelo de regresión son las mismas que las del ANOVA:
normalidad, varianza constante e independencia de los errores y es necesario
verificarlas.

Prueba de falta de ajuste del modelo

Finalmente, la prueba estelar indica si el modelo de regresión se ajusta a los datos.


Esta prueba asume que se cumplen las suposiciones del modelo y es necesario tener
medidas repetidas de y para algunos valores de x. Las hipótesis son las siguientes:

13
Ho : y = b0 + b1x + e Ha : y ¹ b + b x + e
0 1
(El modelo lineal es el adecuado) (El modelo lineal no es adecuado)

Revisemos el siguiente ejemplo:

Se aplicará la prueba de falta de ajuste a los datos de tratamiento térmico de aros de


metal. Ver la siguiente tabla:

x (Temp ) y (D u reza)
101 49
115 44
115 46
140 38
123 43
107 47
135 41
135 38
105 47
110 45
110 43
135 37
125 44
132 40
130 39

El procedimiento es el siguiente:

sea m el número de niveles totales de x (m=11)


sea ni el número de observaciones en xi (i=1..m)
sea yij la j-ésima observación en xi (j=1.. n)
n=número total de observaciones = suma de ni desde i=1..m

14
El principio básico es la partición del error (SSE) en dos componentes:

Falta de ajuste(LOF) y Error puro (PE), SSE=SSLOF+SSPE

Ho : y = b0 + b1x + e Ha : y ¹ b0 + b1x + e
(El modelo lineal es el adecuado) (El modelo lineal no es adecuado)

SSLOF /(m - 2) MSLOF


EP : F = =
SSPE /(n - m) MSPE

Ho se rechaza si F > Fa, m-2, n-m

La siguiente tabla muestra los cálculos para obtener SSPE. Notar que sólo se toman
los datos replicados.

Excel:
(n-1)*var(Yij)

(45-44)2
+(43-44)2

å ( yij - yi )
2
Réplicas(x) Yij yi gl
110 45,43 44.00 2.00 1
115 44,46 45.00 2.00 1
135 41,38,37 38.67 8.67 2
SSPE 12.67 4

Continuando con el ANOVA de la prueba del significado de la regresión, ahí se


incorpora también la prueba de falta de ajuste y las conclusiones de ambas pruebas.

15
Analysis of Variance
Prueba del significado de la regresión Ho: 1=0

Source DF SS MS F P
Regression 1 168.37 168.37 76.63 0.000
Residual Error 13 28.56 2.20
(vs. F0.05, 1, 13 =4.67)

Lack of Fit 9 15.90 1.77 0.56 0.786


Pure Error 4 12.67 3.17 (vs. F0.05, 9, 4 =6)
Total 14 196.93
Prueba de falta-de-ajuste
(LOF) Ho: y=β0+β1x
Existe relación lineal entre y y x,
la regresión tiene sentido

No se rechaza que el modelo lineal propuesto


sea adecuado.

16
ANALIZAR E
INCREMENTAR

Se prohíbe la reproducción total o parcial de esta obra por cualquier


medio sin previo y expreso consentimiento por escrito del Instituto
Tecnológico y de Estudios Superiores de Monterrey.

D.R. © Instituto Tecnológico y de Estudios Superiores de Monterrey,


México. 2022.

Ave. Eugenio Garza Sada 2501 Sur Col. Tecnológico C.P. 64849
Monterrey, Nuevo León | México

También podría gustarte