Está en la página 1de 7

1.5. Regresión lineal múltiple.

Muchas aplicaciones del análisis de regresión incluyen situaciones en las que hay más
de una variable regresora, a un modelo de regresión que contiene más de una variable
regresora se le llama modelo de regresión múltiple.

Como un ejemplo suponga que la vida efectiva de una herramienta de corte depende
de la velocidad de corte y del Angulo de la herramienta, un modelo de regresión múltiple
que podría describir esta relación es.

y = β 0 + β1 x1 + β 2 x2 + ε

Donde “y” representa la vida de la herramienta, x1 representa la velocidad de corte, x2


representa el Angulo de la herramienta y ε es un término de error aleatorio. Se trata de
un modelo de regresión lineal múltiple con dos regresores o variables independientes.

En general la variable respuesta o dependiente “y”, puede relacionarse con “k” variables
regresoras o independientes, el siguiente es un modelo de regresión lineal múltiple con
“k” variables regresoras, a los parámetros β j , j=0, 1, 2, …, k, se les llama coeficientes
de regresión.

Los modelos de regresión lineal múltiples se usan con frecuencia como funciones de
aproximación. Es decir, se desconoce la verdadera relación funcional entre “y”,
x1 , x2 ,..., xk , pero en ciertos rangos de las variables independientes el modelo de
regresión lineal es una aproximación adecuada.

Muchas veces, incluso los modelos cuya estructura es más compleja, pueden
analizarse mediante técnicas de regresión lineal múltiple. Por ejemplo, considere el
modelo de un polinomio cúbico en una variable regresora.

y = β 0 + β1 x + β 2 x 2 + β 3 x 3 + ε

Si se hace x1 = x, x2 = x 2 , x3 = x 3 , entonces esta ecuación se puede escribir como:

y = β0 + β1 x1 + β 2 x2 + β3 x3 + ε

Que es un modelo de regresión lineal múltiple con tres variables regresoras.

Los modelos que incluyen efectos de interacción también pueden analizarse utilizando
los métodos de regresión lineal múltiple. Una interacción entre dos variables puede
representarse con un término de un producto cruzado, tal como.

y = β 0 + β1 x1 + β 2 x2 + β12 x1 x2 + ε

División de Ingeniería Industrial. Estadística Inferencial II. 1


Si se hace x3 = x1 x2 , y, β3 = β12 , entonces la ecuación queda como:

y = β0 + β1 x1 + β 2 x2 + β3 x3 + ε

Que es un modelo de regresión lineal.

Puede usarse el método de mínimos cuadrados para estimar los coeficientes de


regresión en el modelo de regresión múltiple, suponga que se cuenta con n>k
observaciones y sea que xij denote la observación o nivel i de la variable x j . Las
observaciones son:

(xi1, xi 2 ,..., xik , yi ) , i= 1, 2, …, n y n>k

Se acostumbra presentar los datos de una regresión múltiple en una tabla.

y x1 x2 …. xk
y1 x11 x12 …. x1k
y 2
x21 x22 .... x2 k
. . . . .
. . . . .
. . . . .
yn x1n x2 n xnk

En este caso las ecuaciones normales de mínimos cuadrados para obtener los
coeficientes de regresión en el modelo serian:

n n n n
nβ 0 + β1 ∑ xi1 + β 2 ∑ xi 2 + ... + β k ∑ xik = ∑ y i
i =1 i =1 i =1 i =1

n n n n n
β 0 ∑ xi1 + β1 ∑ xi21 + β 2 ∑ xi1 xi 2 + ... + β k ∑ xi1 xik = ∑ xi1 y i
i =1 i =1 i =1 i =1 i =1

.
.
.
n n n n n
β 0 ∑ xik + β 1 ∑ xik xi1 + β 2 ∑ xik xi 2 + ... + β k ∑ xik2 = ∑ xik y i
i =1 i =1 i =1 i =1 i =1

Obsérvese que hay p= k+1 ecuaciones normales, una para cada uno de los coeficientes
de regresión desconocidos. Las soluciones de las ecuaciones normales serán los

División de Ingeniería Industrial. Estadística Inferencial II. 2


estimadores de mínimos cuadrados de los coeficientes de regresión, β 0 , β1 ,..., β k . Las
soluciones de las ecuaciones normales pueden encontrarse con cualquier método
apropiado para resolver un sistema de ecuaciones lineales.

Ejemplo 1.4: En la siguiente tabla se muestran los datos de la resistencia al


desprendimiento de un alambre adherido en un proceso de manufactura de
semiconductores, de la longitud del alambre y de la altura de la matriz.

A continuación se realizara el modelo de regresión lineal múltiple en base a estos datos.

y = β 0 + β1 x1 + β 2 x2 + ε

Donde y= resistencia al desprendimiento, x1 = longitud del alambre y x2 = Altura de la


matriz. En base a estos datos se calcula (todas estas sumatorias las puedes calcular
fácilmente en una hoja de Excel)

25 25 25
N = 25, ∑ yi = 725.82 ,
i =1
∑ xi1 = 206 ,
i =1
∑x i =1
i2 = 8294

División de Ingeniería Industrial. Estadística Inferencial II. 3


25 25 25 25

∑ xi21 = 2396,
i =1
∑ xi22 = 3531848 ,
i =1
∑ xi1 xi 2 = 77177 ,
i =1
∑x
i =1
i1 y i = 8008 .37

25

∑x
i =1
i2 y i = 274811 .31

Entonces para el modelo y = β0 + β1 x1 + β 2 x2 + ε , las ecuaciones normales son:

n n n
nβ 0 + β1 ∑ xi1 + β 2 ∑ xi 2 = ∑ y1
i =1 i =1 i =1
n n n n
β 0 ∑ xi1 + β1 ∑ xi21 + β 2 ∑ xi1 xi 2 = ∑ xi1 yi
i =1 i =1 i =1 i =1
n n n n
β 0 ∑ xi 2 + β1 ∑ xi1 xi 2 + β 2 ∑ xi22 = ∑ xi 2 yi
i =1 i =1 i =1 i =1

Ahora sustituimos los datos obtenidos de la tabla.

25β 0 + β 1 206 + β 2 8294 = 725.82


β 0 206 + β1 2396 + β 2 77177 = 8008.37
β 0 8294 + β1 77177 + β 2 3531848 = 274811.31

Por último resolvemos el sistema de ecuaciones lineales por el método que mejor
domine, (suma y resta, Matrices, gauss Jordán, etc.) y obtenemos los valores de:

β 0 = 2.26379, β1 = 2.74427, β 2 = 0.01253.

Por lo tanto, la ecuación de regresión ajustada es:

y = 2.26379 + 2.74427x1 + 0.01253x2

Esta ecuación puede usarse para predecir la resistencia al desprendimiento para pares
de valores en las variables regresoras de la longitud del alambre ( x1 ) y la altura de la
matriz ( x2 ). A si pues, podemos decir que un alambre de longitud 13 y con una altura
de matriz de 500, tiene una resistencia al desprendimiento de:

y = 2.26379 + 2.74427x1 + 0.01253x2


y = 2.26379 + 2.74427(13) + 0.01253(500)
y = 2.26379 + 35.67551 + 6.265

y = 44.2043 Unidades de resistencia al desprendimiento.

División de Ingeniería Industrial. Estadística Inferencial II. 4


1.6 Prueba de hipótesis en regresión lineal múltiple.

En los problemas de regresión lineal múltiple, las pruebas de hipótesis del modelo son
útiles para medir la adecuación del modelo, la prueba de la significación de una
regresión sirve para determinar si existe una relación lineal entre la variable de
respuesta “y” y un subconjunto de la variables regresoras, x1 , x 2 ..., x k . Las hipótesis
apropiadas son:

H 0 : β1 = β 2 = ... = β k = 0
H1 : β j ≠ 0
Para al menos una j.

El rechazo de H 0 : β 0 = β1 = β 2 = ... = β k = 0 , implica que al menos una de las variables


regresoras x1 , x 2 ..., x k . contribuye de manera significativa al modelo. Deberá rechazarse
H 0 si el valor calculado del estadístico de prueba f 0 , es mayor que f α , k , n − p . Este último
se obtiene de las tablas de puntos porcentuales de la distribución f. anexas al final de
este documento y f 0 se calcula a partir de:

SS R
k MS R
f0 = =
SS E MS E
(n − p)
En donde:
2 2
n   n 
∑ yi  ∑ yi 
SS R = βˆy −  i =1 
n
; SS E = SS T − SS R y SST = ∑ yi −  i =1 
2

n i =0 n

De estas ecuaciones el término β̂y es el producto matricial de los valores de β y los de y


en el sistema de ecuaciones representativo de la regresión.

Ejemplo 1.6: Para el caso del ejemplo 1.4, suponga que deseamos realizar una prueba
de hipótesis con un 90% de confiabilidad, entonces α=0.1, k=2, p=3 y n-p=25-3=22, de
la tabla de distribución f α , k , n − p obtenemos un valor de 2.56 y un estadístico f 0
calculado de:

Iniciamos por determinar el valor del producto matricial β̂y para encontrar SSR.
725.82 
β̂y = [2.26379 2.74427 0.01253] 8008.37  =27063.62
 
274811.31

División de Ingeniería Industrial. Estadística Inferencial II. 5


Por otra parte determinamos también el siguiente valor.
2
 n 
∑ yi  = [9.95 + 24.45 + 31.75 + 35 + ............ + 22.13 + 21.15] = [725.82] = 526814.67
2 2

 i =1 

Sustituimos y calculamos

2
n 
∑ yi 
SS R = βˆy −  i =1  = 27063.62 −
526814.67
= 5991.03
n 25

Para calcular SST determinamos primeramente:

∑y
i =0
i
2
= (9.95) 2 + (24.45) 2 + (31.75) 2 + ............. + (22.13) 2 + (21.15) 2 = 27133.39

Sustituimos y calculamos

2
 n 
n ∑ yi 
SS T = ∑ yi −  i =1  = 27133.39 −
526234.18
2
= 27133.39 − 21049.37 = 6084.02
i =0 n 25

Sustituimos y encontramos el valor de SSE

SS E = SS T − SS R = 6084.02 − 5991.03 = 92.99

Sabemos que K=2 y p=3, entonces determinamos el valor de:

SS R 5991.03
f0 = k = 2 = 2995.515
SS E 92.99 4.2268
(n − p) 22

f 0 =708.69 Por lo tanto f 0 > f α ,k ,n − p


708.69>2.56

Se rechaza la hipótesis nula y se concluye con un 90% de confiabilidad que al menos


una de las variables (longitud del alambre y altura de la matriz) ó ambas, se relacionan
linealmente con la resistencia al desprendimiento.

División de Ingeniería Industrial. Estadística Inferencial II. 6


Tabla de distribución f para un α=0.1.

Modo de uso.
• En la primer fila seleccionamos la columna con el valor de k especificado (en el
ejemplo k=2)
• En la primer columna ubicamos la fila con el valor de n-p (en el ejemplo p=3 y
n=25; n-p=22)
• El valor que se encuentra en la posición donde se cruzan la columna y la fila
seleccionada es el que se toma como valor de f α ,k ,n − p (En el ejemplo resulta
2.56)

Nota: existe una tabla específica para cada valor de α (alfa)

División de Ingeniería Industrial. Estadística Inferencial II. 7

También podría gustarte