Tema15 Ñu Mariposa

ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 15.- REGRESIÓN LINEAL MÚLTIPLE

- Hipótesis del modelo.
- Estimación y contrastes sobre los parámetros.
- Significación del modelo.
- Análisis residual.
- Métodos de selección de variables.
Tema 15. Regresión lineal múltiple 308

ESTADÍSTICA
Regresión lineal múltiple

El modelo es Y     X  X  
0 1 1 k k
Y Variable respuesta o dependiente
X1, X2, ..., Xk Variables independientes o regresores
 Perturbación aleatoria
Dispondremos de una muestra de n observaciones para este modelo:
yi   0  1 xi1  ...   k xik   ik i  1...n
Reunimos estas n condiciones con ayuda de vectores y matrices en la forma:
y= X β +ε
nx1 nx ( k 1) ( k 1) x1 nx1
 y  x  x  1    
 1 11 1k  0  1
      
y     X  

β    
 
    
 
 

y 
 n x  x  1

 k 
 
  n 
  n1 nk 
    
X se denomina matriz de diseño. En su fila i aparecen las condiciones x del caso i. Conocida.
y es el vector que contiene las n respuestas. Conocido.
La fila i-ésima de ambos corresponde a la i-ésima observación hecha del modelo.
 vector de parámetros. Desconocido. Cada coeficiente j representa lo que aumenta la respuesta Y
cuando la variable Xj aumenta una unidad y los restantes regresores se mantienen constantes.
 vector de perturbaciones aleatorias (otras fuentes de variabilidad). No observable. Desconocido.
ESTADÍSTICA
Hipótesis del modelo

1) LINEALIDAD
E     0, i  E  yi      x    x , i
 i 0 1 i1 k ik
2) HOMOGENEIDAD DE LA VARIANZA
Var      2, i  Var  y    2, i
 i  i
3) INDEPENDENCIA DE LAS PERTURBACIONES

1, … n independientes
4) NORMALIDAD
1, … n normales  y1, … yn normales
El número de observaciones n debe superar al de parámetros k para poder estimarlos, pues debemos
resolver en b el sistema de ecuaciones XtX b = Xty que de otro modo tendría más incógnitas que
ecuaciones.
Los REGRESORES deben ser LINEALMENTE INDEPENDIENTES para que ese sistema no sea
indeterminado (solución no única). Siempre puede eliminarse del modelo un regresor que sea
linealmente dependiente de otros que ya aparecen en el modelo.

ESTADÍSTICA
Ejemplo: Resistencia al desprendimiento de alambre de semiconductores
En una fábrica de semiconductores el semiconductor terminado es alambre adherido en una placa.

Se quiere estudiar la resistencia al desprendimiento del alambre.
Se recogen datos de resistencia, longitud del alambre y altura del molde de fabricación.
Observación Resistencia Longitud Altura Observación Resistencia Longitud Altura

1 9,95 2 50 14 11,66 2 360
2 24,45 8 110 15 21,65 4 205
3 31,75 11 120 16 17,89 4 400
4 35,00 10 550 17 69,00 20 600
5 25,02 8 295 18 10,30 1 585
6 16,86 4 200 19 34,93 10 540
7 14,38 2 375 20 46,59 15 250
8 9,60 2 52 21 44,88 15 290
9 24,35 9 100 22 54,12 16 510
10 27,50 8 300 23 56,63 17 590
11 17,08 4 412 24 22,13 6 100
12 37,00 11 400 25 21,15 5 400
13 41,95 12 500

ESTADÍSTICA
Estimación de los parámetros del modelo

Como en regresión simple, buscamos el  que minimiza la suma de cuadrados de los residuos ei :
n 2 n
L(β)    y     x    x     e 2 = e'e=  y-Xβ  ' y-Xβ  = y'y-2β'X'y+β'X'Xβ
i1 i  0 1 i1 k ik   i=1 i
-1
Derivando e igualando a 0 obtenemos un mínimo en β̂=  X'X  X'Y :
0   L  2X'Y+2X'Xβˆ  X'Xβ=X'y ˆ -1
(ecuaciones normales)  β̂=  X'X  X'y
 β β̂
A partir de esta solución β̂ se obtienen los vectores de:

-1
Valores ajustados (valores de y predichos por el modelo) ŷ= Xβˆ = X  X'X  X'y = Hy
-1 -1
Residuos (que estiman las perturbaciones) e = y - yˆ = y - X  X' X X' y = (I - X  X' X X') y = (I - H) y
e  y  ˆ  ˆ x  ˆ x 
i i  0 1 i1 k ik 
Propiedades de los estimadores β̂
Medias y varianzas: E( β̂ )= (estimadores insesgados) Var ( β̂ ) = 2 (X’X)-1
1
Llamando cij al elemento (i,j) de la matriz  X ' X  tenemos β̂  N  β ,  c 
i  i ii 
Nótese que los estimadores no son independientes.

ESTADÍSTICA
Estimación de la varianza
Nos falta aún estimar un último parámetro desconocido: la varianza  de las perturbaciones i.
Si conseguimos esta estimación podremos pasar a construir intervalos de confianza y test de hipótesis
sobre los parámetros i.
El estimador de  (varianza de las perturbaciones i, que no son observables) se basa, lógicamente,
en la variabilidad de sus estimadores, los residuos ei:
Suma de Cuadrados Residual SSE = n ei2 es independiente de β̂
i1
  n2k 1
SSE
Su distribución:  2
Dividiendo SSE por los g. de l. de la  obtenemos MSE, el estimador buscado:

2
 n e2
ˆ 2 = MSE  i  1 i  SSE
n  k 1 n  k 1
Es un estimador insesgado para : E  MSE    2

ESTADÍSTICA
Inferencias sobre los parámetros
 cii y  2   nk 1 indep. de β̂ obtenemos:

SSE 2
De los resultados anteriores β̂  N  β , 

i  i 
î - i î - i
 N  0,1 ; t  t para i  0,1,..., k
i n  k 1
 2 cii MSE c
ii
lo cual permite construir I. de C y contrastes sobre los i:
INTERVALOS DE CONFIANZA
î  t MSE  c    ˆ  t MSE  c

, nk 1 ii i i , nk 1 ii
2 2
CONTRASTES DE HIPÓTESIS
H :    *  ˆ   * 
 0 i i
 C i i  t ,n  k 1 
 H1 : i  i*  MSEcii 2 
 
ˆ  î  es la varianza estimada del estimador del parámetro i.

Nótese que MSE cii  Var

ESTADÍSTICA
Tabla de coeficientes estimados

Parameter Estimate Standard t-Value p-value
Error contraste i=0
ˆ0 
 ˆ0 

t0  P  t0 
Intercept  0 MSE  c
00 MSE  c00 
  MSE  c00 
 
 ˆ1 
 ˆ1 

MSE  c t1  P t1 
  1 11 MSE  c11 
 MSE  c11 
 

 ˆk 
 ˆk 

MSE  c tk  P tk 
k  MSE  ckk 
k kk  MSE  ckk 
 
Puede haber varias variables cuyo p-valor supere el nivel habitual 0.05 (con lo que no serían
significativas a ese nivel). No podemos eliminar todas esas variables a la vez.
Puede que una variable que no es significativa en este modelo sí lo sea cuando eliminemos otra de las
variables del modelo porque ambas explicaban la misma parte de la variabilidad de Y (recordar que
los estimadores de los parámetros no son independientes); pueden ser dos variables con alta
correlación.
No debe entonces eliminarse más de una variable cada vez si se utilizan estos contrastes. Tras
eliminar una variable conviene reajustar el modelo y analizar la tabla nueva.
ESTADÍSTICA
Multiple Regression - Resistencia
Dependent variable: Resistencia

Independent variables: Longitud Alambre, Altura Matriz
Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT 2,26379 1,06007 2,13552 0,0441
Longitud Alambre 2,74427 0,0935238 29,343 0,0000
Altura Matriz 0,0125278 0,00279842 4,47675 0,0002
Intervalo de confianza del 95% para 1
  2,74427  2,074  0,0935238 es decir 2,5503 ≤ 1 ≤ 2,9382

1
Contraste de Hipótesis para 2
 H 0 :  2  0,012
 C  t 0  t 0 , 025, 22  t0 
0,0125278  0,012
 0,1886
 H 1 :  i  0,012 0,00279842
t0,025 , 22 = 2,074 p-valor = 0,8521

ESTADÍSTICA
Test de significación de la regresión.

H0 : 
H1 : Algún i  0
Este contraste plantea si conjuntamente las variables regresoras aportan algo o no a la explicación de
la respuesta.
V.Total corregida (SSTm) V. Explicada (SSR) V. Residual (SSE)
n 2 n 2 n
S    y  y    yi  y    yi  yî 2
= ˆ 
 i 
yy +
i1 i1 i 1
SSTm  2   2
H
2
SSR    0  2 SSE  2   2
n1 k nk 1
SSR SSE independt.
El test entonces compara la variabilidad explicada con la no explicada o residual mediante el estadístico
SSR MSR H0
F  k  F
0 SSE k ,nk 1
n  k 1 MSE
Se recopilan los cálculos en la denominada
TABLA ANOVA
SOURCE D.F. SS MSS F0 Prob. (p-valor)
Regression k SSR MSR MSR P(Fk,n-k-1>MSR/MSE)
MSE
Residual n-k-1 SSE MSE
Total corregida n-1 SSTm

ESTADÍSTICA

Independent variables: Longitud Alambre, Altura Matriz
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 5990,77 2 2995,39 572,17 0,0000
Residual 115,173 22 5,23516
Total (Corr.) 6105,94 24
R-squared = 98,1137 percent

R-squared (adjusted for d.f.) = 97,9423 percent
Standard Error of Est. = 2,28805

ESTADÍSTICA
Intervalo para la respuesta media bajo condiciones x0: E  y0

Parámetro E  y0   x'0  donde x'0  1, x01,, x0k 
Estimador y  x' 
0 0
 X ' X 1 x 
 
Intervalo de confienza del 1- E  y 
 yˆ  t MSE   x '
 0  0 , n  k 1  0 0 
2
Predicción de nuevas observaciones

Queremos predecir mediante un I. de C. y0 , el valor de una nueva observación en x’0.
El intervalo de confianza de nivel 1- es
MSE  1 x' X ' X 1x 
 
y  yˆ  t
0 0 ,nk 1  0 0
2
Rango
Rango Conjunto Nota: Al calcular intervalos hay que tener en cuenta
de que no se debe extrapolar ya que la validez del modelo
X2 x02
puede estar restringida a la región donde están las
Extrapolación
observaciones originales. Además en una situación de
regresión múltiple es fácil extrapolar sin notarlo como
x01
ilustramos en este gráfico.
Rango de X1

ESTADÍSTICA
Ejemplo:
Construir intervalos de confianza del 95% para la respuesta media y de predicción cuando
la longitud es 8 y la altura de la matriz es 200.
Valores de los regresores: x’0 = [1, 8, 200]

2,26379
Estimación de la respuesta: yˆ  x' ˆ  1, 8, 200

 
2,74427  26,7235
0 0  
0,01253 
 
MSE   x' X ' X 1x   0,5827

 
Varianza estimada del estimador de la respuesta media:
 0 0
MSE  1 x' X ' X 1x  = 2,3609

 
Varianza estimada de la predicción:
 0 0
t0,025 , 22 = 2,074
Intervalo para la respuesta media 25,515 ≤ E  y0   x'0  ≤ 27,9321
Intervalo de predicción para la respuesta a x0 21,8269≤ y0 ≤ 31,6201

ESTADÍSTICA
Análisis Residual del ejemplo:

Residual Plot
Studentized residual
2
-2
-4
0 20 40 60 80
predicted Resistencia
Residual Plot
Residual Plot
4
4
2
0
0
-2
-2
-4 -4
0 4 8 12 16 20 0 100 200 300 400 500 600
Longitud Alambre Altura Matriz

ESTADÍSTICA

Independent variables: Longitud Alambre^2, Longitud Alambre, Altura Matriz
Parameter Estimate St. Error T Statistic P-Value
CONSTANT 5,36842 1,42317 3,77215 0,0011
Longitud Alambre^2 0,0428265 0,0149732 2,86021 0,0094
Altura Matriz 0,0103749 0,00254374 4,07861 0,0005
Model 6023,06 3 2007,69 508,68 0,0000
Residual 82,8847 21 3,94689
Total (Corr.) 6105,94 24
4
R-squared = 98,6426 percent r = 3,77

Studentizedresidual
2

0
-2
-4
0 20 40 60 80
ESTADÍSTICA
Multiple Regression – Resistencia (Eliminando la observación atípica)

Independent variables: Longitud Alambre^2, Longitud Alambre, Altura Matriz
CONSTANT 4,55238 1,13559 4,00882 0,0007
Longitud Alambre^2 0,0412429 0,0117362 3,51416 0,0022
Altura Matriz 0,0111222 0,00200237 5,55452 0,0000
Model 6000,73 3 2000,24 825,96 0,0000
Residual 48,4345 20 2,42173
Total (Corr.) 6049,17 23
2,5

1,5
Studentizedresidual
Standard Error of Est. = 1,55619 0,5
-0,5
-1,5
-2,5
0 20 40 60 80
ESTADÍSTICA
Métodos por etapas de selección de variables:
1. SELECCIÓN HACIA ADELANTE (FORWARD)

Se parte de un modelo sólo con término independiente y en cada paso se incorpora la variable que
tiene menor p-valor en el modelo resultante de añadir dicha variable al modelo del paso anterior,
siempre que se cumpla p-valor<p-to-enter.
El proceso concluye cuando no entran más variables.
2. ELIMINACIÓN HACIA ATRÁS (BACKWARD)

Se parte de un modelo con todas las variables y en cada paso se elimina la variable que tiene mayor p-
valor en dicho modelo, siempre que se cumpla p-valor>p-to-remove.
El proceso concluye cuando no salen más variables.
3. REGRESIÓN PASO A PASO (STEPWISE)

Es un modelo que incorpora las ideas FORWARD Y BACKWARD:
Se parte de un modelo sólo con término independiente y en cada paso se incorpora la variable que
tiene menor p-valor en el modelo resultante de añadir dicha variable al modelo del paso anterior,
siempre que el estadístico cumpla p-valor<p-to-enter y a continuación se eliminan (de una en una)
aquellas variables presentes en el modelo que cumplan p-valor>p-to-remove.
El proceso concluye cuando no entran ni salen más variables.
Para que el proceso no entre en bucles, se deben usar valores p-to-remove  p-to-enter.

ESTADÍSTICA
Ejemplo:
En un artículo publicado por Kwan, Kowalski y Skogenboe en Journal of Agricultural and Food
Chemistry, Vol. 27, 1979 se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del
juicio de varios expertos se ha medido la “Calidad” de cada vino y se dispone de valores de 4
variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad) que pueden explicar dichos valores de calidad.
X1 X2 X3 X4 X5 y X1 X2 X3 X4 X5 y

Aroma Body Flavor Oakiness Clarity Quality Aroma Body Flavor Oakiness Clarity Quality
1 3,3 2,8 3,1 4,1 1 9,8 20 3,4 5 3,4 3,4 0,9 7,9
2 4,4 4,9 3,5 3,9 1 12,6 21 6,4 5,4 6,6 4,8 0,9 15,1
3 3,9 5,3 4,8 4,7 1 11,9 22 5,5 5,3 5,3 3,8 1 13,5
4 3,9 2,6 3,1 3,6 1 11,1 23 4,7 4,1 5 3,7 0,7 10,8
5 5,6 5,1 5,5 5,1 1 13,3 24 4,1 4 4,1 4 0,7 9,5
6 4,6 4,7 5 4,1 1 12,8 25 6 5,4 5,7 4,7 1 12,7
7 4,8 4,8 4,8 3,3 1 12,8 26 4,3 4,6 4,7 4,9 1 11,6
8 5,3 4,5 4,3 5,2 1 12 27 3,9 4 5,1 5,1 1 11,7
9 4,3 4,3 3,9 2,9 1 13,6 28 5,1 4,9 5 5,1 1 11,9
10 4,3 3,9 4,7 3,9 1 13,9 29 3,9 4,4 5 4,4 1 10,8
11 5,1 4,3 4,5 3,6 1 14,4 30 4,5 3,7 2,9 3,9 1 8,5
12 3,3 5,4 4,3 3,6 0,5 12,3 31 5,2 4,3 5 6 1 10,7
13 5,9 5,7 7 4,1 0,8 16,1 32 4,2 3,8 3 4,7 0,8 9,1
14 7,7 6,6 6,7 3,7 0,7 16,1 33 3,3 3,5 4,3 4,5 1 12,1
15 7,1 4,4 5,8 4,1 1 15,5 34 6,8 5 6 5,2 1 14,9
16 5,5 5,6 5,6 4,4 0,9 15,5 35 5 5,7 5,5 4,8 0,8 13,5
17 6,3 5,4 4,8 4,6 1 13,8 36 3,5 4,7 4,2 3,3 0,8 12,2
18 5 5,5 5,5 4,1 1 13,8 37 4,3 5,5 3,5 5,8 0,8 10,3
19 4,6 4,1 4,3 3,1 1 11,3 38 5,2 4,8 5,7 3,5 0,8 13,2

ESTADÍSTICA
Multiple Regression - Quality

Dependent variable: Quality
Independent variables: Aroma, Body, Flavor, Oakiness, Clarity

CONSTANT 3,99686 2,23177 1,79089 0,0828
Aroma 0,482551 0,272447 1,77117 0,0861
Body 0,273161 0,332561 0,821388 0,4175
Flavor 1,16832 0,304481 3,8371 0,0006
Oakiness -0,68401 0,271193 -2,52223 0,0168
Clarity 2,33945 1,73483 1,34852 0,1870
Model 111,54 5 22,3081 16,51 0,0000
Residual 43,248 32 1,3515
Total (Corr.) 154,788 37


ESTADÍSTICA
Backward elimination:
Paso 1: Eliminar Body

CONSTANT 4,98555 1,87007 2,66597 0,0118
Aroma 0,529977 0,264943 2,00034 0,0537
Flavor 1,26431 0,279773 4,51905 0,0001
Oakiness -0,658894 0,268132 -2,45735 0,0194
Clarity 1,79423 1,5949 1,12498 0,2687
Paso 2: Eliminar Clarity

CONSTANT 6,46719 1,33279 4,85238 0,0000
Aroma 0,58012 0,262185 2,21264 0,0337
Flavor 1,19969 0,274881 4,36441 0,0001
Oakiness -0,602325 0,264401 -2,27807 0,0291
Este sería el modelo final. Notar que la variable Aroma que no era significativa en el modelo inicial sí
lo es ahora.

ESTADÍSTICA
Forward selection:
Paso 1: Modelos con una sola variable.

CONSTANT 5,95833 1,10498 5,39227 0,0000
Aroma 1,3365 0,222613 6,00369 0,0000
CONSTANT 6,058 1,64406 3,68479 0,0007
Body 1,36177 0,345806 3,93797 0,0004
CONSTANT 4,94141 0,991053 4,98602 0,0000
Flavor 1,57189 0,203288 7,73234 0,0000
CONSTANT 12,9916 1,99183 6,52243 0,0000
Oakiness -0,130365 0,461378 -0,282556 0,7791
CONSTANT 12,0034 2,56098 4,68705 0,0000
Clarity 0,469227 2,74857 0,170717 0,8654
Son candidatas a entrar todas las variables con p-valor < 0.05. Entra “Flavor” por ser la de menor p-
valor (mayor valor absoluto del estadístico t).
ESTADÍSTICA
Paso 2: Modelos con dos variables, siendo una de ellas “Flavor”.

CONSTANT 4,34623 1,00914 4,30686 0,0001
Aroma 0,517965 0,275927 1,87718 0,0688
Flavor 1,17017 0,290545 4,02749 0,0003
CONSTANT 4,58462 1,24752 3,67499 0,0008
Body 0,161283 0,33605 0,479937 0,6343
Flavor 1,48828 0,269405 5,52432 0,0000
CONSTANT 6,9122 1,38892 4,97668 0,0000
Oakiness -0,541444 0,277215 -1,95316 0,0588
Flavor 1,64177 0,19902 8,24926 0,0000
CONSTANT 3,39415 1,92413 1,76399 0,0865
Clarity 1,59076 1,69463 0,938709 0,3543
Flavor 1,58823 0,204366 7,77147 0,0000
Ninguna variable más es significativa al nivel 0.05 en presencia de “Flavor” con lo que el método
forward se detiene y la única variable que está en el modelo es “Flavor”.

Tema15 Ñu Mariposa

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema15 Ñu Mariposa

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

TEMA 15.- REGRESIÓN LINEAL MÚLTIPLE

Tema 15. Regresión lineal múltiple 308

Regresión lineal múltiple

Hipótesis del modelo

3) INDEPENDENCIA DE LAS PERTURBACIONES

Tema 15. Regresión lineal múltiple 310

Ejemplo: Resistencia al desprendimiento de alambre de semiconductores

En una fábrica de semiconductores el semiconductor terminado es alambre adherido en una placa.

Observación Resistencia Longitud Altura Observación Resistencia Longitud Altura

Tema 15. Regresión lineal múltiple 311

Estimación de los parámetros del modelo

A partir de esta solución β̂ se obtienen los vectores de:

Tema 15. Regresión lineal múltiple 312

Dividiendo SSE por los g. de l. de la  obtenemos MSE, el estimador buscado:

Tema 15. Regresión lineal múltiple 313

Inferencias sobre los parámetros

 cii y  2   nk 1 indep. de β̂ obtenemos:

ˆi  t MSE  c    ˆ  t MSE  c

ˆ  ˆi  es la varianza estimada del estimador del parámetro i.

Tema 15. Regresión lineal múltiple 314

Tabla de coeficientes estimados

Multiple Regression - Resistencia

Dependent variable: Resistencia

Intervalo de confianza del 95% para 1

  2,74427  2,074  0,0935238 es decir 2,5503 ≤ 1 ≤ 2,9382

Contraste de Hipótesis para 2

t0,025 , 22 = 2,074 p-valor = 0,8521

Tema 15. Regresión lineal múltiple 316

Test de significación de la regresión.

Tema 15. Regresión lineal múltiple 317

Multiple Regression - Resistencia

Dependent variable: Resistencia

R-squared = 98,1137 percent

Tema 15. Regresión lineal múltiple 318

Intervalo para la respuesta media bajo condiciones x0: E  y0

Predicción de nuevas observaciones

Tema 15. Regresión lineal múltiple 319

Valores de los regresores: x’0 = [1, 8, 200]

Estimación de la respuesta: yˆ  x' ˆ  1, 8, 200

MSE   x' X ' X 1x   0,5827

MSE  1 x' X ' X 1x  = 2,3609

Intervalo para la respuesta media 25,515 ≤ E  y0   x'0  ≤ 27,9321

Intervalo de predicción para la respuesta a x0 21,8269≤ y0 ≤ 31,6201

Tema 15. Regresión lineal múltiple 320

Análisis Residual del ejemplo:

Tema 15. Regresión lineal múltiple 321

Multiple Regression - Resistencia

R-squared (adjusted for d.f.) = 98,4486 percent

Standard Error of Est. = 1,98668

Multiple Regression – Resistencia (Eliminando la observación atípica)

R-squared = 99,1993 percent

Métodos por etapas de selección de variables:

1. SELECCIÓN HACIA ADELANTE (FORWARD)

2. ELIMINACIÓN HACIA ATRÁS (BACKWARD)

3. REGRESIÓN PASO A PASO (STEPWISE)

Tema 15. Regresión lineal múltiple 324

X1 X2 X3 X4 X5 y X1 X2 X3 X4 X5 y

Tema 15. Regresión lineal múltiple 325

Multiple Regression - Quality

Parameter Estimate St. Error T Statistic P-Value

R-squared = 72,0599 percent