Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema15 Ñu Mariposa
Tema15 Ñu Mariposa
y x x 1
1 11 1k 0 1
y X
β
y
n x x 1
k
n
n1 nk
X se denomina matriz de diseño. En su fila i aparecen las condiciones x del caso i. Conocida.
y es el vector que contiene las n respuestas. Conocido.
La fila i-ésima de ambos corresponde a la i-ésima observación hecha del modelo.
vector de parámetros. Desconocido. Cada coeficiente j representa lo que aumenta la respuesta Y
cuando la variable Xj aumenta una unidad y los restantes regresores se mantienen constantes.
vector de perturbaciones aleatorias (otras fuentes de variabilidad). No observable. Desconocido.
Tema 15. Regresión lineal múltiple 309
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
4) NORMALIDAD
1, … n normales y1, … yn normales
El número de observaciones n debe superar al de parámetros k para poder estimarlos, pues debemos
resolver en b el sistema de ecuaciones XtX b = Xty que de otro modo tendría más incógnitas que
ecuaciones.
Los REGRESORES deben ser LINEALMENTE INDEPENDIENTES para que ese sistema no sea
indeterminado (solución no única). Siempre puede eliminarse del modelo un regresor que sea
linealmente dependiente de otros que ya aparecen en el modelo.
Estimación de la varianza
Nos falta aún estimar un último parámetro desconocido: la varianza de las perturbaciones i.
Si conseguimos esta estimación podremos pasar a construir intervalos de confianza y test de hipótesis
sobre los parámetros i.
El estimador de (varianza de las perturbaciones i, que no son observables) se basa, lógicamente,
en la variabilidad de sus estimadores, los residuos ei:
Suma de Cuadrados Residual SSE = n ei2 es independiente de β̂
i1
n2k 1
SSE
Su distribución: 2
n e2
ˆ 2 = MSE i 1 i SSE
n k 1 n k 1
Es un estimador insesgado para : E MSE 2
INTERVALOS DE CONFIANZA
CONTRASTES DE HIPÓTESIS
H : * ˆ *
0 i i
C i i t ,n k 1
H1 : i i* MSEcii 2
Puede haber varias variables cuyo p-valor supere el nivel habitual 0.05 (con lo que no serían
significativas a ese nivel). No podemos eliminar todas esas variables a la vez.
Puede que una variable que no es significativa en este modelo sí lo sea cuando eliminemos otra de las
variables del modelo porque ambas explicaban la misma parte de la variabilidad de Y (recordar que
los estimadores de los parámetros no son independientes); pueden ser dos variables con alta
correlación.
No debe entonces eliminarse más de una variable cada vez si se utilizan estos contrastes. Tras
eliminar una variable conviene reajustar el modelo y analizar la tabla nueva.
Tema 15. Regresión lineal múltiple 315
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT 2,26379 1,06007 2,13552 0,0441
Longitud Alambre 2,74427 0,0935238 29,343 0,0000
Altura Matriz 0,0125278 0,00279842 4,47675 0,0002
H 0 : 2 0,012
C t 0 t 0 , 025, 22 t0
0,0125278 0,012
0,1886
H 1 : i 0,012 0,00279842
El test entonces compara la variabilidad explicada con la no explicada o residual mediante el estadístico
SSR MSR H0
F k F
0 SSE k ,nk 1
n k 1 MSE
Se recopilan los cálculos en la denominada
TABLA ANOVA
SOURCE D.F. SS MSS F0 Prob. (p-valor)
Regression k SSR MSR MSR P(Fk,n-k-1>MSR/MSE)
MSE
Residual n-k-1 SSE MSE
Total corregida n-1 SSTm
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 5990,77 2 2995,39 572,17 0,0000
Residual 115,173 22 5,23516
Total (Corr.) 6105,94 24
Rango
Rango Conjunto Nota: Al calcular intervalos hay que tener en cuenta
de que no se debe extrapolar ya que la validez del modelo
X2 x02
puede estar restringida a la región donde están las
Extrapolación
observaciones originales. Además en una situación de
regresión múltiple es fácil extrapolar sin notarlo como
x01
ilustramos en este gráfico.
Rango de X1
Ejemplo:
Construir intervalos de confianza del 95% para la respuesta media y de predicción cuando
la longitud es 8 y la altura de la matriz es 200.
Studentized residual
2
-2
-4
0 20 40 60 80
predicted Resistencia
Residual Plot
Residual Plot
4
4
Studentized residual
Studentized residual
2
0
0
-2
-2
-4 -4
0 4 8 12 16 20 0 100 200 300 400 500 600
Longitud Alambre Altura Matriz
-2
-4
0 20 40 60 80
predicted Resistencia
Tema 15. Regresión lineal múltiple 322
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
-0,5
-1,5
-2,5
0 20 40 60 80
predicted Resistencia
Tema 15. Regresión lineal múltiple 323
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo:
En un artículo publicado por Kwan, Kowalski y Skogenboe en Journal of Agricultural and Food
Chemistry, Vol. 27, 1979 se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del
juicio de varios expertos se ha medido la “Calidad” de cada vino y se dispone de valores de 4
variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad) que pueden explicar dichos valores de calidad.
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 111,54 5 22,3081 16,51 0,0000
Residual 43,248 32 1,3515
Total (Corr.) 154,788 37
Backward elimination:
Este sería el modelo final. Notar que la variable Aroma que no era significativa en el modelo inicial sí
lo es ahora.
Forward selection:
Ninguna variable más es significativa al nivel 0.05 en presencia de “Flavor” con lo que el método
forward se detiene y la única variable que está en el modelo es “Flavor”.