Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Antología Didáctica de
Estadística II
Elaborada por:
Dr. Manuel Rocha Fuentes
Ing. Elvia Vázquez Cruz
I
Administración de Operaciones II
INSTITUTO TECNOLÓGICO DE DURANGO EDUCACIÓN A DISTANCIA
Créditos
Diseño:
Departamento de Pedagogía
II
Administración de Operaciones II
Contenido Estadística II
Créditos .................................................................................................................................... II
Unidad I.................................................................................................................................... 1
Regresión lineal simple y múltiple (RLS y RLM) ................................................................. 1
Regresión lineal .................................................................................................................... 2
Prueba de hipótesis en la regresión lineal simple ................................................................. 8
Calidad del ajuste en regresión lineal simple el método de análisis residual y la
prueba de la falta de ajuste .17
Estimación y predicción por intervalo en regresión lineal simple ........................................ 29
Regresión lineal múltiple ..................................................................................................... 36
Prueba de hipótesis en la regresión lineal múltiple ............................................................. 44
Intervalos de confianza en regresión lineal múltiple ............................................................ 52
Unidad II................................................................................................................................. 59
Diseño de experimentos de un factor ................................................................................. 59
¿Qué es el diseño experimental? ........................................................................................ 60
Principio para el diseño de experimentos............................................................................ 75
Análisis de varianza (ANOVA) ............................................................................................ 79
Comparaciones múltiples .................................................................................................... 92
Verificación de los supuestos del modelo ....................................................................... 1021
Elección del tamaño de la muestra ................................................................................. 1087
Estadística II
INSTITUTO TECNOLÓGICO DE DURANGO
Unidad I
Regresión lineal
Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.
Introducción
El análisis de regresión es una técnica estadística para modelar e investigar la relación entre
dos o más variables. Muy frecuentemente hay una sola variable aleatoria dependiente o
respuesta y que no se controla en el experimento que se denomina como y , que se
relaciona con k variables de regresión independientes o regresivas, que se denominan
x1 , x2 ,..., xk que se miden con error despreciable. Las x j se llaman variables matemáticas y
con frecuencia son controladas por el experimentador.
El análisis de regresión se utiliza en las situaciones en las que y , x1 , x2 ,..., xk son variables
aleatorias distribuidas conjuntamente.
La relación entre estas variables se caracteriza por medio de un modelo matemático llamado
ecuación de regresión, es decir hablamos de una regresión de y en x1 , x2 ,..., xk . Este
modelo de regresión se ajusta a un conjunto de datos experimentales y es una ecuación de
predicción.
En esta parte, se determina la relación entre una sola variable regresiva x y una variable de
respuesta y . La variable regresiva, es decir la variable independiente x se supone como
una variable matemática continua, controlable por el experimentador.
Los supuestos generales bajo el modelo del análisis de regresión que se presenta en esta
unidad, son:
Que la variable dependiente es una variable aleatoria y . Este supuesto indica que
aunque los valores de la variable independiente pueden controlarse, los valores de la
variable dependiente deben obtenerse mediante el proceso de muestreo aleatorio.
E( y x ) 0 1 x (F1)
Dónde:
0 Es la ordenada al origen.
1 Es la pendiente
Ambas son constantes desconocidas.
y 0 1 x
. Se tiene n pares de
2
donde es un error aleatorio con media cero y varianza
observaciones, por ejemplo ( y1 , x1 ) , ( y 2 , x2 ),..., ( y n , x n ) . Estos datos pueden emplearse para
estimar los parámetros desconocidos 0 y 1 , para ello se utilizará el método de mínimos
cuadrados, esto es, se estima 0 y 1 de manera que la suma de cuadrados de las
desviaciones entre las observaciones y la línea de regresión sean mínimas.
Para ello se utiliza el modelo de regresión lineal simple ajustado que es:
y 0 1 x (F2)
0 y 1 x (F3)
donde
y es la media de los valores de y
x es la media de los valores de x
0
es la ordenada al origen
n n
n
yi xi
i 1 i 1
y i xi
i 1 n (F6)
1 2
n
n
xi
2 i 1
x i
i 1 n
Las ecuaciones (F3) y (F6) son los estimadores por mínimos cuadrados de la ordenada al
origen y la pendiente respectivamente. Respecto a la notación, es conveniente dar símbolos
especiales al numerador y al denominador de la ecuación (F6), esto es:
1 S S xy xx
; (F7)
n
S xy yi xi x (F8)
i 1
n
2
S xx xi x (F9)
i 1
donde
1
es el estimador de mínimos cuadrados de la pendiente.
S xx es la suma corregida de los cuadrados
S xy es la suma corregida de productos cruzados de xy y
Temperatura Rendimiento
°C ( x ) % ( y)
100 45
110 51
120 54
130 61
140 66
150 70
160 74
170 78
180 85
190 89
Con estos datos se puede hacer el diagrama de dispersión rendimiento contra temperatura,
donde en el eje x se pone la temperatura y en el eje y el rendimiento. El examen de este
diagrama de dispersión indica que hay una fuerte relación entre el rendimiento y la
temperatura, y la suposición tentativa del modelo de línea recta razonable. Para calcular la
ecuación se utiliza la fórmula (F2).
y 0 1 x
x = 145
TABLA I Datos y cálculos para la solución del ejemplo 1 de RLS
Temperatura Rendimiento
°C ( x ) % ( y) (x x) y (x x) (x x) 2
S xy yx x 3985
S xx (x x) 2 8250
Con éstos dos valores se obtienen las estimaciones de mínimos cuadrados de la pendiente
con la fórmula (F7) y la ordenada al origen con la fórmula (F3):
1 S S
xy xx
3985 / 8250 .48303
Como ya se tienen los datos anteriores basta con sustituir en el modelo de regresión lineal
ajustado con la fórmula (F2):
y 0 1 x 2.73939 .48303x
El valor de la pendiente 1 .48303 es positivo, por lo que representa una relación directa
entre las dos variables, al aumentar x lo hace también y y viceversa, si el valor hubiera
sido negativo, indicaría una relación inversa entre x y y .
Una parte importante de la evaluación de la suficiencia del modelo de regresión lineal simple
es la prueba de hipótesis estadísticas en torno a los parámetros del modelo y la construcción
de ciertos intervalos de confianza.
H0 : 1 1 ,0
H1 : 1 1 ,0
Donde se supone una hipótesis alternativa de dos lados, ya que se está planteando con un
signo diferente la hipótesis alternativa. Entonces como resultado de la suposición de
normalidad, la estadística:
t0 1 1,0
(F10)
MSE / Sxx
donde
MS E
_ es la media del cuadrado del error y se calcula con
SS E
MS E ; (F11)
n 2
_
SS E es la suma de cuadrados del error y se calcula con
n
SS E = (y y)2 (F12)
i 1
n
S xx = ( xi x) 2 (F13)
i 1
sigue la distribución t con ( n 2 ) grados de libertad bajo H0 : 1 1,0
t0 t
2 ,n 2
Para probar:
H0 : 0 0 ,0
H1 : 0 0 ,0
t0 0 0,0
(F14)
MSE 1 x2
n Sxx
t0 t
2 ,n 2
H0 : 1 0
H1 : 1 0
Nótese que esto puede implicar ya sea que x es de poco valor en la explicación de la
variación en y y que el mejor estimador de y para cualquier x es y y (figura 1 inciso a)
o que la relación real entre x y y no es lineal (figura 1 inciso b). Alternativamente, si
H 0 0 se rechaza, entonces se está aceptando que es diferente a cero, y esto implica que
x es de valor en la explicación de la variabilidad en y . Esto se ilustra en la (figura 2). Sin
embargo, el rechazo de H0 : 1 0 podría significar que el modelo de línea recta es
adecuado (figura 2 inciso a), o que aun cuando hay un efecto lineal de x , podrían obtenerse
mejores resultados con la adición de términos de polinomio de mayor orden en x (figura 2
inciso b).
1) H0 : 1 0
2) H 1 : 1 0
3) Calcular el estadístico de prueba F0 , mediante la tabla de análisis de varianza.
REGRESION 1 MSR MS R
SS R 1 S xy MS E
ERROR n 2 MSE
RESIDUAL SS E S yy 1 S xy
2
S yy y y
TOTAL DE n 1
GRADOS
Para el cálculo de
SS R 1 S xy (F15)
n
S xy yi xi x (F8) y
i 1
n
2
S xx xi x (F9).
i 1
Para el cálculo de
SS R
MS R = (F16)
1
Para el cálculo de
SS E S yy - 1 S xy (F17)
se necesita
n
S yy ( yi y) 2 (F18)
i 1
1 S xy S xx (F7) y S xy yi xi x (F8).
i 1
Para el cálculo de
SS E
MS E (F19)
n 2
se necesita SS E S yy - 1 S xy (F17)
y n-2 donde n es el número de valores de x, y.
SS E
Para el cálculo de MS E
(F19) se necesita SS E S yy - 1 S xy (F17) y n-2 donde
n 2
n es el número de valores de x, y.
7.23
MS E 0.90
10 2
MS R SS R
Para el cálculo del estadístico de prueba F0 (F20) se necesita MS R =
MS E 1
SS E
(F16) y MS E (F19)
n 2
1924.87
F0 2138.74
0.90
Los grados de libertad del error se calculan con n 2 10 2 8
El grado de libertad de la regresión es 1
Con los datos anteriores se elabora la tabla de prueba para la significación de la regresión
correspondiente.
TOTAL S yy 1932.10 n 1 9
Análisis residual
Primero se definen los residuos como
i yi yi (F21)
e
dj (F22)
MS E
Figura 1. Patrones para las gráficas de los residuos. a) satisfactorio, b) embudo, c) doble arco, d) no lineal.
Resulta útil graficar los residuos (1) en secuencia de tiempo (si se conoce), (2) contra y y (3)
contra la variable independiente x . Estas gráficas suelen verse como una de los cuatro
Volviendo al ejemplo 1 de la lectura regresión lineal simple se calculan los residuos a partir
de los valores de y , y el valor de y , éste se calcula sustituyendo cada valor de x en la
ecuación de la línea recta:
y 2.73939 .48303 x
Para graficar en papel normal, se tiene que (F21) se determina el orden aleatoriamente, y los
residuos se organizan en orden ascendente y se calculan los puntos de probabilidad
acumulada.
( k 0.5 )
Pk (F23).
n
Con los datos del ejemplo 1 de la lectura regresión lineal simple, donde x es la temperatura
y y el rendimiento. Se elabora la siguiente tabla:
TABLA I.- Valores de Pk por100 y residuos ordenados para los datos del ejemplo 1 de RLS
Orden Pk por 100 y -2.73939+.48303x
Residuo Residuo
x y ordenado
(eje x ) y y ij
En el eje x se anotan los residuos, en la escala vertical derecha los valores de Pk por100 .
(1.12, 95)
(0.95, 85)
(0.80, 75)
(0.61, 65)
(0.29, 55)
(-0.03, 45)
(-54., 35)
(-0.56, 25)
(-1.22, 15)
(-1.38, 5)
Si la distribución de los errores es normal, esta gráfica se presenta como una línea
recta. Al visualizar dicha línea hay que poner más énfasis en los valores centrales de la
gráfica que en los extremos.
Los residuos se grafican en papel de probabilidad normal, se observa en la gráfica que los
residuos caen aproximadamente a lo largo de una línea recta y se concluye que no hay
desviación considerable de la normalidad, no hay insuficiencia seria del modelo.
Los modelos de regresión a menudo se ajustan a los datos cuando la verdadera relación
funcional se desconoce. Se desea conocer si el orden del modelo asumido en forma tentativa
es correcto y aquí se describe una prueba para la validez de esta suposición. El peligro de
utilizar un modelo de regresión que es una pobre aproximación de la verdadera relación
funcional, podemos observarlo en la siguiente figura:
Es claro que un polinomio de grado dos o mayor debe haberse utilizado en esta situación.
Para hacer esta prueba se divide la suma de cuadrados del error o del residuo de los
siguientes dos componentes:
SS E SS PE SS LOF (F24)
donde
SSPE es la suma de cuadrados atribuibles al error puro.
SS LOF es la suma de cuadrados atribuible a la falta de ajuste del modelo.
Para el calculo de SS PE
se debe tener observaciones repetidas en y para al menos un
nivel de x . Se supone que se tiene n observaciones en total tal que
Nótese que m niveles distintos de x . La contribución a la suma de cuadrados del error puro
en x1 por ejemplo sería
ni
( yiu y 1 )2
u 1
La suma de cuadrados total para el error puro se obtendría sumando la ecuación anterior
sobre todos los niveles de x como
m ni
SS PE ( yiu y i )2 (F25)
i 1u 1
MS LOF
F0 (F26)
MS PE
donde
SS LOF
MS LOF (F27)
m 2
SS PE
MS PE (F28)
n m
TABLA II.- Tabla de datos y cálculos para resolver la prueba de falta de ajuste para el ejemplo 2 de RLS.
x y _ _ _ _
(y y )2 (x x) y( x x) ( x x )2
y 2.847 _
x 4.38
Se calcula S yy
con la fórmula (F18):
_
S yy ( y y )2 S yy 10.97
S xx ( x x )2 51.94
Con estos datos se calcula la pendiente y la ordenada al origen con las fórmulas (F7) y (F3):
S xy 13.74 0.26 _
y
_
x = 2.847 (0.26) (4.38) =1.708
1 0 1
S xx 51.94
con lo que se obtiene que el modelo de regresión es y 1.70 0.26 x
Entonces 1 se puede sustituir en la suma de los cuadrados de la regresión y se obtiene con
la formula (F15):
SS R 1 S xy
SSR 3.57
A continuación, se calcula la suma de cuadrados del error puro del modo siguiente: se
observa en la columna de los valores de x , cuáles de éstos son los que se repiten, una vez
identificados se seleccionan y éstos forman los niveles de x ; para la siguiente columna
_
( y y )2 se necesita hacer lo siguiente: por ejemplo, si se tienen dos valores con un nivel
de 1, al cual corresponden dos valores de y iguales a 2.3 y 1.8; se calcula su media
respectiva, es decir en este caso (2.3 + 1.8 )/2 = 2.05 (ver datos ejemplo 2), enseguida se
hace la diferencia de cada valor de y con respecto a esta media y se eleva al cuadrado :
(2.3-2.05)2+(1.8-2.05) 2 = 0.1250; la siguiente columna la de los grados de libertad de cada
m
nivel, se obtienen con la fórmula de ne ( ni 1 ) , por ejemplo si hay 2 observaciones
i 1
provenientes del nivel 1, entonces ni 2 y ne ( 2 1 ) 1 y así sucesivamente. Con estas
referencias se obtiene la tabla III:
TABLA III .- Tabla de niveles de x, del error puro , número de valores en cada nivel y grados de libertad
para el ejemplo de la tabla II de RLS.
Nivel de x _ m Grados de libertad
(y y )2 ( ni 1)
1.0 .1250 2 1
3.3 1.8050 2 1
4.0 .1066 3 2
5.6 .9800 3 2
6.0 .0200 2 1
Totales 3.0366 ne ( ni 1) 7
SS PE
i 1 u 1
( yiu y)2
n 2 ne m 2
Por tanto
17 2 7 10 2 8
n 17
ne 7
m 10
SS LOF SS PE
MS LOF MSPE
m 2 ne
MS 3.0366
4.36 PE
7
MS LOF
8
MS PE .4338
MS LOF .545
n e se obtiene de la tabla de niveles.
MS LOF
Finalmente F 0 se calcula con la fórmula F 0 (F26)
MS PE
F .545
0
.4338
F 0 1.2563
TABLA V . Resultados obtenidos en el análisis de varianza y prueba de falta de ajuste para los
datos de la tabla II.
FUENTE DE SUMA DE GRADOS DE MEDIA F0
VARIACION CUADRADOS LIBERTAD CUADRÁTICA
REGRESION 3.5724 1 3.5724 7.2418
RESIDUAL 7.40 15 0.4933
FALTA DE 4.3534 8 .5454 1.26
AJUSTE
ERROR PURO 3.0366 7 .4338
TOTAL 10.970 16
Cuando se ajusta un modelo de regresión a los datos experimentales, una buena práctica es
utilizar el modelo de grado más bajo que describa de manera adecuada los datos. La prueba
de la falta de ajuste puede ser útil respecto a esto. Sin embargo, siempre es posible ajustar
un polinomio de grado n a a n puntos dato, y la persona que lleva a cabo el análisis
debe considerar no emplear un modelo que esté saturado, es decir que tenga tantas
variables independientes como observaciones en y .
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.
2
1 x
( 1 1 ) / MS E / S xx y ( 0 0 ) / MS E
n S xx
MS E MS E
1 t / 2 ,n 2 1 1 t / 2, n 2 (F29)
S xx S xx
_2 _2
1 x 1 x
0 t / 2 ,n 2 MS E 0 0 t / 2 ,n 2 MS E (F30)
n S xx n S xx
MS E MS E
1 t / 2 ,n 2 1 1 t / 2 ,n 2 (Ver tabla)
S xx S xx
.90 .90
.48303 2.306 1 .48303 2.306
8250 8250
45894 1 .50712
_2 _2
1 x 1 x
0 t / 2 ,n 2 MS E 0 0 t / 2 ,n 2 MS E
n S xx n S xx
_ 2 _ 2
1 145 1 145
2.7393 2.306 .90 0 2.7393 2.306 .90
10 8250 10 8250
6.26 0 0.8207
se puede obtener una estimación puntual de ( y x0 ) a partir del modelo ajustado como
( y x0 ) y0 0 1 x0
_
2 1 ( x0 x )2
V ( y0 )
n S xx
_ _
1 ( x 0 x) 2 1 ( x 0 x) 2
y0 t / 2, n 2 MS E E ( y | x0 ) y 0 t / 2, n 2 MS E (F31)
n S xx n S xx
Figura 1. Un intervalo de confianza del 95% en torno a la línea de regresión para el ejemplo 1 de la lectura de regresión
lineal simple.
Los valores ajustados de y 0 y los correspondientes límites de confianza del 95% para los
puntos x0 xi ,i 1,2,.....,10 se presentan en la tabla siguiente.
Para explicar cómo se utilizó esta tabla, podemos encontrar el intervalo de confianza del 95%
en la media real del rendimiento del proceso en x0 140 C , con la fórmula (F31):
x0 140
y 2.73939 .48303 x0
y 64.88
t / 2, n 2 = t.05 / 2 ,10 2 2.306
MS E 0.90
n 10
x 145
S xx 8250
1 ( 140 145 )
64.88 2.306 0.90 E ( y | x0 140 )
10 8250
por tanto
este es el intervalo de confianza del 95% de la media real del rendimiento del proceso en;
x0 140 C ; es decir el intervalo de confianza del 95% en torno a la línea de regresión.
y0 0 1 x0 (F32)
Luego se obtiene una estimación de intervalo de esta observación futura de y0 . Esta nueva
observación es independiente de las observaciones utilizadas para desarrollar el modelo de
regresión. En consecuencia, el intervalo en torno a la línea de regresión, visto anteriormente
es inapropiado, puesto que es neutral solo en los datos empleados para ajustar el modelo de
y0 y0
2 2
V( ) V ( y0 y0 ) 1 1/ n x0 x / S xx
_ _
1 ( x0 x )2 1 ( x0 x )2
y0 t / 2 ,n 2 MS E 1 y0 y0 t / 2 ,n 2 MS E 1 (F33)
n S xx n S xx
_ _
2 2
1 1 ( x 0 x) 1 1 ( x 0 x)
y0 t / 2, n 2 MS E y0 y0 t / 2, n 2 MS E (F34)
k n S xx k n S xx
Si se usan los datos del ejemplo 1 de la lectura de Regresión lineal simple para calcular el
intervalo de predicción del 95% en la siguiente observación respecto al rendimiento del
proceso en x0 160 A C . En este caso se utiliza la fórmula (F33) del intervalo de
predicción respecto a observaciones futuras.
_ _
1 ( x0 x) 2 1 ( x0 x) 2
y0 t / 2, n 2 MS E 1 y0 y0 t / 2, n 2 MS E 1
n S xx n S xx
71.21 y0 76.89
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.
La regresión múltiple comprende tres o más variables. Existe una sola variable dependiente,
pero hay dos o más de tipo independiente (explicativo). La teoría es una extensión de un
análisis de regresión lineal simple. Una vez más se refiere al desarrollo de una ecuación que
se puede utilizar para predecir valores de y, respecto a valores dados de las diferentes
variables independientes. El objeto de las variables independientes adicionales es
incrementar la capacidad predictiva sobre la de la regresión lineal simple. Sin embargo,
intervienen considerablemente los métodos computacionales, o las calculadoras grafica-
doras.
Las técnicas de los mínimos cuadrados se utilizan para obtener la ecuación de regresión,
aun cuando, desde un punto de vista práctico, es sumamente deseable obtener soluciones
calculadas, lo que se debe al hecho de que aun problemas muy sencillos requieren cálculos
bastantes complicados. La ecuación de regresión tiene la forma
Y 0 x
1 1 x
2 2 ..... K xK
donde
0
- es la ordenada en el origen.
los valores de las 1 hasta K - son las pendientes.
k - es el número de variables independientes.
En tanto que un análisis de regresión simple de dos variables da lugar a la ecuación de una
recta, un problema de tres variables produce un plano y un problema de k variables implica
un hiperplano de a( k 1 ) dimensiones. El hiperplano de k variables no permite una
representación gráfica, pero, dado que el plano de tres variables si lo hace y que los
conceptos son idénticos, la explicación se enfocará aquí en problemas de 3 o 4 variables.
En la siguiente figura se ilustra un plano de regresión. Los puntos que se tienen como datos
se dispersarán respecto del plano, más que de una línea de regresión. Una vez más, cuanto
menor sea la dispersión, mejor será el ajuste y, por tanto, más exactas serán las
predicciones.
A continuación se mencionan ejemplos de algunas situaciones en las que puede ser útil la
regresión múltiple.
El modelo de regresión múltiple que involucra más de una variable regresora, se llama
modelo de regresión múltiple. Un modelo de regresión múltiple que podría describir esta
relación es
Y 0 x
1 1 2 x2 (F1)
aunque sobre ciertos intervalos de las variables independientes el modelo de regresión lineal
es una aproximación adecuada.
y x1 x2 xk
yn xn 1 xn 2 xnk
En general, cualquier modelo de regresión que es lineal en los parámetros (los valores) es un
modelo de regresión lineal, sin importar la forma de la superficie que genera.
y x (F2)
donde
SS E (y Xb ) ( y X )
No se presentan los detalles relacionados con las soluciones de las ecuaciones anteriores. El
resultado se reduce a la solución de b en ( X X ) X y
se observa la naturaleza de la matriz X .El elemento inicial del i-ésimo renglón representa los
valores de x que dan lugar a la respuesta yi
Al escribir
n n n
n xi 1 xi 2 ... xi k
i 1 i 1 i 1 X X es una
n n n n matriz simétrica
A X X xi 1 x 2 i1 xi 1 xi 2 ... xi 1 xi k ( pxp )
i 1 i 1 i 1 i 1
n n n n
xi k xi k xi 1 xi k xi 2 ... x 2 i k
i 1 i 1 i 1 i 1
n
g0 yi
i 1
n
g1 xi1 yi
i 1
e y y (F3)
y x1 x2 x3
(% sobrevivencia) (peso) (peso) (peso)
25.5 1.74 5.30 10.80
31.2 6.32 5.42 9.40
25.9 6.22 8.41 7.20
38.4 10.52 4.63 8.50
18.4 1.19 11.60 9.40
26.7 1.22 5.85 9.90
26.4 4.10 6.62 8.00
25.9 6.32 8.72 9.10
n
yi
n n n i 1
0
n x i1 x i2 ... xik n
i 1 i 1 i 1 x i1 y i
n n n n 1 i 1
x i1 x 2 i1 x i1 x i 2 ... x i1 x i k . .
i 1 i 1 i 1 i 1
n n n n
. .
2
xik x i k x i1 x i k x i2 ... x ik n
i 1 i 1 i 1 i 1 k x i k yi
i 1
X X b X' y
n( 0 ) x1 ( 1 ) x2 ( 2 ) x3 ( 3 ) yi
2
x1 ( 0 ) x1 ( 1 ) x1 x2 ( 2 ) x1 x3 ( 3 ) x1 y
2
x2 ( 0 ) x1 x2 ( 1 ) x2 ( 2 ) x2 x3 ( 3 ) x2 y
2
x3 ( 0 ) x3 x1 ( 1 ) x3 x 2 ( 2 ) x3 ( 3 ) x3 y
Una vez que se obtienen estas sumatorias se sustituyen en las ecuaciones y se obtiene
(X X ) ( ) X y
13 59.43 81.82 115.4 0 377.5
59.43 394.7255 360.6621 522.078 1 1877.567
81.82 360.6621 576.7264 728.31 2 2246.661
115.4 522.078 728.31 1035.96 3 3337.780
0 39.15734995
1 1.016100441
2 1.861649203
3 0.3432604926
y y0 1 x1 + 2
x 2+ 3 x3
Para el uso de la calculadora ClassPad 300 ver Tutorial de RLM para obtener los coeficientes
de regresión del plano de regresión múltiple.
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.
La prueba de significación de regresión es para determinar si hay una relación lineal entre la
variable dependiente y y un subconjunto de las variables independientes x1 , x2 ,.........., xk .
Las hipótesis apropiadas son
H0 : 1 2 ..... k 0
H1 : j 0 j
S yy SS R SS E (F4)
donde
Problema:
Pruebe la significación de la regresión, empleando los datos de tiempo de entrega del
ejemplo 1 de la lectura Regresión lineal múltiple.
n 2
yi
i 1
SS R X y (F5)
n
donde
= 39.1574 1.0161 1.8616 0.3433 . Estos son los resultados de los coeficientes de
regresión obtenidos en la calculadora ClassPad 300.
377.5
1877.567
X y=
2246.661
3337.780
n 2
yi
(377.5) 2
i 1
= = 10962.0192
n 13
sustituyendo
377.5
1877.567 (377.5) 2
39.1574 1.0161 1.8616 0.3433
2246.661 13
3337.780
Calculo de SS R
n 2
yi
i 1
SS R X y
n
SS R 11361.4703 10962.0192 399.4511
Para realizar el producto de X ' y consulte el Tutorial de ClassPad 300 para productos
de matrices.
Calculo de SS E
SS E S yy SS R (F4)
SS E yy X'y (F6)
donde
S yy SS SS
R E
399 .4511 38.68 (F4)
S yy
438.1311
n número de datos = 13
k número de variables regresoras o independientes = 3
n k 1 13 3 1 9
n 1 13 1 12
Calculo de MS R , MS E y F0 :
MSR SS R (F7)
k
399.4511
MS R 133.1504
3
MS E SS E (F8)
n k 1
38.68
MS E 3.868
10
MS R
F0 (F9)
MS E
133 .1504
F0
3.868
F0 34.4236
TABLA II.- Tabla de ANOVA para la significación de la regresión múltiple del ejemplo 1 de la lectura RLM
Fuente de Suma de Grados de Media F0
variación cuadrados libertad cuadrática
Regresión 399.4511 3 133.1504 34.4236
Error o 38.68 13-3=10 3.868
residuo
Total 438.1311 13-1=12
1) H0 : 1 2 3 0
2) H a : j 0 al menos para una j
3) El estadístico de prueba F0 valor obtenido en la tabla de ANOVA
F0 34.4236
4) Obtención de Fcritico F ,k ,n k 1 F.05,3,13 3 1 F.05, 3,9 3.86 (Ver tabla).
Consultar tabla
F0.05 , v1 , v2
el nivel de significación es 0.05
los grados de libertad del numerador son 3
los grados de libertad del denominador son 9
5) Aplicación del criterio de rechazo.
El criterio de rechazo se presenta si F0 F ,k ,n k 1
es decir en este caso 34.4236 3.86
rechazo la H 0 ; y acepto la hipótesis alternativa: H a , 1 2 3
Con frecuencia interesa probar hipótesis de prueba respecto a los coeficientes individuales
de regresión. Tales pruebas serían útiles en la determinación del valor de cada una de las
variables independientes en el modelo de regresión. Por ejemplo, el modelo podría ser más
eficaz con la inclusión de variables adicionales, o quizá con la omisión de una o más
variables ya en el modelo.
j
t0 2
(F10)
C jj
1) H 0 : 2 0
2) H1 : 2 0
1
El elemento principal de la diagonal de ( X X )
0
80648 0.0826 0.0942 0.7905
1 0.0826 0.0085 0.0017 0.0037 1
( X ´X )
0.0942 0.0017 C 22 0.0166 0.0021 2
0.7905 0.0037 0.0021 0.0886
3
1
Consultar Tutorial de la calculadora ClassPad 300 para obtener ( X X )
j 1.8616 1.8616
t0 2
6.9697055
2 2 4.2977( 0.0166 ) 0.2670988
C jj C jj
Para calcular
2 SS E (F11)
n p
donde
SS E
en la tabla ANOVA es 38.68 , y se divide entre n p,
k - es el número de variables independientes = 3
n- es el número de valores = 13
p k 1
p = 3+ 1= 4
n p = 13 4 9
2 SS E 2 38.68
4.2977
n p 9
4) Obtención del valor crítico de t / 2 ,n k 1 t.05 / 2 ,13 3 1 t.025,9 2.262 . (Ver tabla). Consultar
la tabla .
t0 t / 2 ,n k 1
6.9697055 2.26
Con frecuencia es necesario construir estimaciones del intervalo de confianza para los
coeficientes de regresión j
. El desarrollo para obtener estos intervalos de confianza
requiere suponer que los errores i se distribuyen normal e independientemente con media
cero y varianza 2
. Por tanto, las observaciones yi se distribuyen normal e
independientemente con media cero y varianza 2 . Puesto que el estimador de mínimos
cuadrados es una combinación lineal de las observaciones, resulta que se distribuye
2
normalmente con media vectorial y matriz de covarianza ( X X ) 1.
Entonces cada una de las estadísticas
j j
j 0 ,1,........,K
2
C jj
2 2
j t / 2 ,n p C jj j j t / 2,n p C jj (F12)
el elemento diagonal de ( X X ) 1
correspondiente a 1 que en este caso es C11 .0085 .
2 SS E
La estimación de es: de 4.297, calculado con la formula (F11) MS E ,y t / 2, n p
n p
es igual a t.025,13 4 2.262. Entonces el intervalo de confianza en 1 se calcula a partir de la
formula (F12).
1
De la matriz ( X ' X ) se elige el C jj , es decir el elemento jjésimo de la matriz es decir el
elemento diagonal correspondiente a 1, que en este caso es C11 0.0085 .
2
La estimación de se obtiene con la fórmula:
2 SS E
(F13)
n p
377 .5
1877 .567
SS E
11400 .15 39 .1573 1.0161 1.8616 0.3433
2246 .661
3337 .780
2 SS E
n p
2 38.68
= 4.2977
13 4
De acuerdo con la formula (F12) el intervalo de confianza del 95% respecto al parámetro
1 1.01600441
t / 2,n p
es igual a t .025 ,13 4 2.262 (Ver tabla). Entonces, el intervalo de confianza del 95%
respecto al parámetro 1
se calcula a partir de la fórmula (F12):
1.016100441 0.4321485 1 1.01610044 0.4321485
0.5839519 1 1.4482489
y0 x0 (F15)
Por tanto el intervalo de confianza del 100( 1 ) por ciento respecto a la respuesta
media en el punto x01 , x02 , xok es
2
y0 t / 2 ,n p x0 ( X X ) 1 x0 E( y0 ) y0 t / 2 ,n p
2
x0 ( X X ) 1 x0 (F14)
EJEMPLO
Del ejemplo 1 de regresión lineal múltiple construir un intervalo de confianza del 95%
respecto al tiempo de entrega media para una salida que requiere
x1 3%, x2 8%, x3 9% .
1
3
x0
8
9
y0 x0 con la formula (F15)
39 .1574
1.0161
y0 1 3 8 9
1.8616
0.3433
y0 24.2231
Ver Tutorial para obtener producto de matrices: x' o y 2
x10 (x' x) 1 x0 en la calculadora
ClassPad 300
la varianza de y se estima mediante
8.0648 0.0826 0.0942 0.7905 1
2 x (X X ) 1x 0.0826 0.0085 0.0017 0.0037 3
0 0 4.2977 1 3 8 9 x 0.5849
0.0942 0.0017 0.0166 0.0021 8
0.7905 0.0037 0.0021 0.0886 9
por tanto, un intervalo de confianza del 95% en el tiempo de entrega media en este punto de
acuerdo a la fórmula (F15) del intervalo de confianza es:
2
y0 t / 2 ,n p x0 ( X X ) 1 x0 E( y0 ) y0 t / 2 ,n p
2
x0 ( X X ) 1 x0
t / 2,n p t.05 / 2 ,13 4 t.025,9
y0 x0
Un intervalo de predicción del 100( 1 ) por ciento para esta observación futura es
2
y0 t / 2 ,n p ( 1 x0 ( X X ) 1 x0 ) y0 y0 t / 2 ,n p
2
( 1 x0 ( X X ) 1 x0 ) (F16)
Este intervalo de predicción es una generalización del intervalo de predicción para una
observación futura en regresión lineal simple.
EJEMPLO
Con los datos del ejemplo 1 de regresión lineal múltiple, construya un intervalo de predicción
de 95% para una respuesta individual del porcentaje de Sobrevivencia cuando
x1 3%, x2 8%, x3 9%.
2
y0 t / 2 ,n p ( 1 x0 ( X X ) 1 x0 ) y0 y0 t / 2 ,n p
2
( 1 x0 ( X X ) 1 x0 )
donde
39.1574
1.0161
y0 x0 1 3 8 9 24 .2231
1.8616
0.3433
2
t / 2 ,n p t.025,13 4 t.025,9 2.262 4.2977
2
( 1 x0 ( X X ) 1 x0 )
x0 ( X X ) 1 x0 0.1275 .
2
( 1 x0 ( X X ) 1 x0 )
4.2977(1 0.1275) (4.2977)(1.1275) 4.84565675
2.2012
2
y0 t / 2 ,n p ( 1 x0 ( X X ) 1 x0 ) y0 y0 t / 2 ,n p
2
( 1 x0 ( X X ) 1 x0 )
24.2231 2.262 4.84565675 y0 24.2231 2.262 4.84565675