Está en la página 1de 61

INSTITUTO TECNOLÓGICO DE DURANGO EDUCACIÓN A DISTANCIA

Antología Didáctica de

Estadística II

Elaborada por:
Dr. Manuel Rocha Fuentes
Ing. Elvia Vázquez Cruz

Instituto Tecnológico de Durango


Educación a Distancia

I
Administración de Operaciones II
INSTITUTO TECNOLÓGICO DE DURANGO EDUCACIÓN A DISTANCIA

Créditos

La Antología Didáctica de Estadística II es


un documento de trabajo propiedad del

Instituto Tecnológico de Durango


División de Educación a Distancia

Blvd. Felipe Pescador 1830 Ote. Elaborada por:


Durango, Dgo. C.P. 34080 Dr. Manuel Rocha Fuentes
Tel. 01 (618) 884 05 98 Ing. Elvia Vázquez Cruz
e-mail: informes@itdadistancia.tv

Impreso en Durango Digitalización de Textos:


Septiembre 2008 L.I. Gabriela Reyes Berumen

Diseño:
Departamento de Pedagogía

El contenido de la Antología Didáctica es


Diseño Gráfico:
responsabilidad de los profesores titulares
I. S. C. Julio César Macías Roldán
que la elaboraron

II
Administración de Operaciones II
Contenido Estadística II

Créditos .................................................................................................................................... II

Unidad I.................................................................................................................................... 1
Regresión lineal simple y múltiple (RLS y RLM) ................................................................. 1
Regresión lineal .................................................................................................................... 2
Prueba de hipótesis en la regresión lineal simple ................................................................. 8
Calidad del ajuste en regresión lineal simple el método de análisis residual y la
prueba de la falta de ajuste .17
Estimación y predicción por intervalo en regresión lineal simple ........................................ 29
Regresión lineal múltiple ..................................................................................................... 36
Prueba de hipótesis en la regresión lineal múltiple ............................................................. 44
Intervalos de confianza en regresión lineal múltiple ............................................................ 52

Unidad II................................................................................................................................. 59
Diseño de experimentos de un factor ................................................................................. 59
¿Qué es el diseño experimental? ........................................................................................ 60
Principio para el diseño de experimentos............................................................................ 75
Análisis de varianza (ANOVA) ............................................................................................ 79
Comparaciones múltiples .................................................................................................... 92
Verificación de los supuestos del modelo ....................................................................... 1021
Elección del tamaño de la muestra ................................................................................. 1087

Unidad III.............................................................................................................................. 113


Diseño de bloques .............................................................................................................. 113
Diseño de bloques............................................................................................................. 114
Diseño cuadrado latino ..................................................................................................... 126
Diseño cuadrado grecolatino ............................................................................................. 134

Unidad IV ............................................................................................................................. 139


Introducción a los diseños factoriales.............................................................................. 139
Conceptos básicos en diseños factoriales ........................................................................ 140
Diseños factoriales con dos factores ................................................................................. 144
Diseños factoriales con tres factores................................................................................. 151
Diseño factorial general..................................................................................................... 157
Modelos de efectos aleatorios ........................................................................................... 161

Estadística II
INSTITUTO TECNOLÓGICO DE DURANGO

Unidad I

Guía Didáctica de Estadística II 1


INSTITUTO TECNOLÓGICO DE DURANGO

Regresión lineal
Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.

Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.

Regresión línea simple (RLS)

Guía Didáctica de Estadística II 2


INSTITUTO TECNOLÓGICO DE DURANGO

Introducción
El análisis de regresión es una técnica estadística para modelar e investigar la relación entre
dos o más variables. Muy frecuentemente hay una sola variable aleatoria dependiente o
respuesta y que no se controla en el experimento que se denomina como y , que se
relaciona con k variables de regresión independientes o regresivas, que se denominan
x1 , x2 ,..., xk que se miden con error despreciable. Las x j se llaman variables matemáticas y
con frecuencia son controladas por el experimentador.

El análisis de regresión se utiliza en las situaciones en las que y , x1 , x2 ,..., xk son variables
aleatorias distribuidas conjuntamente.
La relación entre estas variables se caracteriza por medio de un modelo matemático llamado
ecuación de regresión, es decir hablamos de una regresión de y en x1 , x2 ,..., xk . Este
modelo de regresión se ajusta a un conjunto de datos experimentales y es una ecuación de
predicción.

1.1 Regresión lineal simple

En esta parte, se determina la relación entre una sola variable regresiva x y una variable de
respuesta y . La variable regresiva, es decir la variable independiente x se supone como
una variable matemática continua, controlable por el experimentador.

Los supuestos generales bajo el modelo del análisis de regresión que se presenta en esta
unidad, son:
Que la variable dependiente es una variable aleatoria y . Este supuesto indica que
aunque los valores de la variable independiente pueden controlarse, los valores de la
variable dependiente deben obtenerse mediante el proceso de muestreo aleatorio.

Se supone que la verdadera relación entre y y x es una línea recta, y que la


observación y en cada nivel de x es una variable aleatoria. Luego, el valor esperado
de y para cada valor de x es

E( y x ) 0 1 x (F1)
Dónde:
0 Es la ordenada al origen.
1 Es la pendiente
Ambas son constantes desconocidas.

Se supone que cada observación y puede describirse mediante el modelo

y 0 1 x

Guía Didáctica de Estadística II 3


INSTITUTO TECNOLÓGICO DE DURANGO

. Se tiene n pares de
2
donde es un error aleatorio con media cero y varianza
observaciones, por ejemplo ( y1 , x1 ) , ( y 2 , x2 ),..., ( y n , x n ) . Estos datos pueden emplearse para
estimar los parámetros desconocidos 0 y 1 , para ello se utilizará el método de mínimos
cuadrados, esto es, se estima 0 y 1 de manera que la suma de cuadrados de las
desviaciones entre las observaciones y la línea de regresión sean mínimas.

Para ello se utiliza el modelo de regresión lineal simple ajustado que es:

y 0 1 x (F2)

0 y 1 x (F3)

donde
y es la media de los valores de y
x es la media de los valores de x

0
es la ordenada al origen

1 es la pendiente de la ecuación de la línea recta

n n

n
yi xi
i 1 i 1
y i xi
i 1 n (F6)
1 2
n

n
xi
2 i 1
x i
i 1 n

Las ecuaciones (F3) y (F6) son los estimadores por mínimos cuadrados de la ordenada al
origen y la pendiente respectivamente. Respecto a la notación, es conveniente dar símbolos
especiales al numerador y al denominador de la ecuación (F6), esto es:

1 S S xy xx
; (F7)

n
S xy yi xi x (F8)
i 1

Guía Didáctica de Estadística II 4


INSTITUTO TECNOLÓGICO DE DURANGO

n
2
S xx xi x (F9)
i 1

donde
1
es el estimador de mínimos cuadrados de la pendiente.
S xx es la suma corregida de los cuadrados
S xy es la suma corregida de productos cruzados de xy y

EJEMPLO 1: Regresión lineal simple

Un ingeniero químico está investigando el efecto de la temperatura de operación de procesos


en el rendimiento del producto. El estudio da como resultado los siguientes datos:

Temperatura Rendimiento
°C ( x ) % ( y)

100 45
110 51
120 54
130 61
140 66
150 70
160 74
170 78
180 85
190 89

Con estos datos se puede hacer el diagrama de dispersión rendimiento contra temperatura,
donde en el eje x se pone la temperatura y en el eje y el rendimiento. El examen de este
diagrama de dispersión indica que hay una fuerte relación entre el rendimiento y la
temperatura, y la suposición tentativa del modelo de línea recta razonable. Para calcular la
ecuación se utiliza la fórmula (F2).

y 0 1 x

De aquí se calculan las siguiente sumatorias:

Guía Didáctica de Estadística II 5


INSTITUTO TECNOLÓGICO DE DURANGO

xi 1450 Esta sumatoria es la de la temperatura.

yi 673 Esta sumatoria es la del rendimiento.

x 145 Es la media de x , es la sumatoria de la columna x divida entre n 10

y 67.3 Esta es la media de y , es la sumatoria de la columna y dividida entre n 10

Teniendo estas sumatorias se puede encontrar S xy


y S xx
con las fórmulas (F8) y (F9) con

x = 145
TABLA I Datos y cálculos para la solución del ejemplo 1 de RLS
Temperatura Rendimiento
°C ( x ) % ( y) (x x) y (x x) (x x) 2

100 45 -45 -2025 2025


110 51 -35 -1785 1225
120 54 -25 -1350 625
130 61 -15 -915 225
140 66 -5 -330 25
150 70 5 350 25
160 74 15 1110 225
170 78 25 1950 625
180 85 35 2975 1225
190 89 45 4005 2025
1450 673 S xy =3985 S xx =8250

S xy yx x 3985

S xx (x x) 2 8250

Con éstos dos valores se obtienen las estimaciones de mínimos cuadrados de la pendiente
con la fórmula (F7) y la ordenada al origen con la fórmula (F3):

1 S S
xy xx
3985 / 8250 .48303

0 y 1 x 67.3 (. 48303 )145 2.73939

Guía Didáctica de Estadística II 6


INSTITUTO TECNOLÓGICO DE DURANGO

Como ya se tienen los datos anteriores basta con sustituir en el modelo de regresión lineal
ajustado con la fórmula (F2):

y 0 1 x 2.73939 .48303x

El valor de la pendiente 1 .48303 es positivo, por lo que representa una relación directa
entre las dos variables, al aumentar x lo hace también y y viceversa, si el valor hubiera
sido negativo, indicaría una relación inversa entre x y y .

Para la obtención de valores 0 y 1 en la calculadora ClassPad 300 de Casio, consulte el


Tutorial de RLS para obtener la ordenada al origen y la pendiente de la ecuación de
regresión lineal simple.

Guía Didáctica de Estadística II 7


INSTITUTO TECNOLÓGICO DE DURANGO

Prueba de hipótesis en la regresión lineal simple


Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial Continental S.A. de C.V. 1993.

Guía Didáctica de Estadística II 8


INSTITUTO TECNOLÓGICO DE DURANGO

Prueba de hipótesis en la regresión lineal simple

Una parte importante de la evaluación de la suficiencia del modelo de regresión lineal simple
es la prueba de hipótesis estadísticas en torno a los parámetros del modelo y la construcción
de ciertos intervalos de confianza.

Cuando se prueban hipótesis respecto a la pendiente y la ordenada al origen del modelo de


regresión, debemos hacer la suposición adicional de que la componente del error i se
distribuye normalmente.
Se supone que se desea probar la hipótesis de que la pendiente es igual a una constante,
digamos 1,0 Las hipótesis apropiadas son:

H0 : 1 1 ,0

H1 : 1 1 ,0

Donde se supone una hipótesis alternativa de dos lados, ya que se está planteando con un
signo diferente la hipótesis alternativa. Entonces como resultado de la suposición de
normalidad, la estadística:

t0 1 1,0
(F10)
MSE / Sxx
donde

MS E
_ es la media del cuadrado del error y se calcula con

SS E
MS E ; (F11)
n 2

Guía Didáctica de Estadística II 9


INSTITUTO TECNOLÓGICO DE DURANGO

_
SS E es la suma de cuadrados del error y se calcula con

n
SS E = (y y)2 (F12)
i 1

n
S xx = ( xi x) 2 (F13)
i 1
sigue la distribución t con ( n 2 ) grados de libertad bajo H0 : 1 1,0

Se rechaza la hipótesis nula H 0 : 1 1 ,0 si

t0 t
2 ,n 2

Se puede emplear un procedimiento similar para probar hipótesis respecto a la ordenada al


origen.

Para probar:

H0 : 0 0 ,0

H1 : 0 0 ,0

En este caso se utiliza la siguiente estadística:

t0 0 0,0
(F14)
MSE 1 x2
n Sxx

y se rechaza la hipótesis nula si

t0 t
2 ,n 2

Un caso muy especial de la hipótesis es cuando se formula la hipótesis de la siguiente


manera:

H0 : 1 0

Guía Didáctica de Estadística II 10


INSTITUTO TECNOLÓGICO DE DURANGO

H1 : 1 0

Cuando se formula de esta manera la hipótesis se relaciona con la significación de la


regresión. Si no se rechaza la hipótesis nula, quiere decir que se está aceptando y equivale
a concluir que no hay regresión lineal entre x y y . Esta situación se ilustra en la figura 1.

Figura 1. La hipótesis H0 : 1 0 no se rechaza.

Nótese que esto puede implicar ya sea que x es de poco valor en la explicación de la
variación en y y que el mejor estimador de y para cualquier x es y y (figura 1 inciso a)
o que la relación real entre x y y no es lineal (figura 1 inciso b). Alternativamente, si
H 0 0 se rechaza, entonces se está aceptando que es diferente a cero, y esto implica que
x es de valor en la explicación de la variabilidad en y . Esto se ilustra en la (figura 2). Sin
embargo, el rechazo de H0 : 1 0 podría significar que el modelo de línea recta es
adecuado (figura 2 inciso a), o que aun cuando hay un efecto lineal de x , podrían obtenerse
mejores resultados con la adición de términos de polinomio de mayor orden en x (figura 2
inciso b).

Figura 2. La hipótesis H0 : 1 0 se rechaza.

Guía Didáctica de Estadística II 11


INSTITUTO TECNOLÓGICO DE DURANGO

El procedimiento para probar hipótesis acerca de la significación de la regresión es el


siguiente:

1) H0 : 1 0
2) H 1 : 1 0
3) Calcular el estadístico de prueba F0 , mediante la tabla de análisis de varianza.

TABLA I.- Análisis de varianza para probar la significación de la regresión.

FUENTE DE SUMA DE GRADOS MEDIA F0


VARIACION CUADRADOS DE CUADRATICA
LIBERTAD

REGRESION 1 MSR MS R
SS R 1 S xy MS E

ERROR n 2 MSE
RESIDUAL SS E S yy 1 S xy

2
S yy y y
TOTAL DE n 1
GRADOS

4) Calcular el valor crítico de F ,1,n 2


.
5) Aplicar el criterio de rechazo de la H 0 :
F0 F ,1,n 2

Para el cálculo de
SS R 1 S xy (F15)

se necesita el valor de 1 S xy S xx (F7),

Guía Didáctica de Estadística II 12


INSTITUTO TECNOLÓGICO DE DURANGO

n
S xy yi xi x (F8) y
i 1
n
2
S xx xi x (F9).
i 1

Para el cálculo de
SS R
MS R = (F16)
1

se necesita el valor de SS R 1 S xy (F15).

Para el cálculo de
SS E S yy - 1 S xy (F17)
se necesita
n
S yy ( yi y) 2 (F18)
i 1

1 S xy S xx (F7) y S xy yi xi x (F8).
i 1

Para el cálculo de
SS E
MS E (F19)
n 2

se necesita SS E S yy - 1 S xy (F17)
y n-2 donde n es el número de valores de x, y.

Para el cálculo del estadístico de prueba


MS R
F0 (F20)
MS E
SS R SS E
se necesita MS R = (F16) y MS E (F19).
1 n 2

Guía Didáctica de Estadística II 13


INSTITUTO TECNOLÓGICO DE DURANGO

A continuación se realiza la prueba de significación de la regresión del modelo ajustado


anterior: y 2.73939 .48303 x del ejemplo 1 de la lectura de Regresión Lineal Simple.
TABLA II.- Datos y cálculos necesarios para la prueba de significación de la regresión
del ejemplo 1 de RLS.
Temperatura Rendimiento
°C ( x ) % ( y) (x x) y (x x) (x x) 2 (y y) 2

100 45 -45 -2025 2025 497.29


110 51 -35 -1785 1225 265.69
120 54 -25 -1350 625 176.89
130 61 -15 -915 225 39.69
140 66 -5 -330 25 1.69
150 70 5 350 25 7.29
160 74 15 1110 225 44.89
170 78 25 1950 625 114.49
180 85 35 2975 1225 313.29
190 89 45 4005 2025 470.89
1450 673 S xy =3985 S xx =8250 S yy =1932.10
1) H0 : 1 0
2) H 1 : 1 0
3) Calcular el estadístico de prueba F0 , mediante la tabla de análisis de varianza.

Para el cálculo de SS R 1 S xy (F15) , se necesitan los valores de


n

1 S xy S xx = .48303 (F7) y S xy y i xi x = 3985 (F8)


i 1
SS R (.48303)(3985) 1924.87
SS R
Para el cálculo de MS R = (F16), se necesita el valor de
1
SS R 1 S xy =1924.87 (F15).
1924.87
MS R = = 1924.87
1

Guía Didáctica de Estadística II 14


INSTITUTO TECNOLÓGICO DE DURANGO

Para el cálculo de SS E S yy - 1 S xy (F17) , se necesitan los valores de


n
S yy ( yi y ) 2 = 1932.10 (F18), 1 S xy S xx = .48303 (F7) y
i 1
n
S xy yi xi x = 3985 (F8).
i 1

SSE 1932.10 - .48303 (3985) = 7.23

este valor se puede obtener también con la formula (F12)


n
SSE (y y )2
i 1

SS E
Para el cálculo de MS E
(F19) se necesita SS E S yy - 1 S xy (F17) y n-2 donde
n 2
n es el número de valores de x, y.

7.23
MS E 0.90
10 2
MS R SS R
Para el cálculo del estadístico de prueba F0 (F20) se necesita MS R =
MS E 1
SS E
(F16) y MS E (F19)
n 2
1924.87
F0 2138.74
0.90
Los grados de libertad del error se calculan con n 2 10 2 8
El grado de libertad de la regresión es 1

Con los datos anteriores se elabora la tabla de prueba para la significación de la regresión
correspondiente.

TABLA III.- Análisis de varianza para probar que H0 : 1 0 y H1 : 1 0


FUENTE DE SUMA DE GRADOS DE MEDIA F0
VARIACION CUADRADOS LIBERTAD CUADRATICA

REGRESIÓN SS R 1924.87 1 MS R 1924.87 2138.74

ERROR SS E 7.23 n 2 8 MS E 0.90

Guía Didáctica de Estadística II 15


INSTITUTO TECNOLÓGICO DE DURANGO

TOTAL S yy 1932.10 n 1 9

4) Calculo del valor crítico de F con F ,1 ,n 2 F .01,1,10 2 11.26 .(ver tabla)


5) Aplicar el criterio para rechazar la H 0 , éste se presenta si F0 F ,1,n 2
en este caso
F 0 2138.74 y F ,1 ,n 2 11.26 , por tanto F 0 es mayor, que F , 1, n 2 ,
F .01,1,10 2
entonces se rechaza la hipótesis nula y se acepta la H i : 1 0 , lo que indica que si
hay regresión lineal entre x y y.

Calidad del ajuste en regresión lineal simple


el método de análisis residual y la prueba de la falta
de ajuste
Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.
Montogomery Douglas C., Diseño y Análisis de Experimentos, versión en español, México,
Editorial lberoaméricana S.A. de C: V: 1991.
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.

Guía Didáctica de Estadística II 16


INSTITUTO TECNOLÓGICO DE DURANGO

Calidad del ajuste en regresión lineal simple


El método de análisis residual y la prueba de la falta de ajuste

El ajuste de un modelo de regresión requiere varias suposiciones, tales como que la


estimación de los parámetros del modelo requiere la suposición de que los errores son
variables aleatorias no correlacionadas con media cero y varianza constante. Las
pruebas de hipótesis y la estimación del intervalo requieren que los errores se distribuyan
normalmente. Y además que el orden del modelo sea correcto, es decir, que si se ajusta un
polinomio de primer orden, entonces se supone que el fenómeno se comporta en realidad en
un modo de primer orden.
Dado que la persona que está llevando el análisis debe dudar de la validez de estas
suposiciones, es necesario realizar un análisis para examinar la adecuación del modelo que
se ha considerado, estos métodos son el análisis residual y la prueba de falta de ajuste.

Análisis residual
Primero se definen los residuos como

i yi yi (F21)

donde i 1,2 ,......n , y es una observación y y es el valor estimado correspondiente a


partir del modelo de regresión. El análisis de residuos es con frecuencia útil en la
confirmación de la suposición de que los errores a son NID ( 0 , 2 ) y en la determinación de
si los términos adicionales en el modelo serían de utilidad.
Para verificar la aproximación de la normalidad, el experimentador construye un histograma
de frecuencias de los residuos o los grafica en papel de probabilidad normal. Para esto es
preciso un juicio que valore la falta de normalidad de tales gráficas. También se puede
estandarizar los residuos calculando:

Guía Didáctica de Estadística II 17


INSTITUTO TECNOLÓGICO DE DURANGO

e
dj (F22)
MS E

Si los errores son ( 0 , 2 ) , entonces aproximadamente el 95% de los residuos


estandarizados deben caer en el intervalo (-2, +2). Los residuos que caen fuera de este
intervalo pueden indicar la presencia de un punto alejado, esto es, una observación que no
es típica del resto de los datos. Se han propuesto varias reglas para descartar puntos
alejados. Pero se tiene que tomar en cuenta que algunas veces estos puntos brindan
información importante acerca de circunstancias poco usuales de interés para el
experimentador y no deben descartarse.

Figura 1. Patrones para las gráficas de los residuos. a) satisfactorio, b) embudo, c) doble arco, d) no lineal.

Resulta útil graficar los residuos (1) en secuencia de tiempo (si se conoce), (2) contra y y (3)
contra la variable independiente x . Estas gráficas suelen verse como una de los cuatro

Guía Didáctica de Estadística II 18


INSTITUTO TECNOLÓGICO DE DURANGO

patrones generales de las figuras siguientes. En a) se representa una situación normal.


Mientras que en (b), (c) y (d) representan anomalías. Si los residuos aparecen como en (b),
entonces la varianza de las observaciones puede incrementarse con el tiempo o con la
magnitud de las yi ó xi . Si una gráfica de residuos contra el tiempo aparece como en el
inciso (b), entonces la varianza de las observaciones se incrementa con el tiempo. Las
gráficas contra y i ó xi en (c) indican también desigualdad de varianza. Las gráficas de los
residuos que se observan como en (d) indican la insuficiencia del modelo; hay términos de
mayor orden que deben ser añadidos al modelo.

Volviendo al ejemplo 1 de la lectura regresión lineal simple se calculan los residuos a partir
de los valores de y , y el valor de y , éste se calcula sustituyendo cada valor de x en la
ecuación de la línea recta:
y 2.73939 .48303 x
Para graficar en papel normal, se tiene que (F21) se determina el orden aleatoriamente, y los
residuos se organizan en orden ascendente y se calculan los puntos de probabilidad
acumulada.

( k 0.5 )
Pk (F23).
n
Con los datos del ejemplo 1 de la lectura regresión lineal simple, donde x es la temperatura
y y el rendimiento. Se elabora la siguiente tabla:

TABLA I.- Valores de Pk por100 y residuos ordenados para los datos del ejemplo 1 de RLS
Orden Pk por 100 y -2.73939+.48303x
Residuo Residuo
x y ordenado
(eje x ) y y ij

1 5 100 45 45.56 -1.38 -0.56


2 15 110 51 50.39 -1.22 0.61
3 25 120 54 55.22 -.056 -1.22
4 35 130 61 60.05 -0.55 0.95
5 45 140 66 64.88 -0.04 1.12
6 55 150 70 69.71 0.28 0.29
7 65 160 74 74.54 0.61 -0.54
8 75 170 78 79.38 0.79 -1.38
9 85 180 85 84.20 0.95 0.80
10 95 190 89 89.03 1.12 -0.03

En el eje x se anotan los residuos, en la escala vertical derecha los valores de Pk por100 .

Guía Didáctica de Estadística II 19


INSTITUTO TECNOLÓGICO DE DURANGO

Donde k es el orden y n es el número de puntos. La gráfica de probabilidad normal


aparece a continuación:

(1.12, 95)

(0.95, 85)

(0.80, 75)

(0.61, 65)

(0.29, 55)
(-0.03, 45)

(-54., 35)

(-0.56, 25)

(-1.22, 15)

(-1.38, 5)

Figura 2. Gráfica de probabilidad normal de residuos .

Guía Didáctica de Estadística II 20


INSTITUTO TECNOLÓGICO DE DURANGO

Si la distribución de los errores es normal, esta gráfica se presenta como una línea
recta. Al visualizar dicha línea hay que poner más énfasis en los valores centrales de la
gráfica que en los extremos.
Los residuos se grafican en papel de probabilidad normal, se observa en la gráfica que los
residuos caen aproximadamente a lo largo de una línea recta y se concluye que no hay
desviación considerable de la normalidad, no hay insuficiencia seria del modelo.

Prueba de la falta de ajuste

Los modelos de regresión a menudo se ajustan a los datos cuando la verdadera relación
funcional se desconoce. Se desea conocer si el orden del modelo asumido en forma tentativa
es correcto y aquí se describe una prueba para la validez de esta suposición. El peligro de
utilizar un modelo de regresión que es una pobre aproximación de la verdadera relación
funcional, podemos observarlo en la siguiente figura:

Figura 3.Un modelo de regresión que presenta falta de ajuste.

Es claro que un polinomio de grado dos o mayor debe haberse utilizado en esta situación.

En este subtema se presenta una prueba modelo de


regresión, donde las hipótesis se plantean de la siguiente manera:
H 0 : el modelo ajusta adecuadamente a los datos.

Guía Didáctica de Estadística II 21


INSTITUTO TECNOLÓGICO DE DURANGO

H 1 : el modelo no ajusta a los datos.

Para hacer esta prueba se divide la suma de cuadrados del error o del residuo de los
siguientes dos componentes:

SS E SS PE SS LOF (F24)

donde
SSPE es la suma de cuadrados atribuibles al error puro.
SS LOF es la suma de cuadrados atribuible a la falta de ajuste del modelo.
Para el calculo de SS PE
se debe tener observaciones repetidas en y para al menos un
nivel de x . Se supone que se tiene n observaciones en total tal que

y11, y12, ..., y1 n1 Observaciones repetidas en x1


y21 , y22 ,......,y2 n2 Observaciones repetidas en x2
.
. .
. .
ym1 , ym2 ,.....,ymnm Observaciones repetidas en xm

Nótese que m niveles distintos de x . La contribución a la suma de cuadrados del error puro
en x1 por ejemplo sería

ni
( yiu y 1 )2
u 1

La suma de cuadrados total para el error puro se obtendría sumando la ecuación anterior
sobre todos los niveles de x como

m ni
SS PE ( yiu y i )2 (F25)
i 1u 1

Hay ne ( ni 1 ) n m grados de libertad asociados con la suma de cuadrados del error


puro. La suma de cuadrados para la falta de ajuste es simplemente SS LOF SS E SS PE
despejado de la formula (F24)

Con n 2 ne m 2 grados de libertad. La estadística de prueba para la falta de ajuste


sería entonces

Guía Didáctica de Estadística II 22


INSTITUTO TECNOLÓGICO DE DURANGO

MS LOF
F0 (F26)
MS PE
donde
SS LOF
MS LOF (F27)
m 2

SS PE
MS PE (F28)
n m

El criterio de rechazo se presenta si F0 F ,m 2 ,n m


. Este procedimiento de prueba puede
introducirse con facilidad en el análisis de varianza conducido para la significación de la
regresión. Si se rechaza la hipótesis nula de la suficiencia del modelo, éste debe
abandonarse y debe encontrarse un modelo más apropiado. Si H 0 no se rechaza, es decir si
se acepta, no hay razón aparente para dudar de la suficiencia del modelo, es decir el modelo
ajusta adecuadamente a los datos y MS PE y MS LOF se combinan a menudo para estimar
2
.

Se tiene el siguiente ejemplo, con los siguientes datos:

TABLA II.- Tabla de datos y cálculos para resolver la prueba de falta de ajuste para el ejemplo 2 de RLS.
x y _ _ _ _
(y y )2 (x x) y( x x) ( x x )2
y 2.847 _
x 4.38

1 1.0 2.3 0.2916 -3.38 -7.77 11.42


2 1.0 1.8 1.0816 -3.38 -6.084 11.42
3 2.0 2.8 0.0016 -2.38 -6.664 5.66
4 3.3 1.8 1.0816 -1.08 -19.44 1.17
5 3.3 3.7 0.7396 -1.08 -3.996 1.17
6 4.0 2.6 0.0576 -0.38 -0.988 0.14
7 4.0 2.6 0.0576 -0.38 -0.988 0.14
8 4.0 2.2 0.4096 -0.38 -0.836 0.14
9 4.7 3.2 0.1296 0.32 1.024 0.10
10 5.0 2.0 0.7056 0.62 1.24 0.38
11 5.6 3.5 0.4356 1.22 4.27 1.49
12 5.6 2.8 0.0016 1.22 3.1416 1.49
13 5.6 2.1 0.5476 1.22 2.562 1.49
14 6.0 3.4 0.3136 1.62 5.508 2.62
15 6.0 3.2 0.1296 1.62 5.184 2.62
16 6.5 3.4 0.3136 2.12 7.208 4.49

Guía Didáctica de Estadística II 23


INSTITUTO TECNOLÓGICO DE DURANGO

17 6.9 5.0 4.6656 2.52 12.60 6.35


x 74.46 y 48.4 S yy 10.97 S xy 13.74 S xx 51.94

x 74.46 / 17 4.38 y 48.4 / 17 2.847


xy 225.73 x2 378.81 y 2 148.76

Se calcula S yy
con la fórmula (F18):
_

S yy ( y y )2 S yy 10.97

Se calcula S xy con la fórmula (F8):


_
S xy y(x x)
S xy 13.74

Se calcula S xx con la fórmula (F9):


_

S xx ( x x )2 51.94

Con estos datos se calcula la pendiente y la ordenada al origen con las fórmulas (F7) y (F3):

S xy 13.74 0.26 _
y
_
x = 2.847 (0.26) (4.38) =1.708
1 0 1
S xx 51.94
con lo que se obtiene que el modelo de regresión es y 1.70 0.26 x
Entonces 1 se puede sustituir en la suma de los cuadrados de la regresión y se obtiene con
la formula (F15):

SS R 1 S xy

SSR (.260) (13.74)

SSR 3.57

Guía Didáctica de Estadística II 24


INSTITUTO TECNOLÓGICO DE DURANGO

A continuación, se calcula la suma de cuadrados del error puro del modo siguiente: se
observa en la columna de los valores de x , cuáles de éstos son los que se repiten, una vez
identificados se seleccionan y éstos forman los niveles de x ; para la siguiente columna
_
( y y )2 se necesita hacer lo siguiente: por ejemplo, si se tienen dos valores con un nivel
de 1, al cual corresponden dos valores de y iguales a 2.3 y 1.8; se calcula su media
respectiva, es decir en este caso (2.3 + 1.8 )/2 = 2.05 (ver datos ejemplo 2), enseguida se
hace la diferencia de cada valor de y con respecto a esta media y se eleva al cuadrado :
(2.3-2.05)2+(1.8-2.05) 2 = 0.1250; la siguiente columna la de los grados de libertad de cada
m
nivel, se obtienen con la fórmula de ne ( ni 1 ) , por ejemplo si hay 2 observaciones
i 1
provenientes del nivel 1, entonces ni 2 y ne ( 2 1 ) 1 y así sucesivamente. Con estas
referencias se obtiene la tabla III:

TABLA III .- Tabla de niveles de x, del error puro , número de valores en cada nivel y grados de libertad
para el ejemplo de la tabla II de RLS.
Nivel de x _ m Grados de libertad
(y y )2 ( ni 1)
1.0 .1250 2 1
3.3 1.8050 2 1
4.0 .1066 3 2
5.6 .9800 3 2
6.0 .0200 2 1
Totales 3.0366 ne ( ni 1) 7

Guía Didáctica de Estadística II 25


INSTITUTO TECNOLÓGICO DE DURANGO

El análisis de varianza se resume en la tabla siguiente.

TABLA IV.- Análisis de varianza para el ejemplo de la tabla II


FUENTE SUMA DE CUADRADOS GRADOS DE MEDIA F0
DE LIBERTAD CUADRÁTICA
VARIACIÒN
1
REGRESIÓN
SS R 1 S xy MS R SS R MS R
1 MS E
n 2 SS E
RESIDUAL
SS E S yy 1 S xy MS E
n 2
FALTA DE SS LOF SS E SS PE m 2 SS LOF MS LOF
AJUSTE MS LOF
m 2 MS PE
n ni _ m
SS PE
ERROR
PURO SS PE ( yiu y) ne ( ni 1) MS PE
i 1u 1 i 1 ne
TOTAL S yy SS R SS E
A partir de esta tabla se retoman las fórmulas (F15), (F17), (F25), (F24) y se hacen los
cálculos correspondientes.

SS R 1 S xy ( 0.26 )( 13.74 ) 3.5724


SS E S yy 1 S xy 10.97 ( 0.26 )( 13.74 ) 7.40
m ni

SS PE
i 1 u 1
( yiu y)2

SS PE suma de cuadrados del error puro


SS PE 3.03 dato obtenido de la tabla IV de niveles.
SS LOF SS E SS PE

SS LOF suma de cuadrados para la falta de ajuste


SS LOF 7.40 3.0366
SS LOF 4.36

En cuanto a los grados de libertad de la falta de ajuste se calculan con la fórmula de


n 2 ne m 2 donde:
n - es el número total de datos; n 17
ne - es la sumatoria de los grados de libertad de los niveles
m - es la sumatoria del número de niveles, número de valores diferentes que asume x.

Guía Didáctica de Estadística II 26


INSTITUTO TECNOLÓGICO DE DURANGO

n 2 ne m 2
Por tanto
17 2 7 10 2 8
n 17
ne 7
m 10

MS LOF y MS PE se obtienen de las formulas (F27) y (F28)

SS LOF SS PE
MS LOF MSPE
m 2 ne
MS 3.0366
4.36 PE
7
MS LOF
8
MS PE .4338
MS LOF .545
n e se obtiene de la tabla de niveles.
MS LOF
Finalmente F 0 se calcula con la fórmula F 0 (F26)
MS PE
F .545
0
.4338
F 0 1.2563

Se integran los resultados obtenidos en la tabla V.

TABLA V . Resultados obtenidos en el análisis de varianza y prueba de falta de ajuste para los
datos de la tabla II.
FUENTE DE SUMA DE GRADOS DE MEDIA F0
VARIACION CUADRADOS LIBERTAD CUADRÁTICA
REGRESION 3.5724 1 3.5724 7.2418
RESIDUAL 7.40 15 0.4933
FALTA DE 4.3534 8 .5454 1.26
AJUSTE
ERROR PURO 3.0366 7 .4338
TOTAL 10.970 16

Guía Didáctica de Estadística II 27


INSTITUTO TECNOLÓGICO DE DURANGO

Para calcular el valor crítico F ,m 2 ,n m .


El nivel de significancia es de 0.25 y los grados de libertad son m-2 para la falta de ajuste y
n-m para el error puro.
m 10
m 2 10 2 8
n 17
n m 17 10 7
Por tanto, para encontrar el valor crítico de F ,m 2,n m
se entra con los siguientes valores:
F.25 ,8 ,7 1.70 , (ver tabla) se compara con F0
1.26 que es el valor del estadístico de
prueba obtenido, no se puede aplicar el criterio de rechazo: F0 F , m 2, n m , por lo tanto
se acepta la H0 : El modelo ajusta adecuadamente a los datos.
En seguida se puede hacer la prueba de significación de la regresión de la siguiente manera:
1) H0 : 1 0
2) H 1 : 1 0
3) F0 7.2418
4) Fcrítico F ,1 ,n 2 F.05,1,15 4.54 (ver tabla)
5) Se aplica el criterio de rechazo: F0 F ,1, n 2
por tanto 7.24 >4.54 y se rechaza la
H0 : 1 0 y se acepta H 1 : 1 0 , lo que indica que si hay una regresión entre las
variables x y y , también la pendiente puede asumir valores diferentes a cero, es decir
posee cierta inclinación y los puntos están muy alejados del eje x .

Cuando se ajusta un modelo de regresión a los datos experimentales, una buena práctica es
utilizar el modelo de grado más bajo que describa de manera adecuada los datos. La prueba
de la falta de ajuste puede ser útil respecto a esto. Sin embargo, siempre es posible ajustar
un polinomio de grado n a a n puntos dato, y la persona que lleva a cabo el análisis
debe considerar no emplear un modelo que esté saturado, es decir que tenga tantas
variables independientes como observaciones en y .

Guía Didáctica de Estadística II 28


INSTITUTO TECNOLÓGICO DE DURANGO

Estimación y predicción por intervalo en regresión


lineal simple
Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.

Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.

Estimación y predicción por intervalo


en regresión lineal simple

Estimación de intervalos en la regresión lineal simple


Además de la estimación puntual de la pendiente y la ordenada al origen, se puede obtener
estimación del intervalo de confianza de estos parámetros. El ancho de estos intervalos de
confianza es una media de la calidad total de la línea de regresión. Si las i se distribuyen
normal e independientemente, entonces

2
1 x
( 1 1 ) / MS E / S xx y ( 0 0 ) / MS E
n S xx

Se distribuyen como t con n 2 grados de libertad. En consecuencia, un intervalo de


confianza del 100 ( 1 ) por ciento en la pendiente 1 esta dado por

Guía Didáctica de Estadística II 29


INSTITUTO TECNOLÓGICO DE DURANGO

MS E MS E
1 t / 2 ,n 2 1 1 t / 2, n 2 (F29)
S xx S xx

De manera similar, un intervalo de confianza del 100 ( 1 ) por ciento en la ordenada al


origen es

_2 _2
1 x 1 x
0 t / 2 ,n 2 MS E 0 0 t / 2 ,n 2 MS E (F30)
n S xx n S xx

Se tiene el siguiente ejemplo:

Se determina un intervalo de confianza del 95% en la pendiente de la línea de regresión


empleando los datos del ejemplo 1 de las lecturas Regresión lineal simple y Prueba de
hipótesis en la regresión lineal simple en donde t / 2,n 2 t.05 / 2,10 2 2.306 (Ver tabla)

1 .48303 , y MS E .90 , t / 2,n 2 t.05 / 2,10 2 2.306, entonces el intervalo


S xx 8250
alrededor de la pendiente de acuerdo con la fórmula (F29) es:

MS E MS E
1 t / 2 ,n 2 1 1 t / 2 ,n 2 (Ver tabla)
S xx S xx
.90 .90
.48303 2.306 1 .48303 2.306
8250 8250

45894 1 .50712

O . 2.7393 S xx 8250 MS E .90 t / 2,n 2


t.05 / 2,10 2
2.306, entonces el intervalo
alrededor del Origen de acuerdo con la fórmula (F30) es:

Guía Didáctica de Estadística II 30


INSTITUTO TECNOLÓGICO DE DURANGO

_2 _2
1 x 1 x
0 t / 2 ,n 2 MS E 0 0 t / 2 ,n 2 MS E
n S xx n S xx

_ 2 _ 2

1 145 1 145
2.7393 2.306 .90 0 2.7393 2.306 .90
10 8250 10 8250

6.26 0 0.8207

Se puede calcular un intervalo de confianza para la respuesta media en una x especificada,


por ejemplo x0 Éste es un intervalo de confianza en torno a ( y x0 ) y a menudo se llama
intervalo de confianza en torno a la línea de regresión. Puesto que ( y x0 ) 0 x ,
1 0

se puede obtener una estimación puntual de ( y x0 ) a partir del modelo ajustado como

( y x0 ) y0 0 1 x0

Entonces y0 es un estimador puntual insesgado de ( y x0 ) , puesto que 0 y 1 son


estimadores insesgados de 0 y 1 . La varianza de y0 es

_
2 1 ( x0 x )2
V ( y0 )
n S xx

Y y 0 se distribuye normalmente, ya que 0 y 1 se distribuyen de ese mismo modo. Por


tanto, un intervalo de confianza del 100 ( 1 ) por ciento alrededor de la línea de
regresión verdadera en x x0 puede calcularse a partir de

Guía Didáctica de Estadística II 31


INSTITUTO TECNOLÓGICO DE DURANGO

_ _
1 ( x 0 x) 2 1 ( x 0 x) 2
y0 t / 2, n 2 MS E E ( y | x0 ) y 0 t / 2, n 2 MS E (F31)
n S xx n S xx

Luego el ancho del intervalo de confianza para ( y x0 ) es una función de x0 .


_
El ancho del intervalo es un mínimo para x0 x y se ensancha conforme x0 x aumenta.

Figura 1. Un intervalo de confianza del 95% en torno a la línea de regresión para el ejemplo 1 de la lectura de regresión
lineal simple.

Los valores ajustados de y 0 y los correspondientes límites de confianza del 95% para los
puntos x0 xi ,i 1,2,.....,10 se presentan en la tabla siguiente.

TABLA I.-Intervalo de confianza en torno a la línea de regresión, del ejemplo 1 de RLS.


x0 100 110 120 130 140 150 160 170 180 190
y 2.73939 .48303 x
45.56 50.39 55.22 60.05 64.88 69.72 74.55 79.38 84.21 89.04

Limites de .93 .79 .71 .71 .79 .93


confianza 1.30 1.10 1.10 1.30
del 95%

Guía Didáctica de Estadística II 32


INSTITUTO TECNOLÓGICO DE DURANGO

Para explicar cómo se utilizó esta tabla, podemos encontrar el intervalo de confianza del 95%
en la media real del rendimiento del proceso en x0 140 C , con la fórmula (F31):
x0 140
y 2.73939 .48303 x0
y 64.88
t / 2, n 2 = t.05 / 2 ,10 2 2.306
MS E 0.90
n 10
x 145
S xx 8250

1 ( 140 145 )
64.88 2.306 0.90 E ( y | x0 140 )
10 8250

por tanto

64.88 .71 E ( y | x0 140 ) 64.88 .71


64.17 E ( y | x0 140 ) 65.49

este es el intervalo de confianza del 95% de la media real del rendimiento del proceso en;
x0 140 C ; es decir el intervalo de confianza del 95% en torno a la línea de regresión.

Predicción de nuevas observaciones

Una aplicación importante del análisis de regresión es predecir nuevas o futuras


observaciones y correspondientes a un nivel especificado de la variable regresiva x . Si x0
es el valor de la variable regresiva de interés, entonces

y0 0 1 x0 (F32)

Es la estimación puntual del nuevo o futuro valor de la respuesta y0

Luego se obtiene una estimación de intervalo de esta observación futura de y0 . Esta nueva
observación es independiente de las observaciones utilizadas para desarrollar el modelo de
regresión. En consecuencia, el intervalo en torno a la línea de regresión, visto anteriormente
es inapropiado, puesto que es neutral solo en los datos empleados para ajustar el modelo de

Guía Didáctica de Estadística II 33


INSTITUTO TECNOLÓGICO DE DURANGO

regresión. El intervalo de confianza en torno a la línea de regresión se refiere a la respuesta


media verdadera en x x0 (esto es, un parámetro de población), no a observaciones futuras.

Sea y0 la observación futura en x x0 y sea y0 dada por la ecuación de la línea recta el


estimador de y0 . Nótese la variable aleatoria.

y0 y0

Se distribuye normalmente con media cero y varianza

2 2
V( ) V ( y0 y0 ) 1 1/ n x0 x / S xx

Debido a que y0 es independiente de y 0 . Entonces el intervalo de predicción del 100


(1 ) por ciento respecto a observaciones futuras en x0 es

_ _
1 ( x0 x )2 1 ( x0 x )2
y0 t / 2 ,n 2 MS E 1 y0 y0 t / 2 ,n 2 MS E 1 (F33)
n S xx n S xx

Aquí se puede notar que el intervalo de predicción es de un ancho mínimo en x0 x y se


_
ensancha a medida que x0 x aumenta. Si se compara la ecuación anterior con la del

intervalo de E( y x0 ) siempre es más ancho que el intervalo de confianza en x0 . Esto es


porque el intervalo de predicción depende tanto del error del modelo estimado como del error
asociado con las observaciones futuras. ( 2 ) .

Se puede también encontrar un intervalo de predicción del 100 ( 1 ) por ciento en la


_
media de k observaciones futuras en x x0 . Sea y 0 la media de k observaciones
futuras en x x0 . El intervalo de predicción del 100 ( 1 ) por ciento en y es

_ _
2 2
1 1 ( x 0 x) 1 1 ( x 0 x)
y0 t / 2, n 2 MS E y0 y0 t / 2, n 2 MS E (F34)
k n S xx k n S xx

Guía Didáctica de Estadística II 34


INSTITUTO TECNOLÓGICO DE DURANGO

Si se usan los datos del ejemplo 1 de la lectura de Regresión lineal simple para calcular el
intervalo de predicción del 95% en la siguiente observación respecto al rendimiento del
proceso en x0 160 A C . En este caso se utiliza la fórmula (F33) del intervalo de
predicción respecto a observaciones futuras.

_ _
1 ( x0 x) 2 1 ( x0 x) 2
y0 t / 2, n 2 MS E 1 y0 y0 t / 2, n 2 MS E 1
n S xx n S xx

1 ( 160 145 )2 1 ( 160 145 )2


74.55 2.306 .90 1 y0 74.55 2.306 .90 1
10 8250 10 8250

Que se simplifica en:

71.21 y0 76.89

Guía Didáctica de Estadística II 35


INSTITUTO TECNOLÓGICO DE DURANGO

Regresión lineal múltiple


(RLM)
Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.

Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.

Guía Didáctica de Estadística II 36


INSTITUTO TECNOLÓGICO DE DURANGO

Regresión lineal múltiple

La regresión múltiple comprende tres o más variables. Existe una sola variable dependiente,
pero hay dos o más de tipo independiente (explicativo). La teoría es una extensión de un
análisis de regresión lineal simple. Una vez más se refiere al desarrollo de una ecuación que
se puede utilizar para predecir valores de y, respecto a valores dados de las diferentes
variables independientes. El objeto de las variables independientes adicionales es
incrementar la capacidad predictiva sobre la de la regresión lineal simple. Sin embargo,
intervienen considerablemente los métodos computacionales, o las calculadoras grafica-
doras.

Las técnicas de los mínimos cuadrados se utilizan para obtener la ecuación de regresión,
aun cuando, desde un punto de vista práctico, es sumamente deseable obtener soluciones
calculadas, lo que se debe al hecho de que aun problemas muy sencillos requieren cálculos
bastantes complicados. La ecuación de regresión tiene la forma

Y 0 x
1 1 x
2 2 ..... K xK

donde

0
- es la ordenada en el origen.
los valores de las 1 hasta K - son las pendientes.
k - es el número de variables independientes.
En tanto que un análisis de regresión simple de dos variables da lugar a la ecuación de una
recta, un problema de tres variables produce un plano y un problema de k variables implica
un hiperplano de a( k 1 ) dimensiones. El hiperplano de k variables no permite una
representación gráfica, pero, dado que el plano de tres variables si lo hace y que los
conceptos son idénticos, la explicación se enfocará aquí en problemas de 3 o 4 variables.

En la siguiente figura se ilustra un plano de regresión. Los puntos que se tienen como datos
se dispersarán respecto del plano, más que de una línea de regresión. Una vez más, cuanto
menor sea la dispersión, mejor será el ajuste y, por tanto, más exactas serán las
predicciones.

A continuación se mencionan ejemplos de algunas situaciones en las que puede ser útil la
regresión múltiple.

Guía Didáctica de Estadística II 37


INSTITUTO TECNOLÓGICO DE DURANGO

VARIABLE DEPENDIENTE VARIABLE INDEPENDIENTE


(PREDICTORA)
Cosechas Cantidad de fertilizante, lluvia, tipo de suelo.
Salario anual Años en al compañía, escolaridad.

Dureza del acero Tiempo de recocido, contenido de carbono,


índice de enfriamiento.
Resistencia del concreto a la compresión. Composición, tiempo de curado, temperatura
promedio de curado.
Distancia de frenado de un automóvil Velocidad, coeficiente de rozamiento de la
superficie de la carretera y llantas, tiempo de
reacción.
Volumen de ventas Gastos de publicidad, precio.
Demanda de carne de pollo Precio de la carne de res, de la de cerdo, de
la de pescado.

Generalmente el problema que se presenta en el análisis de regresión lineal múltiple es el


cómo seleccionar las muchas variables explicativas posibles que se pueden utilizar.
Idealmente se quiere lograr la mayor relación explicativa, con el menor número posible de
variables independientes, debido principal-mente las limitaciones prácticas de costo en la
recopilación de datos en lo relativo a muchas variables, debido a requisitos de observaciones
adicionales para compensar la pérdida de grados de libertad adicionales que resultan de
sumar más variables independientes.

Existen muchos fenómenos en la ciencia y en la ingeniería que son inherentemente no


lineales por naturaleza y, cuando se conoce la estructura real, desde luego se debe hacer un
intento para ajustar el modelo presente.

El modelo de regresión múltiple que involucra más de una variable regresora, se llama
modelo de regresión múltiple. Un modelo de regresión múltiple que podría describir esta
relación es

Y 0 x
1 1 2 x2 (F1)

debido a que la ecuación anterior es la función lineal de los parámetros desconocidos


0 , 1, 2
. Nótese que el modelo describe un plano en el espacio bidimensional x1 , x2 . El
parámetro 0 define la ordenada al origen del plano. Algunas veces llamamos a 1 y 2
coeficientes de regresión parciales, porque 1 mide el cambio esperado en y por cambio
unitario en x1 cuando x2 se mantiene constante, y 2 mide el cambio esperado en y por
cambio unitario en x2 cuando x1 se mantiene constante.

Los modelos de regresión lineal múltiple se utilizan a menudo como funciones de


aproximación. Esto es, la verdadera relación funcional entre y y x1 , x2 ,.....xk se desconoce,

Guía Didáctica de Estadística II 38


INSTITUTO TECNOLÓGICO DE DURANGO

aunque sobre ciertos intervalos de las variables independientes el modelo de regresión lineal
es una aproximación adecuada.

Datos para la regresión lineal múltiple

y x1 x2 xk

y1 x11 x12 x1k


y2 x21 x22 x2k
. . . .
. . . .

yn xn 1 xn 2 xnk

En general, cualquier modelo de regresión que es lineal en los parámetros (los valores) es un
modelo de regresión lineal, sin importar la forma de la superficie que genera.

Modelo de regresión lineal con el uso de matrices

Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número de variables


pasa de dos, el conocimiento de la teoría matricial puede facilitar las manipulaciones
matemáticas de forma considerable. Suponga que el experimentador tiene k variables
independientes x1 , x2 ,.....,xk y n observaciones y1 , y2 ,.....,yn , cada una de las cuales se
pueden expresar por la ecuación yi 0 1 x1i 2 x2 i ... k xk i i
.
Este modelo en esencia representa n ecuaciones que describen cómo se generan los
valores de respuesta en el proceso científico. Con el uso de la notación matricial, se puede
escribir la ecuación:

y x (F2)

Guía Didáctica de Estadística II 39


INSTITUTO TECNOLÓGICO DE DURANGO

donde

y1 1 x11 x12 ... x1k 0


1
y2 1 x21 x22 ... x2 k 1
2
. . . . .
y x 2
.
. . . . . .
.
. . . . . .
n
yn 1 xn 1 xn 2 ... xnk k

Entonces la solución de mínimos cuadrados para la estimación de implica encontrar b


para la que

SS E (y Xb ) ( y X )

se minimiza. Este proceso de minimización implica resolver para b en la ecuación


( SS E ) 0
b

No se presentan los detalles relacionados con las soluciones de las ecuaciones anteriores. El
resultado se reduce a la solución de b en ( X X ) X y

se observa la naturaleza de la matriz X .El elemento inicial del i-ésimo renglón representa los
valores de x que dan lugar a la respuesta yi
Al escribir

n n n
n xi 1 xi 2 ... xi k
i 1 i 1 i 1 X X es una
n n n n matriz simétrica
A X X xi 1 x 2 i1 xi 1 xi 2 ... xi 1 xi k ( pxp )
i 1 i 1 i 1 i 1
n n n n
xi k xi k xi 1 xi k xi 2 ... x 2 i k
i 1 i 1 i 1 i 1

Guía Didáctica de Estadística II 40


INSTITUTO TECNOLÓGICO DE DURANGO

n
g0 yi
i 1
n
g1 xi1 yi
i 1

g X y . . X y es un vector columna ( px1 )


. .
. .
n
gk xi k y i
i 1

Las ecuaciones se pueden escribir en la forma matricial AB g

Si la matriz A es no circular, podemos escribir la solución para el coeficiente de regresión


como b A 1 g ( X X ) 1 X y
De esta forma se puede obtener la ecuación de predicción o la ecuación de regresión al
resolver un conjunto de k 1 ecuaciones con un número igual de incógnitas. Esto implica la
inversión de la matriz X X de k 1 por k 1 , Las técnicas para invertir esta matriz se
explican en la mayoría de los libros de texto sobre determinantes y matrices elementales. En
este caso se utilizará la calculadora de Casio ClassPad 300 para la solución de estas
matrices.
La diferencia entre la observación yi y el valor ajustado y i es un residuo

e y y (F3)

EJEMPLO 1 Regresión lineal múltiple:

Se midió el porcentaje de sobrevivencia en cierto tipo de semen animal, después del


almacenamiento, en varias combinaciones de concentraciones de tres materiales que se
utilizan para aumentar su oportunidad de sobrevivencia. Los datos son los siguientes:

y x1 x2 x3
(% sobrevivencia) (peso) (peso) (peso)
25.5 1.74 5.30 10.80
31.2 6.32 5.42 9.40
25.9 6.22 8.41 7.20
38.4 10.52 4.63 8.50
18.4 1.19 11.60 9.40
26.7 1.22 5.85 9.90
26.4 4.10 6.62 8.00
25.9 6.32 8.72 9.10

Guía Didáctica de Estadística II 41


INSTITUTO TECNOLÓGICO DE DURANGO

32 4.08 4.42 8.70


25.2 4.15 7.60 9.20
39.7 10.15 4.83 9.40
35.7 1.72 3.12 7.60
26.5 1.70 5.30 8.20
y 377.5

Las ecuaciones de estimación de mínimos cuadrados ( X X ) b X y

n
yi
n n n i 1
0
n x i1 x i2 ... xik n

i 1 i 1 i 1 x i1 y i
n n n n 1 i 1

x i1 x 2 i1 x i1 x i 2 ... x i1 x i k . .
i 1 i 1 i 1 i 1
n n n n
. .
2
xik x i k x i1 x i k x i2 ... x ik n

i 1 i 1 i 1 i 1 k x i k yi
i 1

X X b X' y

Simplificando las ecuaciones anteriores.

En este caso se obtienen las ecuaciones en función de 0 , 1 , 2


y 3

n( 0 ) x1 ( 1 ) x2 ( 2 ) x3 ( 3 ) yi
2
x1 ( 0 ) x1 ( 1 ) x1 x2 ( 2 ) x1 x3 ( 3 ) x1 y
2
x2 ( 0 ) x1 x2 ( 1 ) x2 ( 2 ) x2 x3 ( 3 ) x2 y
2
x3 ( 0 ) x3 x1 ( 1 ) x3 x 2 ( 2 ) x3 ( 3 ) x3 y

Para esta sustitución se necesitan las siguientes sumatorias


y x1 x2 x3
% Sobrevivencia (peso %) (peso %) (peso %)
y 377.5 x1 5943 x2 81.82 x3 115.4
2 2 2
x1 394.7255 x2 576.7264 x3 1035.96
x1 y 1877.567 x2 y 2246.66 x3 y 3337.78

x1 x2 360.6621 x2 x3 728.31 x1 x3 522.078

Guía Didáctica de Estadística II 42


INSTITUTO TECNOLÓGICO DE DURANGO

Una vez que se obtienen estas sumatorias se sustituyen en las ecuaciones y se obtiene

13 0 59.43 1 81.82 2 115.4 3 377.5


59.43 0 394.7255 1 360.6621 2 522.078 3 1877.567
81.82 0 360.6621 1 576.7264 2 728.31 3 2246.661
115.4 0 522.078 1 728.31 2 1035.96 3 3337.78
En base a estas sumatorias se integran las matrices

(X X ) ( ) X y
13 59.43 81.82 115.4 0 377.5
59.43 394.7255 360.6621 522.078 1 1877.567
81.82 360.6621 576.7264 728.31 2 2246.661
115.4 522.078 728.31 1035.96 3 3337.780

De los resultados de la calculadora ClassPad 300 se obtienen los resultados

0 39.15734995
1 1.016100441
2 1.861649203
3 0.3432604926

el plano de regresión múltiple es:

y y0 1 x1 + 2
x 2+ 3 x3

y 39.1573 1.061 x1 -1.8616 x2 -0.3433 x3

Para el uso de la calculadora ClassPad 300 ver Tutorial de RLM para obtener los coeficientes
de regresión del plano de regresión múltiple.

Guía Didáctica de Estadística II 43


INSTITUTO TECNOLÓGICO DE DURANGO

Prueba de hipótesis en la regresión lineal múltiple


Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.

Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.

Guía Didáctica de Estadística II 44


INSTITUTO TECNOLÓGICO DE DURANGO

Prueba de hipótesis en la regresión lineal múltiple

En problemas de regresión lineal múltiple, ciertos tipos de hipótesis respecto a los


parámetros del modelo son útiles al medir la suficiencia del modelo. En esta parte se
abordarán varios procedimientos importantes de prueba de hipótesis. Se sigue requiriendo la
suposición de normalidad en los errores.

Prueba de significación de regresión

La prueba de significación de regresión es para determinar si hay una relación lineal entre la
variable dependiente y y un subconjunto de las variables independientes x1 , x2 ,.........., xk .
Las hipótesis apropiadas son

H0 : 1 2 ..... k 0
H1 : j 0 j

El rechazo de H 0 : j 0 implica que al menos una de las variables independientes


x1 , x2 ,.........., xk contribuye significativamente al modelo. El procedimiento de prueba es una
generalización del utilizado en regresión lineal simple. La suma total de cuadrados S yy se
divide en una suma de cuadrados debida a la regresión y en una suma de cuadrados debida
al error, es decir

S yy SS R SS E (F4)

donde

S yy - suma total de cuadrados


SS R - suma de cuadrados de la regresión
SS E - suma de cuadrados del error
Y si H0 : j 0 es verdadera, entonces
2
SS R
2
xk donde el número de grados de libertad para x 2 es igual al número de
variables regresoras en el modelo. Se puede mostrar que SS E 2 x 2 n k 1 , SS E y SS R
son independientes.

Guía Didáctica de Estadística II 45


INSTITUTO TECNOLÓGICO DE DURANGO

TABLA I.- Análisis de varianza para la significación de la regresión múltiple.


Fuente de Suma de Grados de Media F0
variación cuadrados libertad cuadrática
Regresión SS R k MSR MS R
MS E
Error o SS E
n k 1 MSE
residuo
Total n 1
S yy

Problema:
Pruebe la significación de la regresión, empleando los datos de tiempo de entrega del
ejemplo 1 de la lectura Regresión lineal múltiple.

n 2

yi
i 1
SS R X y (F5)
n
donde

= 39.1574 1.0161 1.8616 0.3433 . Estos son los resultados de los coeficientes de
regresión obtenidos en la calculadora ClassPad 300.

377.5
1877.567
X y=
2246.661
3337.780

n 2

yi
(377.5) 2
i 1
= = 10962.0192
n 13

Guía Didáctica de Estadística II 46


INSTITUTO TECNOLÓGICO DE DURANGO

sustituyendo
377.5
1877.567 (377.5) 2
39.1574 1.0161 1.8616 0.3433
2246.661 13
3337.780
Calculo de SS R
n 2

yi
i 1
SS R X y
n
SS R 11361.4703 10962.0192 399.4511

Para realizar el producto de X ' y consulte el Tutorial de ClassPad 300 para productos
de matrices.

Calculo de SS E
SS E S yy SS R (F4)

SS E yy X'y (F6)

donde

y y = 11400.15 se obtiene en la calculadora ClassPad 300.


Ver Tutorial para obtener y y .

X ' y = 11361.4703 se obtiene en la calculadora ClassPad 300.

SS E 11400 .15 11361 .4703 38.68

Calculo de S yy con la fórmula (F4):

S yy SS SS
R E
399 .4511 38.68 (F4)

S yy
438.1311

Para sacar los grados de libertad

Guía Didáctica de Estadística II 47


INSTITUTO TECNOLÓGICO DE DURANGO

n número de datos = 13
k número de variables regresoras o independientes = 3
n k 1 13 3 1 9
n 1 13 1 12

Calculo de MS R , MS E y F0 :

MSR SS R (F7)
k

399.4511
MS R 133.1504
3

MS E SS E (F8)
n k 1

38.68
MS E 3.868
10
MS R
F0 (F9)
MS E

133 .1504
F0
3.868

F0 34.4236

Con los cálculos realizados se obtiene la tabla II :

TABLA II.- Tabla de ANOVA para la significación de la regresión múltiple del ejemplo 1 de la lectura RLM
Fuente de Suma de Grados de Media F0
variación cuadrados libertad cuadrática
Regresión 399.4511 3 133.1504 34.4236
Error o 38.68 13-3=10 3.868
residuo
Total 438.1311 13-1=12

Los pasos para realizar la prueba de significación de regresión son:

Guía Didáctica de Estadística II 48


INSTITUTO TECNOLÓGICO DE DURANGO

1) H0 : 1 2 3 0
2) H a : j 0 al menos para una j
3) El estadístico de prueba F0 valor obtenido en la tabla de ANOVA
F0 34.4236
4) Obtención de Fcritico F ,k ,n k 1 F.05,3,13 3 1 F.05, 3,9 3.86 (Ver tabla).

Consultar tabla
F0.05 , v1 , v2
el nivel de significación es 0.05
los grados de libertad del numerador son 3
los grados de libertad del denominador son 9
5) Aplicación del criterio de rechazo.
El criterio de rechazo se presenta si F0 F ,k ,n k 1
es decir en este caso 34.4236 3.86
rechazo la H 0 ; y acepto la hipótesis alternativa: H a , 1 2 3

El hecho de que se rechace la H 0 : 0 implica aceptar la H a : j 0 e implica que al


j

menos una de las variables independientes x1 , x2 ,......,xK contribuye significativamente al


modelo.

Pruebas de coeficientes individuales de regresión

Con frecuencia interesa probar hipótesis de prueba respecto a los coeficientes individuales
de regresión. Tales pruebas serían útiles en la determinación del valor de cada una de las
variables independientes en el modelo de regresión. Por ejemplo, el modelo podría ser más
eficaz con la inclusión de variables adicionales, o quizá con la omisión de una o más
variables ya en el modelo.

La adición de una variable al modelo de regresión siempre ocasiona que la suma de


cuadrados para la regresión aumente y que la suma de cuadrados del error disminuya. Se
debe decidir si el aumento en la suma de cuadrados de la regresión es suficiente para
garantizar el empleo de la variable adicional en el modelo. Además, añadir una variable sin
importancia al modelo puede incrementar el error de la media cuadrática, aminorando de ese
modo la utilidad del modelo.

Las hipótesis para probar la significación de cualquier coeficiente de regresión individual,


digamos j , son

H0 : j 0 . La variable x j no contribuye significativamente al modelo.

Guía Didáctica de Estadística II 49


INSTITUTO TECNOLÓGICO DE DURANGO

Hj : j 0 . Al menos una de las variables independientes x1 , x2 ,..., xk contribuye


significativamente al modelo.

Si H 0 : j 0 no se rechaza, es decir si se acepta, esto quiere decir que x j puede ser


eliminada del modelo. La estadística de prueba para esta hipótesis es

j
t0 2
(F10)
C jj

donde C jj es el elemento diagonal de ( X X ) 1


correspondiente a j
.La hipótesis nula
j 0 se rechaza si t0 t / 2 ,n k 1 . Nótese que esto es en realidad una prueba parcial o
marginal, debido a que el coeficiente de regresión j
depende de todas las demás variables
regresoras xi ( i j ) que están en el modelo. Para ilustrar el empleo de esta prueba,
considérese los datos en el ejemplo original y supóngase que deseamos probar:

1) H 0 : 2 0

2) H1 : 2 0
1
El elemento principal de la diagonal de ( X X )

13 59.43 81.82 115.40


59.43 394.7255 360.6621 522.0780
X X
81.82 360.6621 576.7264 728.31
15.40 522.0780 728.3100 1035 .96

0
80648 0.0826 0.0942 0.7905
1 0.0826 0.0085 0.0017 0.0037 1
( X ´X )
0.0942 0.0017 C 22 0.0166 0.0021 2
0.7905 0.0037 0.0021 0.0886
3

1
Consultar Tutorial de la calculadora ClassPad 300 para obtener ( X X )

Correspondiente a 2 es C 22 0.0166 por lo que la estadística t 0 se calcula con la fórmula


(F10).

Guía Didáctica de Estadística II 50


INSTITUTO TECNOLÓGICO DE DURANGO

j 1.8616 1.8616
t0 2
6.9697055
2 2 4.2977( 0.0166 ) 0.2670988
C jj C jj

Para calcular

2 SS E (F11)
n p

donde

SS E
en la tabla ANOVA es 38.68 , y se divide entre n p,
k - es el número de variables independientes = 3
n- es el número de valores = 13
p k 1
p = 3+ 1= 4
n p = 13 4 9
2 SS E 2 38.68
4.2977
n p 9

4) Obtención del valor crítico de t / 2 ,n k 1 t.05 / 2 ,13 3 1 t.025,9 2.262 . (Ver tabla). Consultar
la tabla .

5) Aplicar el criterio de rechazo de la hipótesis nula:

t0 t / 2 ,n k 1

6.9697055 2.26

se cumple, por tanto se rechaza la H 0 : 2 0 y se acepta H a : 2 0 esto indica que la


variable x2 contribuye de manera significativa en el modelo.
Se observa que esta prueba mide la contribución marginal o parcial de x2 , dado que x1 y
x3 están en el modelo.

Guía Didáctica de Estadística II 51


INSTITUTO TECNOLÓGICO DE DURANGO

Intervalos de confianza en regresión lineal múltiple


Walpole Ronal E., Myers Raymond H., Myers Sharon L., Probabilidad y Estadística para
Ingenieros, México, Editorial Prentice Hall, 1999.
Hines William W., Montgomery Douglas C., Probabilidad y Estadística para Ingeniería y
Administración, México, Cía editorial continental S.A. de C.V. 1993.

Guía Didáctica de Estadística II 52


INSTITUTO TECNOLÓGICO DE DURANGO

Intervalos de confianza en regresión lineal múltiple

Con frecuencia es necesario construir estimaciones del intervalo de confianza para los
coeficientes de regresión j
. El desarrollo para obtener estos intervalos de confianza
requiere suponer que los errores i se distribuyen normal e independientemente con media
cero y varianza 2
. Por tanto, las observaciones yi se distribuyen normal e
independientemente con media cero y varianza 2 . Puesto que el estimador de mínimos
cuadrados es una combinación lineal de las observaciones, resulta que se distribuye
2
normalmente con media vectorial y matriz de covarianza ( X X ) 1.
Entonces cada una de las estadísticas

j j
j 0 ,1,........,K
2
C jj

Se distribuyen como t con n p grados de libertad, donde C jj es el elemento jjésimo de la


2 2
matriz ( X X ) 1 y es la estimación de la varianza del error, obtenida de la ecuación
MS E (F15) en consecuencia, un intervalo de confianza del 100( 1 ) por ciento para el
coeficiente de regresión j ,j 0.1,......,k , es

2 2
j t / 2 ,n p C jj j j t / 2,n p C jj (F12)

Ejemplo construya un intervalo de confianza del 95 por ciento respecto al parámetro 1


, del
ejemplo 1 de la lectura de RLM. Nótese que la estimación puntual de 1.01600441 y que
1

el elemento diagonal de ( X X ) 1
correspondiente a 1 que en este caso es C11 .0085 .

80648 0.0826 0.0942 0.7905


1
0.0826 c11 0.0085 0.0017 0.0037
( X ´X )
0.0942 0.0017 0.0166 0.0021
0.7905 0.0037 0.0021 0.0886

Guía Didáctica de Estadística II 53


INSTITUTO TECNOLÓGICO DE DURANGO

2 SS E
La estimación de es: de 4.297, calculado con la formula (F11) MS E ,y t / 2, n p
n p
es igual a t.025,13 4 2.262. Entonces el intervalo de confianza en 1 se calcula a partir de la
formula (F12).

1
De la matriz ( X ' X ) se elige el C jj , es decir el elemento jjésimo de la matriz es decir el
elemento diagonal correspondiente a 1, que en este caso es C11 0.0085 .

2
La estimación de se obtiene con la fórmula:

2 SS E
(F13)
n p

donde SS E y y X y SS E se calcula con la formula (F6), donde y y es el producto


de la matriz transpuesta de y por y . Consultar el tutorial para encontrar ( y y ) en la
calculadora ClassPad 300 de Casio.

Con los valores obtenidos en la calculadora se sustituye en la siguiente ecuación pueden


sustituir los valores en la formula (F6)
SSE y' y X y
ver Tutorial para obtener y ' y

377 .5
1877 .567
SS E
11400 .15 39 .1573 1.0161 1.8616 0.3433
2246 .661
3337 .780

donde es la matriz transpuesta de los valores de obtenidos.


X y = es la tercera matriz obtenida de las ecuaciones originales.
'
Ver Tutorial de producto de matrices para obtener x' y 11361.4703
Se sustituyen los valores en
SS E y se obtiene que
SSE 11400.15 11361.47 38.68 .
2
SSE / n p 38.68 / 13 4 4.2977

2 SS E
n p

2 38.68
= 4.2977
13 4

Guía Didáctica de Estadística II 54


INSTITUTO TECNOLÓGICO DE DURANGO

donde n es el número de datos originales (número de renglones)


donde p es el número de variables totales, incluyendo la dependiente.

De acuerdo con la formula (F12) el intervalo de confianza del 95% respecto al parámetro
1 1.01600441

t / 2,n p
es igual a t .025 ,13 4 2.262 (Ver tabla). Entonces, el intervalo de confianza del 95%
respecto al parámetro 1
se calcula a partir de la fórmula (F12):
1.016100441 0.4321485 1 1.01610044 0.4321485
0.5839519 1 1.4482489

Para obtener un intervalo de confianza respecto a al respuesta media en un punto


particular, digamos x01 , x02 , xok . Para estimar la respuesta media en este punto se
define el vector.
x01
x02
.
x0
.
.
x0 k

La respuesta estimada en este punto es

y0 x0 (F15)

Este estimador insesgado, puesto que E( y0 ) E( x0 ) x0 E( y 0 ), y la varianza de y 0


2
es V ( y 0 ) x0 ( X X ) 1 x0 .

Por tanto el intervalo de confianza del 100( 1 ) por ciento respecto a la respuesta
media en el punto x01 , x02 , xok es
2
y0 t / 2 ,n p x0 ( X X ) 1 x0 E( y0 ) y0 t / 2 ,n p
2
x0 ( X X ) 1 x0 (F14)

Esta ecuación es un intervalo de confianza en torno al hiperplano de regresión.

Guía Didáctica de Estadística II 55


INSTITUTO TECNOLÓGICO DE DURANGO

EJEMPLO
Del ejemplo 1 de regresión lineal múltiple construir un intervalo de confianza del 95%
respecto al tiempo de entrega media para una salida que requiere
x1 3%, x2 8%, x3 9% .

1
3
x0
8
9
y0 x0 con la formula (F15)

39 .1574
1.0161
y0 1 3 8 9
1.8616
0.3433

y0 24.2231
Ver Tutorial para obtener producto de matrices: x' o y 2
x10 (x' x) 1 x0 en la calculadora
ClassPad 300
la varianza de y se estima mediante
8.0648 0.0826 0.0942 0.7905 1
2 x (X X ) 1x 0.0826 0.0085 0.0017 0.0037 3
0 0 4.2977 1 3 8 9 x 0.5849
0.0942 0.0017 0.0166 0.0021 8
0.7905 0.0037 0.0021 0.0886 9

por tanto, un intervalo de confianza del 95% en el tiempo de entrega media en este punto de
acuerdo a la fórmula (F15) del intervalo de confianza es:

2
y0 t / 2 ,n p x0 ( X X ) 1 x0 E( y0 ) y0 t / 2 ,n p
2
x0 ( X X ) 1 x0
t / 2,n p t.05 / 2 ,13 4 t.025,9

24.2231 t.025,13 4 0.5849 E( y0 ) 24.2231 t.025,13 4 0.5849


24.2231 ( 2.262 ) .54795675 E( y0 ) 24.2231 ( 2.262 ) .54795675
22.2231 1.67442516 E( y0 ) 24.2231 1.67442516
22.54867484 E( y0 ) 25.89752516

Guía Didáctica de Estadística II 56


INSTITUTO TECNOLÓGICO DE DURANGO

PREDICCIÓN DE NUEVAS OBSERVACIONES

El modelo de regresión puede utilizarse para predecir observaciones futuras respecto a y


que corresponde a valores particulares de las variables independientes digamos x01 , x02 , xok
. Si x0 1, x01 , x02 ,.....,x0 k
Entonces una estimación puntual de la observación futura y0 en el punto x01 , x02 , xok es

y0 x0

Un intervalo de predicción del 100( 1 ) por ciento para esta observación futura es

2
y0 t / 2 ,n p ( 1 x0 ( X X ) 1 x0 ) y0 y0 t / 2 ,n p
2
( 1 x0 ( X X ) 1 x0 ) (F16)

Este intervalo de predicción es una generalización del intervalo de predicción para una
observación futura en regresión lineal simple.

Al predecir nuevas observaciones y estimar la respuesta media en un punto dado


x01 , x02 , xok debe tenerse cuidado en cuanto a extrapolar más allá de la región que
contienen las observaciones originales. Es muy posible que un modelo que ajusta bien en la
región de los datos originales ya no ajustará bien fuera de esa región. En la regresión
múltiple a menudo es fácil extrapolar inadvertidamente, ya que los niveles de las variables
( x01 , x02 , xok ), i 1 ,2 ,3 ,......,n definen en conjunto la región que contiene las observaciones para
un modelo de regresión de dos variables. Nótese que el punto ( x01 , x02 ) yace dentro de los
intervalos de ambas variables independientes x1 y x2 , pero se encuentra fuera de la región
de observaciones originales. En consecuencia predecir el valor de una nueva observación o
estimar la respuesta media en este punto es una extrapolación del modelo de regresión
original.

EJEMPLO
Con los datos del ejemplo 1 de regresión lineal múltiple, construya un intervalo de predicción
de 95% para una respuesta individual del porcentaje de Sobrevivencia cuando
x1 3%, x2 8%, x3 9%.

Con referencia a los resultados del ejemplo anterior y la fórmula (F17):

2
y0 t / 2 ,n p ( 1 x0 ( X X ) 1 x0 ) y0 y0 t / 2 ,n p
2
( 1 x0 ( X X ) 1 x0 )

Guía Didáctica de Estadística II 57


INSTITUTO TECNOLÓGICO DE DURANGO

donde

39.1574
1.0161
y0 x0 1 3 8 9 24 .2231
1.8616
0.3433

2
t / 2 ,n p t.025,13 4 t.025,9 2.262 4.2977

2
( 1 x0 ( X X ) 1 x0 )

8.0648 0.0826 0.0942 0.7905 1


0.0826 0.0085 0.0017 0.0037 3
x0 ( X X ) 1 x0 1 3 8 9
0.0942 0.0017 0.0166 0.0021 8
0.7905 0.0037 0.0021 0.0886 9

x0 ( X X ) 1 x0 0.1275 .

Ver Tutorial para obtener producto de matrices

2
( 1 x0 ( X X ) 1 x0 )
4.2977(1 0.1275) (4.2977)(1.1275) 4.84565675
2.2012

Sustituyendo en la fórmula (F17) se obtiene:

2
y0 t / 2 ,n p ( 1 x0 ( X X ) 1 x0 ) y0 y0 t / 2 ,n p
2
( 1 x0 ( X X ) 1 x0 )
24.2231 2.262 4.84565675 y0 24.2231 2.262 4.84565675

24.2231 4.979307236 y0 24.2231 4.979307236


19.24379276 y0 29.20240724

Guía Didáctica de Estadística II 58

También podría gustarte