Está en la página 1de 19

Regresión Lineal simple

El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variable. Sus
aplicaciones son diversas en casi cualquier campo, entre ellas la ingeniería, ciencias físicas y químicas, economía,
administración, etc. El modelo de regresión lineal simple, es un modelo con un solo represor x que tiene relación con
una variable respuesta y , cuya relación es una línea recta dada por:

y = β 0 + β1 x + ε , ε ∼ N (0, σ 2 ) modelo poblacional de regresión

Variable respuesta Error aleatorio

Variable regresora o predictora

(Coeficientes de regresión: intercepto y pendiente)

Gráficamente, el modelo de regresión lineal es el siguiente:

Donde la ordenada al origen es β 0 y la pendiente β1 son constantes conocidas, y ε es un componente


aleatorio de error. Se supone que los errores no están correlacionados (independientes) tienen media 0 y
varianza σ 2 desconocida. El regresor x está controlado por el analista de datos, y se puede medir con error
despreciable, mientras que la respuesta y es una variable aleatoria. Esto es, hay una distribución de
probabilidades de y para cada valor de x . La media de esta distribución es
E ( y x ) = β 0 + β1 x
, es decir, la media de y es una función lineal de x . La varianza es
V ( y x ) = V ( β 0 + β1 x + ε ) = σ 2
La cual es constante (no depende de x ) y como los errores no están correlacionados tampoco lo están las
respuestas.
Los parámetros β 0 y β1 , se denominan coeficientes de regresión y tienen una interpretación simple y útil. La
pendiente β1 es el cambio de la media de la distribución de y producida por un cambio en una unidad de x . Si
los datos incluye x = 0 , entonces la ordenada al origen, β 0 , es la media de la distribución de la respuesta y
cuando x = 0 . Si no incluye al cero, β 0 no tiene interpretación práctica.

Estimación de los parámetros por mínimos cuadrados

Los parámetros β 0 y β1 son desconocidos, y se deben estimar con los datos de la muestra. Supongamos que
hay n pares de datos ( x1 , y1 ) , ( x2 , y2 ) ,.., ( xn , yn ) obtenido de un experimento controlado, estudio
observacional o de registros históricos.

Para estimar los parámetros β 0 y β1 se usa el método de mínimos cuadrados. Esto es, se estiman β 0 y β1
tales que la suma de los cuadrados de las diferencias entre las observaciones yi y la línea recta sea mínima,
entonces el modelo muestral de regresión para los n pares de datos lo podemos escribir como

yi = β 0 + β1 xi + ε i , iid ε i ∼ N (0, σ 2 ), i = 1,.., n

El método de mínimos cuadrados consiste en minimizar


n n
L( β 0 , β1 ) =  ε i 2 =  ( yi − β 0 − β1 xi )
2

i =1 i =1

Luego, se obtienen las derivadas parciales respecto a los parámetros

∂L n
= −2 ( yi − β0 − β1 xi ) = 0
∂β0 i =1

∂L n
= −2 ( yi − β 0 − β1 xii ) xi = 0
∂β1 i =1

Simplificando las ecuaciones se obtiene las ecuaciones normales de mínimos cuadrados


n n
nβˆ0 + βˆ1  xi =  yi
i =1 i =1
n n n
βˆ0  xi + βˆ1  xi2 =  yi xi
i =1 i =1 i =1

Donde βˆ0 y β̂1 son las estimaciones de los parámetros β 0 y β1 , respectivamente, que satisfacen las
ecuaciones normales. Entonces, la solución viene dada por

βˆ0 = y − βˆ1 x
y

s xy
βˆ1 =
sxx

1 n 1 n n n
Con x =  =  =  i( i − ) xx = − =  ( xi − x ) .
2 2 2
xi , y yi , s xy y x x , s nx nx
n i =1 n i =1 i =1 i =1

La diferencia entre el valor observado yi y el valor ajustado yˆ i se llama residual, esto es

ei = yi − yˆ i = yi − ( β 0 + β1 xi ) , i = 1,.., n .

Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a los supuestos básicos.

Ejemplo:
Un motor de cohete se forma pegando entre sí un propelente de ignición y uno de sostenimiento dentro de una
caja metálica. La resistencia el corte de la pegadura entre los dos propelentes es una característica importante
de la calidad. Se cree que la resistencia la corte se relacione con la edad, en semanas, del lote del propelente de
sostenimiento. Se hicieron 20 observaciones de resistencia al corte y la edad del lote del propelente las cuales
se registran en la siguiente tabla.

i yi = Resist. al corte (psi) xi = Edad propelente (semanas)


1 2.158,70 15,50
2 1.678,15 23,75
3 2.316,00 8,00
4 2.061,30 17,00
5 2.207,50 5,50
6 1.708,30 19,00
7 1.784,70 24,00
8 2.575,00 2,50
9 2.357,90 7,50
10 2.256,70 11,00
11 2.165,20 13,00
12 2.399,55 3,75
13 1.779,80 25,00
14 2.336,75 9,75
15 1.765,30 22,00
16 2.053,50 18,00
17 2.414,40 6,00
18 2.200,50 12,50
19 2.654,20 2,00
20 1.753,70 21,50
El diagrama de dispersión muestra una fuerte relación estadística entre la resistencia al cortante y la edad del
propelente, y que parece razonable utilizar un modelo de línea recta y = β 0 + β1 x + ε .

2.700
2.600
2.500
2.400
Resistencia al corte

2.300
2.200
2.100
2.000
1.900
1.800
1.700
1.600
0 5 10 15 20 25 30

Edad del propelente


Luego,
sxy −41.112, 65
sxx = 1.106, 56 sxy = −41.112,65 , entonces βˆ1 = = = −37.15 y
sxx 1.106,56
βˆ = y − βˆ x = 2.131,3575-(-37,15) ⋅13,3625 = 2.627,82 .
0 1

El ajuste de mínimos cuadrados es


yˆ = 2.627,82 − 37,15 x
Donde βˆ0 = −37,15 es la disminución semanal promedio de resistencia del propelente al corte por cada cambio
unitario en la edad. La ordenada del origen es 2.627.82 y representa la resistencia al corte de un lote de
propelente inmediatamente después de ser fabricado, puesto que está cerca del origen.
n
Nota: verificar que  ( yˆ − y ) = 0 .
i =1
i i

Propiedades de los estimadores por mínimos cuadrados


El teorema de Gauss-Markov establece que para el modelo de regresión cuyos errores no están correlacionados
tienen media 0 y varianza constante σ 2 , los estimadores por mínimos cuadrados son insesgados y tienen
varianza mínima. Por lo tanto, los estimadores obtenidos por mínimos cuadrados βˆ0 y β̂1 son insesgados y de
varianza mínima. Luego, se puede demostrar que

βˆ0 − β 0
( )  1 x2 
E βˆ0 = β 0 , V βˆ0 = σ 2  + ( ) tal que Z 0 =
 n sxx   1 x2 
∼ N (0,1)
σ2 + 
 n sxx 
Y
σ βˆ1 − β1
( ) ( )
2
E βˆ1 = β1 , V βˆ1 = tal que Z1 = ∼ N (0,1)
sxx σ2
sxx

Estimación de σ 2
Además de estimar βˆ0 y β̂1 se requiere un estimado de σ para probar hipótesis y formar intervalos pertinentes
2

al modelo de regresión. Un estimador insesgado para la varianza es

( n − 2 ) MSRe s ∼ χ 2
E (σˆ 2 ) = E ( MSRe s ) = σ 2 , ya que n −2
σ 2

n
Donde SSRe s =  ( yˆ − y ) = ny 2 − βˆ1sxy .
2
i i
i =1

La cantidad MS Re s se denomina cuadrado medio residual. La raíz cuadrada de σˆ 2 , σˆ , se denomina error


estándar de la regresión y tiene las mismas unidades que la variable de respuesta y .

Estimación de intervalos de confianza en regresión lineal


Como generalmente σ no se conoce debemos estimarlo, luego el estadístico
2

βˆ0 − β 0  1 x2 
t0 = ∼ tn − 2 , donde se( βˆ0 ) = MS Re s  + .
se( βˆ0 )  n s xx 
En forma similar

βˆ1 − β1 MS Re s
t0 = ∼ tn − 2 , donde se( βˆ1 ) = ,
se( βˆ1 ) sxx

Donde se( βˆ0 ) se denomina error estándar del intercepto y se( βˆ1 ) error estándar de la pendiente.

Entonces, el intervalo de confianza de (1 − α ) x100% para el intercepto β 0 está dada por:

βˆ0 − tn − 2,1−α /2 ⋅ se( βˆ0 ) ≤ β 0 ≤ βˆ0 + tn − 2,1−α / 2 ⋅ se( βˆ0 ) .

El intervalo de confianza de (1 − α ) x100% para el intercepto β1 está dada por:

βˆ1 − tn − 2,1−α / 2 ⋅ se( βˆ1 ) ≤ β1 ≤ βˆ1 + tn − 2,1−α / 2 ⋅ se( βˆ1 )

Estos intervalos de confianza tienen la interpretación usual, esto es, si hubiese que tomar muestras repetidas
del mismo tamaño a los mismos valores de x , y formar, por ejemplo, intervalos de confianza de 95% de la
pendiente para cada muestra, entonces el 95% de esos intervalos contendrán el verdadero valor de β1 .
Por otra parte, el intervalo de confianza de (1 − α ) x100% para la varianza σ 2 es:
( n − 2) MS Re s (n − 2) MS Re s
≤σ2 ≤
χ 2
1−α / 2, n − 2 χα2 /2,n − 2

Ejemplo
Establecerlos intervalos de confianza de 95% para β1 y σ
2
con los datos del propelente de cohetes.
Tenemos que βˆ1 = −37,15 , se( βˆ1 ) = 2,88 y tn− 2,1−α /2 = t18;0,025 = 2,101

−43, 22 ≤ β1 ≤ −31, 08

Para σ se tiene que σˆ = MSRe s = 9.236,38 , χ12−α /2, n − 2 = χ 0,025;18 = 31, 5 χ12−α /2,n − 2 = χ 0,975;18 = 8, 23
2 2 2 2

5.277,93 ≤ σ 2 ≤ 20.201, 07

Estimación de intervalos de la respuesta media


Una aplicación importante de un modelo de regresión es estimar la respuesta media, E ( y ) , para determinado
valor de la variable regresora x . Sea x0 el valor de la variable regresora para el que se desea estimar la respuesta
media E ( y x0 ) . Se supone que x0 es cualquier valor de la variable regresora dentro del intervalo de los datos
originales de x que se usaron para ajustar el modelo. Un estimador insesgado de E ( y x0 ) se determina a partir
del modelo ajustado como sigue:

E ( y x0 ) = µˆ y x0 = βˆ0 + βˆ1 x0

Nota: µˆ y x0 es una variable aleatoria normalmente distribuida, puesto que es una combinación lineal de las
observaciones yi .

Donde
 1 ( x0 − x )2 
V ( µˆ y x0 ) = σ  +
2

n s 
 xx 
Luego
µˆ y x − E ( y x0 )
0
∼ t n −2
 1 ( x0 − x ) 2 
MSRe s  + 
n s 
 xx 

Entonces, un intervalo de confianza de (1 − α ) x100% para la respuesta media en el punto x = x0 es


 1 ( x0 − x )2   1 ( x0 − x ) 2 
µˆ y x − tn − 2,1−α /2 ⋅ MSRe s  +  ≤ E ( y x0 ) ≤ µˆ y x0 + tn − 2,1−α / 2 ⋅ MSRe s  + 
0 n s  n s 
 xx   xx 
Note que el ancho del intervalo de confianza para E ( y x0 ) es una función de x0 . Este es mínimo cuando x0 = x
, y crece a medida que aumenta x − x0 . Entonces es de esperar que las mejores estimaciones de y se logran
cuando los valores de x cerca del centro de los datos, y que la precisión de la estimación se reduce al moverse
hacia la frontera del espacio de x .
Ejemplo
Calcular un intervalo de confianza para la respuesta media cuando x0 = 13,3625 .
Tenemos que µˆ y x0 = yˆ 0 = βˆ0 + βˆ1 x0 = 2.131, 40 , entonces el intervalo de confianza es

2.086, 23 ≤ E ( y x0 ) ≤ 2.176, 53

2.700
2.600
2.500
2.400
Resistencia al corte

2.300
2.200
2.100
2.000
1.900
1.800
1.700
1.600
0 5 10 15 20 25 30

Edad del propelente

Predicción de nuevas observaciones


Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan a un
nivel especificado de la variable regresora x . Si x0 es el valor de interés de la variable regresora, entonces
ŷ0 = βˆ0 + βˆ1 x0
Luego, ŷ0 es la estimación puntual del nuevo valor de la respuesta y0 .
Notar que la variable aleatoria
  1 ( x0 − x )2  
ψ = y0 − yˆ 0 ∼ N  0, σ  1 + +
2

  n s 
  xx 
, puesto que la observación futura y0 es independiente de ŷ0 .
Así, el intervalo de predicción (1 − α ) x100% de confianza para una observación futura en y0 es
 1 ( x0 − x ) 2   1 ( x0 − x ) 2 
yˆ 0 − tn − 2,1−α / 2 ⋅ MSRe s  1 + +  ≤ y0 ≤ yˆ 0 + tn − 2,1−α /2 ⋅ MS Re s 1 + + 
 n s   n s 
 xx   xx 
La longitud del intervalo de predicción es mínimo cuando x0 = x , y crece a medida que aumenta x − x0 .

Ejemplo
Determinar un intervalo de predicción de 95% para el valor futuro de la resistencia al corte del propelente, en
un motor fabricado con un lote de propelente que tiene 10 semanas de edad.

2.048, 40 ≤ y0 ≤ 2.464,19
Nota: Al comparar los intervalos de respuesta media y predicción en x0 , este último siempre es más ancho que
porque el intervalo de predicción depende tanto del error del modelo ajustado como del error asociado con
observaciones futuras.

Se puede generalizar el intervalo de predicción de (1 − α ) x100% para la media de m observaciones futuras de


la respuesta en x = x0 . Sea y0 la media de m observaciones futuras en x = x0 . Un estimador puntual de y0 es
ŷ0 = βˆ0 + βˆ1 x0 . El intervalo de predicción (1 − α ) x100% de confianza para y0 es
 1 1 ( x − x )2   1 1 ( x0 − x ) 2 
ˆy0 − tn − 2,1−α / 2 ⋅ MSRe s  + + 0  ≤ y0 ≤ y0 + tn − 2,1−α / 2 ⋅ MSRe s  + +
ˆ 
m n sxx  m n sxx 
   

Coeficiente de determinación
La cantidad
SSR SS
R2 = = 1 − Re s , 0 ≤ R 2 ≤ 1 ,
SST SST
se denomina coeficiente de determinación.
2
Los valores de R cercanos a 1 implican que la mayor parte de la variabilidad de y está explicada por el modelo
de regresión.
2 2
El estadístico R se debe usar con precaución, porque siempre es posible conseguir que R sea grande
agregando términos suficientes al modelo.
2
En general, R aumenta a medida que aumenta la dispersión de las x o viceversa, siempre y cuando sea
correcta la forma supuesta del modelo (Hahn, 1973).
2
Si R es grande, no necesariamente implica que el modelo de regresión sea un predictor exacto.

Para el modelo de regresión con los datos del propelente de reacción tenemos que

SSR 1.527.334,95
R2 = = = 0,9018
SST 1.693.737,60
por tanto, el 90.18% de la variabilidad de la resistencia queda explicada por el modelo de regresión.
Pruebas de hipótesis para la pendiente y ordenada en el origen

Pruebas de hipótesis para ordenada


Supongamos que se desea probar la hipótesis que la pendiente es igual a una constante, esto es:

Plantear Hipótesis: H 0 : β 0 = β 00 v/s H1 : β 0 ≠ β 00

βˆ0 − β00
Estadístico de prueba: t0 = ∼ tn − 2
se( βˆ0 )

( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n − 2 ∪ t1−α /2,n − 2 , ∞ )
En particular nos interesa probar la hipótesis para β 00 = 0 .

Prueba de hipótesis para la pendiente


Esta hipótesis se relaciona con la significancia de la regresión, puesto que al no rechazar H 0 : β1 = β10 implica
que no hay relación lineal entre x y y . La prueba es:

Hipótesis: H 0 : β1 = β10 v/s H1 : β1 ≠ β10

βˆ1 − β10
Estadístico de prueba: t0 = ∼ tn − 2
se( βˆ1 )

( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n − 2 ∪ t1−α /2,n − 2 , ∞ )
El procedimiento de prueba para H 0 : β1 = β10 se puede establecer con dos métodos. El primero es el
mencionado anteriormente y el otro es usando el método de análisis de varianza.

Ejemplo
Probar la significancia de la regresión en el modelo del propelente de reacción. Luego, el estadístico de prueba
es
βˆ1 − β10 −37.15
t0 = = = −12,85
se( βˆ1 ) 9.235, 64
1.106,55
Por consiguiente, si se escoge α = 0, 05 , el valor crítico de t0,025,18 = 2,101 Así, se rechazaría H 0 : β1 = 0 y se
llegaría a la conclusión que hay una relación lineal entre la resistencia al corte y la edad del propelente.

Análisis de varianza
También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este análisis
se basa en una partición de la variabilidad total de la variable y de respuesta. Para obtener esta partición se
comienza con la identidad fundamental del análisis de varianza para un modelo de regresión
( yi − yi ) = ( yˆi − yi ) + ( yi − yˆi )
Elevando al cuadrado la expresión anterior, sumando y resolviendo, se tiene
n n n

 ( yi − yi ) =  ( yˆi − yi ) +  ( yi − yˆi )
2 2 2

i =1 i =1 i =1

SST = SS R + SSRe s
La cantidad de grados de libertad se determina como sigue. La suma total de cuadrados, SST tiene dfT = n − 1
n
grados de libertad, porque se perdió un grado de libertad como resultado de la restricción  ( y − y ) para las
i =1
i i

desviaciones ( yi − yi ) . La suma de cuadrados del modelo, o de la regresión es SS R y tiene grado de libertad


df R = 1 , porque SS R queda completamente determinado por el parámetro βˆ1 . Por último, SS Re s tiene
df Re s = n − 2 grados de libertad, porque se imponen dos restricciones a las desviaciones ( yi − yˆi ) como
resultado de estimar βˆ y βˆ . En resumen
0 1

dfT = df R + df Res
n −1 = 1 + (n − 2)

Se puede aplicar la prueba F en el análisis de varianza para probar la hipótesis H 0 : β1 = 0 como sigue.

Análisis de varianza para probar el significado de la regresión

Fuente de variación Suma de cuadrados g.l. Cuadrado medio F0


Regresión SS R = βˆ1sxy 1 MS R MS R / MS Re s
Residual SSRe s = SST − βˆ1sxy n−2 MS Re s
Total SST = n y 2 − ny 2 n −1

Por consiguiente, para probar la hipótesis H 0 : β1 = 0 , se calcula el estadístico F0 y se rechaza si


F0 > Fα ,1,n − 2 .
Nota: La utilidad real del análisis de varianza está en los modelos de regresión múltiple.

Modelo de regresión lineal múltiple

Un modelo de regresión lineal con k regresores, o variables predictoras se llama modelo lineal de regresión
múltiple y se representa por:
y = β 0 + β1 x1 + β 2 x2 + .. + β k xk + ε , ε ∼ N (0, σ 2 )
Los parámetros β j con j = 1,.., k se llaman coeficientes de regresión. Este modelo describe a un hiperplano
en el espacio de k dimensiones de las variables regresoras x j . El parámetro β j representa el cambio esperado
en la respuesta y por cambio unitario en x j cuando todas las demás variables regresoras xi ( i ≠ j ) se
mantienen constantes. Por esta razón, a los parámetros β j , j = 1,.., k se les llama con frecuencia coeficientes
de regresión parcial.

Estimación de los coeficientes de regresión por mínimos cuadrados


El modelo de regresión múltiple es conveniente representarlo en forma matricial, esto es

Y = X β +ε, ε ∼ N (0, σ 2 )

 y1  1 x11 . . x1k 
x12  β0   ε1 
y  1 x    ε 
 2  21 x22 . . x2 k   β1   2
Donde Y =  .  , X =  . . . . . . , β =  .  y ε =  . 
       
.  . . . . . .   .  .
 yn  1 xn1 xn 2 . . xnk   β n  ε n 
Se desea determinar el vector de estimadores, βˆ = ( βˆ0 , βˆ1 ,.., βˆk ) , de mínimos cuadrados que minimice

n
L( β 0 , β1 ,.., β k ) =  ε i 2 = (Y − X β ) (Y − X β )
T

i =1

Luego, derivando L con respecto al vector de parámetros β , igualando a cero y resolviendo se obtiene las
ecuaciones normales de mínimos cuadrados

X T X β = X TY

El vector estimador para β por de mínimos cuadrados que está dado por

βˆ = ( X T X ) X T Y
−1

( ) ( )
−1 −1
Siempre y cuando exista la matriz inversa X T X . La matriz X T X siempre existe si los regresores son
linealmente independientes.
Observación:
 n n n

 n  xi1
i =1
 xi 2
i =1
. . x
i =1
ik 
 
 n n n n

  xi1 x x 
2
i1 x
i1 i 2 . . xi1 xik 
X X = 
T i =1 i =1 i =1 i =1

 . . . . . . 
 
 . . . . . . 
 n n n n 
  xik x ik xi1 x x
ik i 2 . .  xik2 
 i =1 i =1 i =1 i =1 

El vector de valores ajustados yˆ i que corresponden a los valores observados yi es


Yˆ = X βˆ = X ( X T X ) X T Y = HY
−1

( )
−1
La matriz H = X X T X X T , cuadrada de n, se suele llamar matriz ajustada o estimada.

La diferencia entre el valor observado yi y el valor ajustado yˆ i es el residual, y escrito en forma matricial es

e = Y − Yˆi = ( I − H ) Y .

Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a los supuestos básicos.

Propiedades de los estimadores de mínimos cuadrados


Haciendo un análisis similar al caso de regresión lineal, tenemos que el estimador β es insesgado y

(
βˆ ∼ N β , σ 2 ( X T X )
−1
)
( )
−1
De lo cual se deprende que si C = X T X la varianza de β j es σ 2C jj , y la covarianza entre β i y β j es σ 2Cij
.
Estimación de σ 2
Similar al caso de regresión simple se puede demostrar que el estimador
( n − p ) MSRe s ∼ χ 2
E (σˆ 2 ) = E ( MSRe s ) = σ 2 , ya que n− p
2
σ
, donde SS Re s T
( )
= Y Y − βˆ T X T Y , tal que E σˆ 2 = σ 2 .

Ejemplo (Datos del tiempo de entrega)


Un embotellador de bebidas gaseosas analiza las rutas de servicio de las máquinas expendedoras en su sistema
de distribución. Le interesa predecir el tiempo necesario para que el representante de ruta atienda las máquinas
expendedoras en una tienda. Esta actividad de servicio consiste en abastecer la máquina con productos
embotellados, y algo de mantenimiento o limpieza. El ingeniero industrial responsable del estudio ha sugerido
que las dos variables más importantes que afectan el tiempo de entrega y son la cantidad de cajas de producto
abastecido, x1 y la distancia caminada por el representante x2 . El ingeniero ha reunido 25 observaciones de
tiempo de entrega que se ven en la tabla
TABLA: Datos de tiempo de entrega
Tiempo de entrega
Observación (min) Cantidad de cajas Distancia (pies)
número y x1 x2
1 16,68 7 560
2 11,5 3 220
3 12,03 3 340
4 14,88 4 80
5 13,75 6 150
6 18,11 7 330
7 8 2 110
8 17,83 7 210
9 79,24 30 1460
10 21,5 5 605
11 40,33 16 688
12 21 10 215
13 13,5 4 255
14 19,75 6 462
15 24 9 448
16 29 10 776
17 15,35 6 200
18 19 7 132
19 9,5 3 36
20 35,1 17 770
21 17,9 10 140
22 52,32 26 810
23 18,75 9 450
24 19,83 8 635
25 10,75 4 150

 2, 341
βˆ = ( X X ) X Y = 1, 615 
T −1 T
 
0, 014 
Luego, el modelo lineal por mínimos cuadrados es
yˆ = 2, 341 + 1, 615 x1 + 0, 014 x2

Prueba de la significancia de la regresión


La prueba de la significancia de la regresión es para determinar si hay una relación lineal entre la respuesta Y
y cualquiera de las variables regresoras x1 , x2 ,.., xk . Este procedimiento suele considerarse como una prueba
general o global de la adecuación del modelo. La hipótesis pertinente es:
H 0 : β1 = β 2 = .. = β k = 0 v/s H1 : β j ≠ 0 para al menos un j .
El rechazo de la hipótesis nula implica que al menos uno de los regresores x1 , x2 ,.., xk contribuye al modelo en
forma significativa.
Entonces, utilizando el análisis de varianza

Fuente de variación Suma de cuadrados g.l. Cuadrado medio F0


1
Regresión SS R = βˆ T X T Y − Y T Y k MS R MS R / MS Re s
n
Residual SS Re s = Y Y − β X T Y
T ˆ T
n − k −1 MS Re s

SST = Y T Y − (1T Y )
1 2
Total n −1
n

Por consiguiente, para probar la hipótesis H 0 : β1 = β 2 = .. = β k = 0 , se calcula el estadístico F0 y se rechaza


si
F0 > Fα , k ,n− k −1 .
Ejemplo
Análisis de varianza para los datos de tiempo de entrega

Fuente Suma de cuadrados g.l. Cuadrado medio F0


1
Regresión SS R = βˆ T X T Y − Y T Y = 5.550,81 2 MS R = 2.775, 40 MS R / MS Re s = 261, 23
n
Residual SS Re s = Y Y − β X T Y = 233, 73
T ˆ T
22 MS Re s = 10, 62

SST = Y T Y − (1T Y ) = 5.784, 54


1 2
Total 24
n

Por consiguiente, se rechaza la hipótesis H 0 : β1 = β 2 = 0 , puesto que


F0 = 261, 23 > F0,95;2,22 = 3, 44 .
Es decir, el tiempo de entrega se relaciona con el volumen de entrega y/o con la distancia.

R 2 y R 2 ajustada
2 2
Otras dos maneras de evaluar la adecuación general del modelo son los estadísticos R y R ajustada, ésta
2
última se representa por R Adj y se define como
SSRe s / (n − p )
R2 = 1 −
SST / (n − 1)

233, 73 / 23
Para el ejemplo, tenemos que R = 1 − = 0,9578 , es decir el 95,78% de la variación de la
2

5.784,54 / 24
respuesta es explicado por el modelo de regresión.
Pruebas sobre coeficientes individuales de regresión
Los pasos para realizar la prueba de hipótesis para cualquier coeficiente individual de regresión, son
Plantear Hipótesis: H 0 : β j = 0 v/s H1 : β j ≠ 0

βˆ j − β j
Estadístico de prueba: t0 = ∼ tn −k −1
se( βˆ j )

( )
−1
Donde se( βˆ j ) = σˆ 2C jj , C jj es la j-ésima entrada de la diagonal de X T X y se denomina error estándar

del coeficiente de regresión βˆ j .

( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n −k −1 ∪ t1−α /2, n−k −1 , ∞ )
Si no se rechaza H 0 : β j = 0 , quiere decir que se puede eliminar el regresor x j del modelo.

Para el ejemplo anterior, t1−α /2,n −k −1 = t0,975,22 = 2, 074 , σˆ 2 = MSRe s = 10, 62

0,113215 −0, 004449 −0, 000084 


C =(X X ) =  −0, 004449 −0, 000048 
T −1
0, 002744
 
 −0, 000084 −0, 000048 0, 000001 
Entonces

βˆ1 − 0 1,61
t0 = = = 9, 46442138
σˆ C22
2
10, 62 ⋅ 0, 002744
βˆ2 − 0 0, 014
t0 = = = 3,98
σˆ 2C33 10, 62 ⋅ 0, 000001

Cada uno de las pruebas se rechaza, por lo que cada regresor contribuye en forma significativa al modelo.

Intervalos de confianza de los coeficientes de regresión


Se puede definir un intervalo de confianza de (1 − α ) x100% para el coeficiente de regresión β j , j = 0, 1,..., k
, como sigue:

βˆ j − t1−α / 2,n − p se( βˆ j ) ≤ β j ≤ βˆ j + t1−α / 2,n − p se( βˆ j )


Para el ejemplo de datos de tiempo de entrega, considerando α = 0, 05 , t1−α /2,n −k −1 = t0,975,22 = 2, 074 ,
 2,341
σˆ = MSRe s
2
= 10, 62 y β = 1, 615  . Entonces
ˆ

0, 014 
1, 61 − 2, 074 10, 62 ⋅ 0, 002744 ≤ β1 ≤ 1, 61 + 2, 074 10, 62 ⋅ 0, 002744
1, 26 ≤ β1 ≤ 1,96
Y el intervalo de confianza de 95% para β 2 , es
0, 006 ≤ β 2 ≤ 0, 021
De lo anterior, se desprende que ambos parámetros son significativos puesto que los intervalos no contienen el cero.

Estimación del intervalo de confianza de la respuesta media


Se puede establecer un intervalo de confianza para la respuesta media en determinado punto, como
x01 , x02 ,.., x0 k Definamos el vector x0 como sigue:
1 
x 
 01 
X0 =  . 
 
 . 
 x0 k 
Por consiguiente, un intervalo de confianza de (1 − α ) x100% de la respuesta media en el punto x01 , x02 ,.., x0 k
es

Yˆ0 − tn − p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0 ≤ E (Y X 0 ) ≤ Yˆ0 + tn− p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0


−1 −1

Considerando el ejemplo anterior, suponga que el embotellador de gaseosas quiere establecer un intervalo de
confianza de 95% para el tiempo medio de entrega, para una tienda donde se requieran x1 = 8 cajas, y donde
la distancia es x2 = 275 pies. Entonces,
 1   2,341
x0 = 8 , luego Yˆ0 = X 0 βˆ = [1 8 275] 1, 615  = 19, 22
  T
   
 275 0, 014 
0,113215 −0, 004449 −0, 000084   1 
σˆ X 0 ( X X ) X 0 = 10, 62 [1 8 275]  −0, 004449
 −0, 000048   8  = 0,567
2 T T −1
0, 002744
 
 −0, 000084 −0, 000048 0, 000001   275
Reemplazando en

Yˆ0 − tn − p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0 ≤ E (Y X 0 ) ≤ Yˆ0 + tn− p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0


−1 −1

Tenemos que el intervalo de confianza de 95% para el tiempo medio de entrega es


17, 66 ≤ E (Y X 0 ) ≤ 20, 78

Intervalos simultáneos de confianza para coeficientes de regresión


Anteriormente establecimos intervalos en forma individual, esto es intervalos de uno por uno, esto es, son los
tipos usuales de intervalo de confianza o de predicción, en donde el coeficiente de confianza 1 − α indica la
proporción de estimaciones correctas que resulta cuando se seleccionan muestras aleatorias repetidas, y para
cada muestra se establece la estimación adecuada del intervalo. Ahora queremos construir varios intervalos de
confianza o de predicción con los mismos datos de muestra. En esos casos, puede ser interés en la especificación
de un coeficiente de confianza que se aplique en forma simultánea a todo el conjunto de estimados de intervalo.
Un conjunto de intervalos de confianza o de predicción que son todos ciertos en forma simultánea, con 1 − α
de probabilidad, se llama conjunto de intervalos simultáneos o conjuntos de confianza o de predicción.
En consecuencia, una región de confianza conjunta de (1 − α ) x100% , para todos los parámetros en una
regresión lineal múltiple es

( βˆ − β ) ( X X ) ( βˆ − β ) ∼ F
T
T

α , p ,n− p
pMS Re s

La región de confianza conjunta, si bien es cierto es fácil de obtener, su interpretación no es práctica, por ello
es conveniente obtener intervalos de confianza individual para cada parámetro.

Método de Bonferroni
El intervalo de confianza de Bonferroni está dado por

βˆ j − t1−α / p ,n − p se( βˆ j ) ≤ β j ≤ βˆ j + t1−α / 2,n − p se( βˆ j )

Los intervalos de confianza de Bonferroni se parecen algo a los intervalos ordinarios de uno por uno, basados
en la distribución t, pero cada intervalo de Bonferroni tiene un coeficiente de confianza de 1 − α / p , en lugar de
1−α .

Predicción de nuevas observaciones


Con el modelo de regresión se pueden predecir observaciones futuras de y que correspondan a determinados
valores de las variables regresoras, por ejemplo x01 , x02 ,.., x0 k . Si X 0T = [1, x01 , x02 ,.., x0 k ] , entonces una
estimación puntual de la observación futura Y0 en el punto x01 , x02 ,.., x0 k es
Yˆ0 = X 0T βˆ
Un intervalo de predicción de (1 − α ) x100% para esta futura observación es

( −1
) (
Yˆ0 − tn − p ,1−α / 2 ⋅ σˆ 2 1 + X 0T ( X T X ) X 0 ≤ Y0 ≤ Yˆ0 + tn − p ,1−α /2 ⋅ σˆ 2 1 + X 0T ( X T X ) X 0
−1
)
Verificación de supuestos

Las principales premisas que se han hecho hasta ahora al estudiar el análisis de regresión son las siguientes:
• La relación entre la respuesta y y los regresores es lineal, al menos en forma aproximada.
• El término de error ε tiene media cero.
• El término de error tiene varianza σ 2 constante.
• Los errores no están correlacionados.
• Los errores tienen distribución normal.

Se presentarán algunos métodos de utilidad para diagnosticar violaciones de las premisas básicas de regresión.
Esos métodos de diagnóstico se basan principalmente en el estudio de los residuales del modelo.

Los residuos estandarizados están dados por


ei
ei* = i = 1,.., n
 1 ( xi − x ) 2 
MS Re s 1 − − 
 n s 
 xx 

Gráficas de diagnóstico
Las gráficas básicas que se recomiendan para una evaluación de la validez de un modelo son las siguientes:

1. ei* (o ei ) sobre el eje vertical contra xi en el eje horizontal.


*
2. ei (o ei ) sobre el eje vertical contra yˆi en el eje horizontal.
3. yˆi sobre el eje vertical contra yi en el eje horizontal.
4. Una gráfica de probabilidad normal de los residuos estandarizados

Las gráficas 1 y 2 se denominan gráficas de residuos (contra la variable independiente y valores ajustados,
respectivamente), en tanto que la gráfica 3 está ajustada contra valores observados. Si la gráfica 3 da puntos
cercanos a la recta de 45° (pendiente +1 que pasa por (0, 0)), entonces la función de regresión estimada da
predicciones precisas de los valores que se observan en realidad. Así, la gráfica 3 proporciona una evaluación
visual de la efectividad del modelo para hacer predicciones. Siempre que el modelo sea correcto, ninguna gráfica
de residuos debe exhibir formas distintas. Los residuos deben estar distribuidos al azar alrededor de 0 según
una distribución normal, de manera que con excepción de unos cuantos, todos los residuos estandarizados
deben encontrarse entre -2 y +2 (es decir, todos excepto unos cuántos a no más de dos desviaciones estándares
de su valor esperado de 0). La gráfica de residuos estandarizados contra yˆi es en realidad una combinación de
las otras dos gráficas, mostrando implícitamente la forma en que varían los residuos con x y cómo se comparan
los valores ajustados con valores observados. Esta última gráfica es la que se recomienda con más frecuencia
para análisis de regresión múltiple. La gráfica 4 permite al analista evaluar la factibilidad de la suposición de que
ε tiene una distribución normal.

También podría gustarte