Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variable. Sus
aplicaciones son diversas en casi cualquier campo, entre ellas la ingeniería, ciencias físicas y químicas, economía,
administración, etc. El modelo de regresión lineal simple, es un modelo con un solo represor x que tiene relación con
una variable respuesta y , cuya relación es una línea recta dada por:
Los parámetros β 0 y β1 son desconocidos, y se deben estimar con los datos de la muestra. Supongamos que
hay n pares de datos ( x1 , y1 ) , ( x2 , y2 ) ,.., ( xn , yn ) obtenido de un experimento controlado, estudio
observacional o de registros históricos.
Para estimar los parámetros β 0 y β1 se usa el método de mínimos cuadrados. Esto es, se estiman β 0 y β1
tales que la suma de los cuadrados de las diferencias entre las observaciones yi y la línea recta sea mínima,
entonces el modelo muestral de regresión para los n pares de datos lo podemos escribir como
i =1 i =1
∂L n
= −2 ( yi − β0 − β1 xi ) = 0
∂β0 i =1
∂L n
= −2 ( yi − β 0 − β1 xii ) xi = 0
∂β1 i =1
Donde βˆ0 y β̂1 son las estimaciones de los parámetros β 0 y β1 , respectivamente, que satisfacen las
ecuaciones normales. Entonces, la solución viene dada por
βˆ0 = y − βˆ1 x
y
s xy
βˆ1 =
sxx
1 n 1 n n n
Con x = = = i( i − ) xx = − = ( xi − x ) .
2 2 2
xi , y yi , s xy y x x , s nx nx
n i =1 n i =1 i =1 i =1
ei = yi − yˆ i = yi − ( β 0 + β1 xi ) , i = 1,.., n .
Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a los supuestos básicos.
Ejemplo:
Un motor de cohete se forma pegando entre sí un propelente de ignición y uno de sostenimiento dentro de una
caja metálica. La resistencia el corte de la pegadura entre los dos propelentes es una característica importante
de la calidad. Se cree que la resistencia la corte se relacione con la edad, en semanas, del lote del propelente de
sostenimiento. Se hicieron 20 observaciones de resistencia al corte y la edad del lote del propelente las cuales
se registran en la siguiente tabla.
2.700
2.600
2.500
2.400
Resistencia al corte
2.300
2.200
2.100
2.000
1.900
1.800
1.700
1.600
0 5 10 15 20 25 30
βˆ0 − β 0
( ) 1 x2
E βˆ0 = β 0 , V βˆ0 = σ 2 + ( ) tal que Z 0 =
n sxx 1 x2
∼ N (0,1)
σ2 +
n sxx
Y
σ βˆ1 − β1
( ) ( )
2
E βˆ1 = β1 , V βˆ1 = tal que Z1 = ∼ N (0,1)
sxx σ2
sxx
Estimación de σ 2
Además de estimar βˆ0 y β̂1 se requiere un estimado de σ para probar hipótesis y formar intervalos pertinentes
2
( n − 2 ) MSRe s ∼ χ 2
E (σˆ 2 ) = E ( MSRe s ) = σ 2 , ya que n −2
σ 2
n
Donde SSRe s = ( yˆ − y ) = ny 2 − βˆ1sxy .
2
i i
i =1
βˆ0 − β 0 1 x2
t0 = ∼ tn − 2 , donde se( βˆ0 ) = MS Re s + .
se( βˆ0 ) n s xx
En forma similar
βˆ1 − β1 MS Re s
t0 = ∼ tn − 2 , donde se( βˆ1 ) = ,
se( βˆ1 ) sxx
Donde se( βˆ0 ) se denomina error estándar del intercepto y se( βˆ1 ) error estándar de la pendiente.
Estos intervalos de confianza tienen la interpretación usual, esto es, si hubiese que tomar muestras repetidas
del mismo tamaño a los mismos valores de x , y formar, por ejemplo, intervalos de confianza de 95% de la
pendiente para cada muestra, entonces el 95% de esos intervalos contendrán el verdadero valor de β1 .
Por otra parte, el intervalo de confianza de (1 − α ) x100% para la varianza σ 2 es:
( n − 2) MS Re s (n − 2) MS Re s
≤σ2 ≤
χ 2
1−α / 2, n − 2 χα2 /2,n − 2
Ejemplo
Establecerlos intervalos de confianza de 95% para β1 y σ
2
con los datos del propelente de cohetes.
Tenemos que βˆ1 = −37,15 , se( βˆ1 ) = 2,88 y tn− 2,1−α /2 = t18;0,025 = 2,101
−43, 22 ≤ β1 ≤ −31, 08
Para σ se tiene que σˆ = MSRe s = 9.236,38 , χ12−α /2, n − 2 = χ 0,025;18 = 31, 5 χ12−α /2,n − 2 = χ 0,975;18 = 8, 23
2 2 2 2
5.277,93 ≤ σ 2 ≤ 20.201, 07
E ( y x0 ) = µˆ y x0 = βˆ0 + βˆ1 x0
Nota: µˆ y x0 es una variable aleatoria normalmente distribuida, puesto que es una combinación lineal de las
observaciones yi .
Donde
1 ( x0 − x )2
V ( µˆ y x0 ) = σ +
2
n s
xx
Luego
µˆ y x − E ( y x0 )
0
∼ t n −2
1 ( x0 − x ) 2
MSRe s +
n s
xx
2.086, 23 ≤ E ( y x0 ) ≤ 2.176, 53
2.700
2.600
2.500
2.400
Resistencia al corte
2.300
2.200
2.100
2.000
1.900
1.800
1.700
1.600
0 5 10 15 20 25 30
Ejemplo
Determinar un intervalo de predicción de 95% para el valor futuro de la resistencia al corte del propelente, en
un motor fabricado con un lote de propelente que tiene 10 semanas de edad.
2.048, 40 ≤ y0 ≤ 2.464,19
Nota: Al comparar los intervalos de respuesta media y predicción en x0 , este último siempre es más ancho que
porque el intervalo de predicción depende tanto del error del modelo ajustado como del error asociado con
observaciones futuras.
Coeficiente de determinación
La cantidad
SSR SS
R2 = = 1 − Re s , 0 ≤ R 2 ≤ 1 ,
SST SST
se denomina coeficiente de determinación.
2
Los valores de R cercanos a 1 implican que la mayor parte de la variabilidad de y está explicada por el modelo
de regresión.
2 2
El estadístico R se debe usar con precaución, porque siempre es posible conseguir que R sea grande
agregando términos suficientes al modelo.
2
En general, R aumenta a medida que aumenta la dispersión de las x o viceversa, siempre y cuando sea
correcta la forma supuesta del modelo (Hahn, 1973).
2
Si R es grande, no necesariamente implica que el modelo de regresión sea un predictor exacto.
Para el modelo de regresión con los datos del propelente de reacción tenemos que
SSR 1.527.334,95
R2 = = = 0,9018
SST 1.693.737,60
por tanto, el 90.18% de la variabilidad de la resistencia queda explicada por el modelo de regresión.
Pruebas de hipótesis para la pendiente y ordenada en el origen
βˆ0 − β00
Estadístico de prueba: t0 = ∼ tn − 2
se( βˆ0 )
( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n − 2 ∪ t1−α /2,n − 2 , ∞ )
En particular nos interesa probar la hipótesis para β 00 = 0 .
βˆ1 − β10
Estadístico de prueba: t0 = ∼ tn − 2
se( βˆ1 )
( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n − 2 ∪ t1−α /2,n − 2 , ∞ )
El procedimiento de prueba para H 0 : β1 = β10 se puede establecer con dos métodos. El primero es el
mencionado anteriormente y el otro es usando el método de análisis de varianza.
Ejemplo
Probar la significancia de la regresión en el modelo del propelente de reacción. Luego, el estadístico de prueba
es
βˆ1 − β10 −37.15
t0 = = = −12,85
se( βˆ1 ) 9.235, 64
1.106,55
Por consiguiente, si se escoge α = 0, 05 , el valor crítico de t0,025,18 = 2,101 Así, se rechazaría H 0 : β1 = 0 y se
llegaría a la conclusión que hay una relación lineal entre la resistencia al corte y la edad del propelente.
Análisis de varianza
También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este análisis
se basa en una partición de la variabilidad total de la variable y de respuesta. Para obtener esta partición se
comienza con la identidad fundamental del análisis de varianza para un modelo de regresión
( yi − yi ) = ( yˆi − yi ) + ( yi − yˆi )
Elevando al cuadrado la expresión anterior, sumando y resolviendo, se tiene
n n n
( yi − yi ) = ( yˆi − yi ) + ( yi − yˆi )
2 2 2
i =1 i =1 i =1
SST = SS R + SSRe s
La cantidad de grados de libertad se determina como sigue. La suma total de cuadrados, SST tiene dfT = n − 1
n
grados de libertad, porque se perdió un grado de libertad como resultado de la restricción ( y − y ) para las
i =1
i i
dfT = df R + df Res
n −1 = 1 + (n − 2)
Se puede aplicar la prueba F en el análisis de varianza para probar la hipótesis H 0 : β1 = 0 como sigue.
Un modelo de regresión lineal con k regresores, o variables predictoras se llama modelo lineal de regresión
múltiple y se representa por:
y = β 0 + β1 x1 + β 2 x2 + .. + β k xk + ε , ε ∼ N (0, σ 2 )
Los parámetros β j con j = 1,.., k se llaman coeficientes de regresión. Este modelo describe a un hiperplano
en el espacio de k dimensiones de las variables regresoras x j . El parámetro β j representa el cambio esperado
en la respuesta y por cambio unitario en x j cuando todas las demás variables regresoras xi ( i ≠ j ) se
mantienen constantes. Por esta razón, a los parámetros β j , j = 1,.., k se les llama con frecuencia coeficientes
de regresión parcial.
Y = X β +ε, ε ∼ N (0, σ 2 )
y1 1 x11 . . x1k
x12 β0 ε1
y 1 x ε
2 21 x22 . . x2 k β1 2
Donde Y = . , X = . . . . . . , β = . y ε = .
. . . . . . . . .
yn 1 xn1 xn 2 . . xnk β n ε n
Se desea determinar el vector de estimadores, βˆ = ( βˆ0 , βˆ1 ,.., βˆk ) , de mínimos cuadrados que minimice
n
L( β 0 , β1 ,.., β k ) = ε i 2 = (Y − X β ) (Y − X β )
T
i =1
Luego, derivando L con respecto al vector de parámetros β , igualando a cero y resolviendo se obtiene las
ecuaciones normales de mínimos cuadrados
X T X β = X TY
El vector estimador para β por de mínimos cuadrados que está dado por
βˆ = ( X T X ) X T Y
−1
( ) ( )
−1 −1
Siempre y cuando exista la matriz inversa X T X . La matriz X T X siempre existe si los regresores son
linealmente independientes.
Observación:
n n n
n xi1
i =1
xi 2
i =1
. . x
i =1
ik
n n n n
xi1 x x
2
i1 x
i1 i 2 . . xi1 xik
X X =
T i =1 i =1 i =1 i =1
. . . . . .
. . . . . .
n n n n
xik x ik xi1 x x
ik i 2 . . xik2
i =1 i =1 i =1 i =1
( )
−1
La matriz H = X X T X X T , cuadrada de n, se suele llamar matriz ajustada o estimada.
La diferencia entre el valor observado yi y el valor ajustado yˆ i es el residual, y escrito en forma matricial es
e = Y − Yˆi = ( I − H ) Y .
Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a los supuestos básicos.
(
βˆ ∼ N β , σ 2 ( X T X )
−1
)
( )
−1
De lo cual se deprende que si C = X T X la varianza de β j es σ 2C jj , y la covarianza entre β i y β j es σ 2Cij
.
Estimación de σ 2
Similar al caso de regresión simple se puede demostrar que el estimador
( n − p ) MSRe s ∼ χ 2
E (σˆ 2 ) = E ( MSRe s ) = σ 2 , ya que n− p
2
σ
, donde SS Re s T
( )
= Y Y − βˆ T X T Y , tal que E σˆ 2 = σ 2 .
2, 341
βˆ = ( X X ) X Y = 1, 615
T −1 T
0, 014
Luego, el modelo lineal por mínimos cuadrados es
yˆ = 2, 341 + 1, 615 x1 + 0, 014 x2
SST = Y T Y − (1T Y )
1 2
Total n −1
n
R 2 y R 2 ajustada
2 2
Otras dos maneras de evaluar la adecuación general del modelo son los estadísticos R y R ajustada, ésta
2
última se representa por R Adj y se define como
SSRe s / (n − p )
R2 = 1 −
SST / (n − 1)
233, 73 / 23
Para el ejemplo, tenemos que R = 1 − = 0,9578 , es decir el 95,78% de la variación de la
2
5.784,54 / 24
respuesta es explicado por el modelo de regresión.
Pruebas sobre coeficientes individuales de regresión
Los pasos para realizar la prueba de hipótesis para cualquier coeficiente individual de regresión, son
Plantear Hipótesis: H 0 : β j = 0 v/s H1 : β j ≠ 0
βˆ j − β j
Estadístico de prueba: t0 = ∼ tn −k −1
se( βˆ j )
( )
−1
Donde se( βˆ j ) = σˆ 2C jj , C jj es la j-ésima entrada de la diagonal de X T X y se denomina error estándar
( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n −k −1 ∪ t1−α /2, n−k −1 , ∞ )
Si no se rechaza H 0 : β j = 0 , quiere decir que se puede eliminar el regresor x j del modelo.
βˆ1 − 0 1,61
t0 = = = 9, 46442138
σˆ C22
2
10, 62 ⋅ 0, 002744
βˆ2 − 0 0, 014
t0 = = = 3,98
σˆ 2C33 10, 62 ⋅ 0, 000001
Cada uno de las pruebas se rechaza, por lo que cada regresor contribuye en forma significativa al modelo.
0, 014
1, 61 − 2, 074 10, 62 ⋅ 0, 002744 ≤ β1 ≤ 1, 61 + 2, 074 10, 62 ⋅ 0, 002744
1, 26 ≤ β1 ≤ 1,96
Y el intervalo de confianza de 95% para β 2 , es
0, 006 ≤ β 2 ≤ 0, 021
De lo anterior, se desprende que ambos parámetros son significativos puesto que los intervalos no contienen el cero.
Considerando el ejemplo anterior, suponga que el embotellador de gaseosas quiere establecer un intervalo de
confianza de 95% para el tiempo medio de entrega, para una tienda donde se requieran x1 = 8 cajas, y donde
la distancia es x2 = 275 pies. Entonces,
1 2,341
x0 = 8 , luego Yˆ0 = X 0 βˆ = [1 8 275] 1, 615 = 19, 22
T
275 0, 014
0,113215 −0, 004449 −0, 000084 1
σˆ X 0 ( X X ) X 0 = 10, 62 [1 8 275] −0, 004449
−0, 000048 8 = 0,567
2 T T −1
0, 002744
−0, 000084 −0, 000048 0, 000001 275
Reemplazando en
( βˆ − β ) ( X X ) ( βˆ − β ) ∼ F
T
T
α , p ,n− p
pMS Re s
La región de confianza conjunta, si bien es cierto es fácil de obtener, su interpretación no es práctica, por ello
es conveniente obtener intervalos de confianza individual para cada parámetro.
Método de Bonferroni
El intervalo de confianza de Bonferroni está dado por
Los intervalos de confianza de Bonferroni se parecen algo a los intervalos ordinarios de uno por uno, basados
en la distribución t, pero cada intervalo de Bonferroni tiene un coeficiente de confianza de 1 − α / p , en lugar de
1−α .
( −1
) (
Yˆ0 − tn − p ,1−α / 2 ⋅ σˆ 2 1 + X 0T ( X T X ) X 0 ≤ Y0 ≤ Yˆ0 + tn − p ,1−α /2 ⋅ σˆ 2 1 + X 0T ( X T X ) X 0
−1
)
Verificación de supuestos
Las principales premisas que se han hecho hasta ahora al estudiar el análisis de regresión son las siguientes:
• La relación entre la respuesta y y los regresores es lineal, al menos en forma aproximada.
• El término de error ε tiene media cero.
• El término de error tiene varianza σ 2 constante.
• Los errores no están correlacionados.
• Los errores tienen distribución normal.
Se presentarán algunos métodos de utilidad para diagnosticar violaciones de las premisas básicas de regresión.
Esos métodos de diagnóstico se basan principalmente en el estudio de los residuales del modelo.
Gráficas de diagnóstico
Las gráficas básicas que se recomiendan para una evaluación de la validez de un modelo son las siguientes:
Las gráficas 1 y 2 se denominan gráficas de residuos (contra la variable independiente y valores ajustados,
respectivamente), en tanto que la gráfica 3 está ajustada contra valores observados. Si la gráfica 3 da puntos
cercanos a la recta de 45° (pendiente +1 que pasa por (0, 0)), entonces la función de regresión estimada da
predicciones precisas de los valores que se observan en realidad. Así, la gráfica 3 proporciona una evaluación
visual de la efectividad del modelo para hacer predicciones. Siempre que el modelo sea correcto, ninguna gráfica
de residuos debe exhibir formas distintas. Los residuos deben estar distribuidos al azar alrededor de 0 según
una distribución normal, de manera que con excepción de unos cuantos, todos los residuos estandarizados
deben encontrarse entre -2 y +2 (es decir, todos excepto unos cuántos a no más de dos desviaciones estándares
de su valor esperado de 0). La gráfica de residuos estandarizados contra yˆi es en realidad una combinación de
las otras dos gráficas, mostrando implícitamente la forma en que varían los residuos con x y cómo se comparan
los valores ajustados con valores observados. Esta última gráfica es la que se recomienda con más frecuencia
para análisis de regresión múltiple. La gráfica 4 permite al analista evaluar la factibilidad de la suposición de que
ε tiene una distribución normal.