Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Regresión.
4.1. Etimologı́a
El término regresión fue introducido por Francis Galton en su libro Natural in-
de una tendencia en la que los padres de estatura alta tenı́an hijos altos y los padres
de estatura baja tenı́an hijos bajos, la estatura promedio de de los niños nacidos de
quién reunió más de mil registros de estaturas de miembros de grupos familiares. Pear-
son encontró que la estatura promedio de los hijos de un grupo de padres de estatura
alta era menor que la estatura de sus padres y la estatura promedio de los hijos de un
grupo de padres de estatura baja era mayor que la estatura de sus padres, generándose
ası́ un fenómeno mediante el cual los hijos altos e hijos bajos, regresaban”por igual
89
90 Captulo 4. Anlisis de Regresin.
Definición 4.1 (Análisis de Regresión) Es una técnica estadı́stica que se usa para
la letra Y .
4.3. Ejemplos
estas variables, y ası́ poder determinar cuanto del ingreso de una persona destina
asociada con el producto o servicio que presta una empresa. Dicha demanda puede
estar representada por las personas de una población. Si la empresa desea conocer
3. Bajo ciertas condiciones ideales, el tiempo que una persona dedica al estudio
Y = f (X1 , ..., Xn )
de Regresión Simple.
92 Captulo 4. Anlisis de Regresin.
gresión Multiple.
2. De acuerdo a la forma de f .
Regresión Lineal.
Regresión No Lineal.
tan. Por ejemplo, el caso mas sencillo del Análisis de Regresión es cuando se tiene una
Los modelos de regresión son usados con diversos propósitos, entre los cuales se
tienen:
1. Describir datos.
2. Estimar parámetros.
4.5. Propsitos del Anlisis de Regresin 93
3. Realizar pronóstico.
vio antes son conocidas como Modelos de Regresión. Por ejemplo al estudiar
que la velocidad y el tiempo están relacionados por una lı́nea recta que pasa por el
origen con pendiente a, donde a es la aceleración del carro. Por lo tanto, el Análisis
de Regresión puede usarse para ajustar este modelo a los datos, produciendo ası́
5.1. Introducción
En la práctica existen muy pocos casos en los que la variable respuesta esta influen-
ciada por una variable independiente, por lo tanto el análisis de regresión lineal simple
es de poca utilidad. Sin embargo es el más indicado como punto de partida en el estudio
modelo con una sola variable independiente X relacionada con una variable respuesta
Y = β0 + β1 X + (5.1)
95
96 Captulo 5. Anlisis de Regresin Lineal Simple.
pio se asumen que tienen media cero, varianza desconocida σ 2 y que están descorrela-
cionados entre sı́ (esto significa que el valor de un error no depende del valor de otro
error.
ista y medida sin error, es decir, que X no es una variable aleatoria. Por el contrario,
estatura, se tiene que para una misma edad existen personas con diferentes estaturas.
Por lo tanto, Y es una variable aleatoria y en consecuencia tiene una distribución de
y la varianza es
del valor de X. Además, ya que los errores están descorrelacionados, las respuestas
están descorrelacionadas.
una unidad en X.
Y = β0 + β1 X + β11 X 2 +
es un modelo de regresión lineal (en los β) de segundo orden (en X). Al menos un
modelo es llamado especı́ficamente no lineal este puede ser tomado que es lineal en los
parámetros, y la palabra lineal es usualmente omitida y olvidada. El orden del modelo
tros
5.3.1. Estimación de β0 y β1 .
tanto deben ser estimados a partir de una muestra. Un método para estimar dichos
la suma de los cuadrados de las diferencias entre las observaciones yi y la lı́nea recta sea
98 Captulo 5. Anlisis de Regresin Lineal Simple.
mı́nima. Supongase que tenemos n pares de datos, digamos, (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
yi = β0 + β1 xi + i (5.4)
por lo que la suma de cuadrados de las desviaciones con respecto a la recta verdadera
es
n
n
S= 2i = (yi − β0 − β1 xi )2 (5.5)
i=1 i=1
Seleccionamos nuestras estimaciones βˆ0 y βˆ1 como aquellos valores, que al sustituir-
los por β0 y β1 en la ecuación (5.5), produce el menor valor posible de S. Note que xi
y yi son los valores que hemos observado. Podemos determinar βˆ0 y βˆ1 al diferenciar
la ecuación (5.5) primero con respecto a β0 y luego con respecto a β1 e igualando los
resultados a cero. Ahora,
∂S n
= −2 (yi − β0 − β1 xi ) (5.6)
∂β0 i=1
∂S n
= −2 (yi − β0 − β1 xi )xi (5.7)
∂β1 i=1
n
(yi − β0 − β1 xi ) = 0 (5.8)
i=1
n
(yi − β0 − β1 xi )xi = 0 (5.9)
i=1
donde hemos sustituido (βˆ0 , βˆ1 ) por (β0 , β1 ), cuando igualamos las ecuaciones (5.6)
n
n
yi − nβˆ0 − βˆ0 xi = 0 (5.10)
i=1 i=1
n
n
n
xi yi − βˆ0 xi − βˆ1 x2i = 0 (5.11)
i=1 i=1 i=1
n
n
nβˆ0 + βˆ1 xi = yi (5.12)
i=1 i=1
n
n
n
βˆ0 xi + βˆ1 x2i = xi y i (5.13)
i=1 i=1 i=1
n
n
( xi )( yi )
n
i=1 i=1
xi yi −
i=1
n
βˆ1 = (5.14)
n
( xi )2
n
i=1
x2i −
i=1
n
n
( xi )2
n
i=1
n
Sxx = x2i − = (xi − x̄)2 (5.16)
i=1
n i=1
n
n
( xi )( yi )
n
i=1 i=1
n
Sxy = xi yi − = yi (xi − x̄) (5.17)
i=1
n i=1
Sxy
βˆ1 = (5.18)
Sxx
5.3. Estimadores Mnimos Cuadrados de los Parmetros 101
5.3.2. Estimación de σ 2 .
depende de la adecuacidad del modelo ajustado. Esto es solamente posible cuando hay
n
n
SSE = e2i = (yi − ŷi )2 (5.19)
i=1 i=1
libertad están asociados con las estimaciones β0 y β1 envueltas para obtener ŷi . Ahora
SSE
σ̂ 2 = = M SE (5.22)
n−2
algunas veces llamado el error estándar de regresión, y tiene las mismas unidades
que la variable respuesta. Ya que depende la suma de cuadrados del error, cualquier
102 Captulo 5. Anlisis de Regresin Lineal Simple.
violación de los supuestos sobre el error en el modelo puede afectar seriamente el uso
de σ̂ 2 como un estimador de σ 2 .
Los estimadores mı́nimos cuadrados βˆ0 y βˆ1 tienen diversas propiedades estadı́sticas
n
βˆ1 = ci yi (5.23)
i=1
xi −x̄
donde ci = Sxx
para i = 1, 2, ..., n
σ2
V ar(βˆ1 ) = (5.24)
Sxx
1 x̄2
V ar(βˆ0 ) = σ 2 ( + ) (5.25)
n Sxx
4. Son insesgados y de mı́nima varianza, es decir son los mejores estimadores inses-
gados.
n
n
ei = (yi − ŷi ) = 0 (5.26)
i=1 i=1
n
n
yi = ŷi (5.27)
i=1 i=1
n
xi ei = 0 (5.28)
i=1
n
ŷi ei = 0 (5.29)
i=1
n
n
(Yi − Ŷi )
2
= [(Yi − Y ) − (Ŷi − Y )]2
i=1 i=1
n
= [(Yi − Y )2 + (Ŷi − Y )2 − 2(Yi − Y )(Ŷi − Y )]
i=1
n
n
n
= (Yi − Y ) +
2
(Ŷi − Y ) − 22
(Yi − Y )(Ŷi − Y )
i=1 i=1 i=1
n
n
−2 (Yi − Y )(Ŷi − Y ) = −2 (Yi − Y )b1 (Xi − X)
i=1 i=1
n
= −2b1 (Yi − Y )(Xi − X)
i=1
n
= −2b21 (Xi − X)2
i=1
n
= −2 (Ŷi − Y )2
i=1
Ası́
n
n
n
(Yi − Ŷi ) =
2
(Yi − Y ) −2
(Ŷi − Y )2 (5.31)
i=1 i=1 i=1
n
n
n
(Yi − Y )2 = (Ŷi − Y )2 + (Yi − Ŷi )2 (5.32)
i=1 i=1 i=1
cuadrados corregida de las observaciones (Syy ). Los dos componentes de Syy miden,
respectivamente, la cantidad de variabilidad en las observaciones yi descrita por la
Esto muestra que, de la variación de los Y s sobre su media, algunas de las varia-
n
ciones puede atribuirse a la linea de regresión y algunas, (Yi − Ŷi )2 , al hecho de que
i=1
las observaciones actuales no todas caen en la recta de regresión (si todas cayeran, la
suma de cuadrados del error debı́a ser cero). De este procedimiento podemos ver que
una manera de evaluar que la recta de regresión sea usada como un predictor es ver
ajuste ”perfecto”(R2 = 1) para n puntos. Cuando hay puntos repetidos, R2 nunca será
al error ”puro”.
cuadrados del error en el modelo nuevo se reduzca en una cantidad igual a la suma
de cuadrados del error original, el nuevo modelo tendrá un cuadrado medio del error
más grande que el anterior debido a la perdida de un grado de libertad del error. Ası́
β̂12 Sxx
E(R2 )
β̂12 Sxx + σ 2
demasiado grande. Por otro lado, R2 puede ser pequeño debido a que el rango de x
también era pequeño como para permitir que su relación con y sea detectada.
modelo lineal es apropiado, se puede tener un R2 alto aunque las variables no tengan
5.4. Precisin de la Regresin Estimada 107
Cualquier suma de cuadrados tiene asociado a él un numero llamado sus grados de
los n numeros independientes Y1 , Y2 , ..., Yn son necesarias para calcular las sumas de
cuadrados. Por ejemplo, la SS sobre la media necesita (n − 1) piezas independientes
que todos los n numeros deben sumar cero por la definición de la media). Podemos
Por lo tanto, la ecuación (5.32), muestra la relación de los grados de libertad como
(n − 1) = (n − 2) + 1 (5.34)
para las expresiones de la ecuación (5.32) podemos construir una tabla de análisis de
Grados de Cuadrados
Fuente de Variación Suma de cuadrados
libertad medios
Regresión β̂1 Sxy 1 M SR
Error Syy − β̂1 Sxy n−2 M SE
Total Syy n−1
Hasta este punto no hemos hecho ningún supuesto sobre la distribución de proba-
bilidad de los elementos del modelo. Un numero especifico de cálculos algebraicos han
sido realizados y eso es todo. Ahora haremos los supuestos básicos sobre el modelo
Yi = β0 + β1 Xi + i , i = 1, 2, ..., n.
1. i es una variable aleatoria con media cero y varianza σ 2 (desconocida), esto es,
E(i ) = 0, V (i ) = σ 2 .
Cov(i , j ) = 0
Por lo tanto,
E(Yi ) = β0 + β1 Xi V (Yi ) = σ 2
y Yi y Yj , i = j, están descorrelacionadas.
decir,
i ∼ N (0, σ 2 )
Bajo este último supuesto i y j no sólo están descorrelacionadas sino que además
son independientes.
examen consiste en realizar inferencias estadı́sticas sobre los parámetros del modelo.
5.5. Examinando la Ecuacin de Regresin 109
Vimos que el estimador para β1 obtenido por el método de los mı́nimos cuadrados
n n n
n X i Yi − ( Xi )( Yi )
i=1 i=1 i=1 Syx
βˆ1 = =
n
n
Sxx
n Xi2 − ( Xi )2
i=1 i=1
y cuya varianza es
σ2
V ar(β̂1 ) =
Sxx
σ
ee(β̂1 ) = √
Sxx
σ̂
ee(β̂1 ) = √ (5.35)
Sxx
H0 : β1 = β10
H1 : β1 = β10
donde se ha especificado una alternativa de dos colas (podrı́a ser de una cola,
β̂1 − β10
Z0 = (5.36)
σ2
Sxx
β̂1 − β10
t0 = (5.37)
M SE
Sxx
H0 : β1 = 0
H1 : β1 = 0
Note que esto puede implicar que x no es suficiente para explicar la variación de y
mejores resultados pueden obternerse con la adición de polinomios de orden más altos
en terminos de x.
SSR /1 M SR
F0 = = (5.38)
SSE /(n − 2) M SE
E(M SE ) = σ 2 (5.39)
112 Captulo 5. Anlisis de Regresin Lineal Simple.
Grados de Cuadrados F0
Fuente de Variación Suma de cuadrados
libertad medios
Regresión β̂1 Sxy 1 M SR M SR
M SE
Error Syy − β̂1 Sxy n−2 M SE
Total Syy n−1
σ̂
β̂1 ± t(n−2,1− α2 ) √ (5.42)
Sxx
5.5. Examinando la Ecuacin de Regresin 113
Para probar
H0 : β0 = β00
H1 : β0 = β00
β̂0 − β00
t0 = (5.43)
2
M SE ( n1 + Sx̄xx )
de la distribución t-student.
1 x̄2
β̂0 ± t(n−2,1− α2 ) σ̂ + (5.44)
n Sxx
tral de
114 Captulo 5. Anlisis de Regresin Lineal Simple.
(n − 2)M SE
(5.45)
σ2
es χ2n−2 . Ası́,
(n − 2)M SE
P χ21− α ,n−2 ≤ ≤ χ2α ,n−2 =1−α (5.46)
2 σ 2 2
(n − 2)M SE (n − 2)M SE
≤ σ2 ≤ (5.47)
χ α ,n−2
2
χ21− α ,n−2
2 2
5.6. Predicción
x.
ŷ − E(y/x0 )
0 (5.49)
(x0 −x̄)2
M SE n + Sxx
1
1 (x0 − x̄)2
yˆ0 ± tα/2,n−2 M SE + (5.50)
n Sxx
Note que el ancho del intervalo es una función de x0 . La amplitud del intervalo es
minima para x0 = x̄ y se ensancha a medida que |x0 − x̄| se incrementa. Intuitivamente
ψ = y0 − ŷ0
1 (x0 − x̄)2
yˆ0 ± tα/2,n−2 M SE 1 + + (5.52)
n Sxx
y Y como
Cov(X, Y )
ρXY = 1 (5.53)
[V ar(X)V ar(Y )] 2
los posibles valores de X y Y caen en una lı́nea recta con pendiente positiva en
el plano (X, Y ).
camente independientes.
los posibles valores de X y Y caen en una lı́nea recta con pendiente negativa en
el plano (X, Y ).
n
yi (xi − x̄)
i=1 Sxy
r= 12 = 1 (5.54)
n
n [Sxx Syy ] 2
(xi − x̄)2 (yi − ȳ)2
i=1 i=1
118 Captulo 5. Anlisis de Regresin Lineal Simple.
Note que
12
Syy
β̂1 = r (5.55)
Sxx
cado por un factor de escala que es la raı́z cuadrada de la dispersion de los y s divididos
por la dispersion de los x s. Ası́ β̂1 y r están ı́ntimamente relacionados, aunque ellos
la asociación entre y y x, mientras que β̂1 mide el cambio predicho en y por un cambio
en una unidad de x. En el caso de una variable controlable x, r no tiene significado
una medida de asociación y es de poco uso en la predicción. Sin embargo, los métodos
H0 : ρ = 0
H1 : ρ = 0
√
r n−2
t0 = √ (5.56)
1 − r2
Por lo tanto se rechaza la hipótesis nula si |t0 | > tα/2,n−2 . Esta prueba es equivalente a
5.8. Ejercicios
1. Determine si los siguientes modelos son lineales en los parámetros, o en las vari-
a) yi = β0 + β1 1
xi
+ i
b) yi = β0 + β1 ln(xi ) + i
c) ln yi = β0 + β1 xi + i
d ) ln yi = ln β0 +
beta1 ln xi + i
e) ln yi = β0 − β1 1
xi
+ i
a) yi = exp β0 + β1 xi + i
b) yi = 1
1+exp β0 +β1 xi +i
d ) yi = β0 + β13 xi + i
120 Captulo 5. Anlisis de Regresin Lineal Simple.
n
3. Probar que SSE = e2i puede escribirse como E = Syy − β1 Sxy
i=1
5. Considere los datos del ejercicio anterior. Repita las partes a, b y c usando el
ancho del vehı́culo (x10 ) como la variable regresora. Basado en una comparación
de los dos modelos, se puede concluir que (x1 ) es mejor regresor que (x10 ).
a) Hallar una recta de regresión lineal que relacione la presión sanguı́nea con
el peso.
2
a) Demostrar que Cov(β̂0 , β̂1 ) = − barxσ
Sxx
9. Probar que el valor máximo de R2 es menor que 1 si los datos contienen obser-
10. Considere el modelo de regresión lineal simple y = β0 +β1 x+, donde el intercepto
β0 es conocido.
respuesta razonable?.
122 Captulo 5. Anlisis de Regresin Lineal Simple.
parte a?.
Regresión usando R
sión
1. lm()
lm(formula,data)
donde
formula es y ∼ x1 + x2 .
123
124 Captulo 6. Regresin usando R
M1<-lm(formula,data)
Para imprimir los resultados obtenidos con la función lm() se coloca el nombre
M1
2. summary()
es
su respectivo p-valor.
Otros estadı́sticos que premiten evaluar la bondad del ajuste del modelo
tales como: error estándar del residual con su respectivo grados de libertad,
modelo.
3. anova()
ciona el análisis de varianza que se usa para evaluar la significancia del modelo
de regresión lineal.
6.1. Funciones que se usan en el anlisis de regresin 125
4. fitted()
5. residuals()
6. rstudent()
7. rstandard()
8. plot()
La función plot() se usa para obtener los gráficos de los residuos excepto el his-
del gráfico”)
9. hist()
10. qqnorm()
ruta atienda las máquinas expendedoras en una tienda. Esta actividad de servicio con-
limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos vari-
ables más importantes que afectan el tiempo de entrega y son la cantidad de cajas de
producto abastecido, x1 , y la distancia caminada por el representante, x2 . El ingeniero
y = β0 + βx1 + ε
> attach(Datos)
Para obtener resultados mas detallados sobre el análisis de regresión se usa la siguiente
instrucción
6.2. Ejemplo: Tiempo de Entrega 127
> summary(MRL1)
Call:
Residuals:
Coefficients:
Signif. codes: 0 Ś***Š 0.001 Ś**Š 0.01 Ś*Š 0.05 Ś.Š 0.1 Ś Š 1
> anova(MRL1)
Observación yi ŷi ei ri
1 16.68 18.5539 -1.8739 -0.4500
2 11.50 9.8493 1.6507 0.4017
3 12.03 9.8493 2.1807 0.5321
4 14.88 12.0254 2.8546 0.6962
5 13.75 16.3778 -2.6278 -0.6353
6 18.11 18.5539 -0.4439 -0.1062
7 8.00 7.6731 0.3269 0.0797
8 17.83 18.5539 -0.7239 -0.1732
9 79.24 68.6058 10.6342 4.6851
10 21.50 14.2016 7.2984 1.8908
11 40.33 38.1394 2.1906 0.5395
12 21.00 25.0824 -4.0824 -0.9970
13 13.50 12.0254 1.4746 0.3567
14 19.75 16.3778 3.3722 0.8201
15 24.00 22.9063 1.0937 0.2615
16 29.00 25.0824 3.9176 0.9551
17 15.35 16.3778 -1.0278 -0.2466
18 19.00 18.5539 0.4461 0.1067
19 9.50 9.8493 -0.3493 -0.0847
20 35.10 40.3156 -5.2156 -1.3369
21 17.90 25.0824 -7.1824 -1.8436
22 52.32 59.9011 -7.5811 -2.3790
23 18.75 22.9063 -4.1563 -1.0152
24 19.83 20.7301 -0.9001 -0.2152
25 10.75 12.0254 -1.2754 -0.3084
> fitted(MRL1)
>residuals(MRL1)
>rstudent(MRL1)
130 Captulo 6. Regresin usando R
En la figura 6.2 se muestran diversos gráficos que permiten evaluar los supuestos y la
adecuacidad del modelo. Dichos gráficos se obtuvieron con las siguientes instrucciones:
Para el histograma
"Frecuencia")
> abline(0, 1)
ylab = expression(e[i]))
expression(e[i+1]))
10
4
8
3
Cuantiles Muestrales
2
6
Frecuencia
1
4
0
−1
2
−2
0
−10 −5 0 5 10 15 −2 −1 0 1 2
4
3
3
2
2
ei
ri
1
1
0
0
−1
−1
−2
−2
10 20 30 40 50 60 70 5 10 15 20 25 30
y^i Cajas
5
2
ei+1
ei
1
0
0
−1
−5
−2
−2 −1 0 1 2 3 4 5 10 15 20 25
ei Observación