Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentacion
Presentacion
Parte
Regresión Lineal
Y = a + bX + c
i
e
i 1
( 2
y
i a
i 1
bxi ) 2
. Usando técnicas de cálculo diferencial para minimizar una
s xy
yx
s xx
la ecuación Y X es llemada la línea de regresión estimada, para obtener esta línea en
Ejemplo 1. Se desea hallar una línea de regresión que permita predecir el precio de una
casa (Y) basado en el áreas de la misma ( X) .Se recolectaron 15 datos.
El botón Results permite controlar los resultados que aparecerán en la ventana session. Hay
4 alternativas para controlar la salida según se muestra en la Figura 1.
El botón Storage permite guardar algunas medidas importantes que aparecen el análisis de
regresión y que posteriormente se pueden usar, por ejemplo en el análisis de residuales.
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 1 7241245891 7241245891 36.33 0.000
Residual Error 13 2591087442 199314419
Total 14 9832333333
Unusual Observations
Obs Area Precio Fit StDev Fit Residual St Resid
14 3000 220000 188737 7923 31263 2.68R
Interpretación de b:
Indica el cambio promedio en la variable de respuesta Y cuando X aumenta en una unidad
adicional. En el ejemplo anterior indica que por cada pie cuadrado adicional de la casa su
precio aumentará en promedio en 38.5 dólares.
Inferencia en Regresión
Lineal
Se pueden hacer prueba de hipótesis acerca del intercepto a y de la pendiente b de la línea
de regresión poblacional. Lo más frecuente es tratar de probar las hipótesis :
t
s.e.( ) s
Sxx
n
i1
( y i y i )2
L a c u a l s e d is trib u y e c o m o u n a t c o n n -2 g ra d o s d e lib e rta d . A q u í s e s la
n 2
n n
i 1
c o rre g id a d e la v a ria b le X .
E n e l e j e m p l o 1 , s = 1 4 .1 1 8 y s . e ( ) s / s xx 6 . 391
En MINITAB aparece el valor de la prueba estadística y el " p-value" de la prueba, él cual
se puede usar para llegar a una decisión. Un " p-value" cercano a 0, digamos menor que
0.05 lleva a la conclusión de rechazar la hipótesis nula. Si se rechaza la hipótesis nula
quiere decir que de alguna manera la variable X es importante para predecir el valor de Y.
En cambio si se acepta la hipótesis nula se llega a la conclusión de que la variable X no es
importante para predecir el comportamiento Y.
El análisis de varianza que fue introducida por Fisher, consiste en descomponer la variación
total de una variable en varias partes , cada una de las cuales es llamada una fuente de
variación . En el caso de regresión , la descomposición de la variación de la variable de
respuesta Y es como sigue:
n
Suma de Cuadrados del Error =SSE= i
2
( y y )
i1
Cada una de estas sumas de cuadrados tiene una distribución Ji - Cuadrado, SSR tienen
una distribución Ji- Cuadrado No central con 1 grado de libertad, SSE tiene una
distribución Ji- Cuadrado con n-2 grado de libertad y SST se comporta como un Ji-
Cuadrado con n-1 grados de libertad. Al dividir las sumas de cuadrados por sus grados de
libertad se obtienen los Cuadrados Medios. Si la hipótesis de que la pendiente b es 0 es
cierta entonces la división del cuadrado medio de la regresión por el cuadrado medio del
error se distribuye como una F con 1 grado de libertad en el numerador y n-2 en el
denominador. Luego la hipótesis Ho: b= o se rechaza si el "p-value" de la prueba de F es
menor que .05.
Es más riesgoso hacer predicciones para un solo valor que para un valor medio, por esta
razón el intervalo de predicción de Y, es más ancho que el intervalo de confianza para el
valor medio.
El botón Options de la ventana regression permite hallar estos intervalos de confianza. La
figura 4 muestra la ventana de diálogo que aparece cuando se oprime el botón Options. En
este ejemplo se trata de hacer estas predicciones cuando la casa tiene un área de 3500 pies
cuadrados.
En la ventana session aparecerá el siguiente resultado:
Predicted Values
Interpretación: Hay un 95% de confianza de que el valor medio de todas las casas de 3500
pies cuadrados de área se encuentre entre 1184.536 y 231.461.
Hay un 95% de confianza de que el valor de una casa de 3500 pies cuadrados se encuentre
entre 169.518 y 2246.479
Asimismo, la opción Fitted line Plot del menú de Regression permite hallar bandas de
confianza tanto para el valor predicho como para el valor medio de las Y. Con laas bandas
de confianza se pueden tener intervalos de confianzas para cualquier valor dado de X . Para
el presente ejemplo.
Bandas de Confianza
Y = 73167.7 + 38.5231X
R-Sq = 73.6 %
200000
Precio
150000
Regression
100000
95% CI
95% PI
Area
N
o
t
ar
q
ue
l
a
sb
a
n
da
s
d
ec
o
n
fi
a
n
za
s
on
a
nc
h
as
e
nl
o
se
x
t
re
m
o
sy
a
n
go
s
t
a
se
n
el
c
e
nt
r
o.
E
n
r
e
a
l
id
a
d
la
s
b
an
d
as
a
n
go
s
t
a
nc
u
an
d
ol
o
s
va
l
or
e
s
de
Xq
u
es
e
t
om
a
n
es
t
á
nc
e
r
ca
d
el
p
r
o
me
d
i
oX
.
Análisis de los residuales
Residual
Residual
1
1
0 X=0.01614
0 -1
-2
-1 -3 -3.0SL=-3.355
-4
-2 -1 0 1 2 0 5 10 15
Normal Score Observation Number
2
3
Frequency
Residual
1
2
0
1
-1
0
-1.5-1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 120000
130000
140000
150000
160000
170000
180000
190000
Residual Fit
Interpretación: Los puntos del plot de normalidad no caen cerca de una línea recta y en el
extremo superior se detecta un outlier. Similarmente el histograma no es simétrico con un
pico central y también muestra un outlier en el extremo superior. En conclusión No Hay
Normalidad de los errores.
Elplot de residuales versus el índice de la observación muestra que, la observación 14 es un
"outlier" , pues el residual estandarizado cae más allá de dos. El plot de los residuales
versus los valores predichos muestra que la varianza de errores no es constante con respecto
a la variable de respuesta, pues tiende a aumentar cuando el valor de la variable de
respuesta aumenta.
Gracias...
Departamento de Calidad