Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentacion
Presentacion
Parte
Regresión Lineal
Y = a + bX + c
i
e =
i =1
( 2
y
i − a −
i =1
bx i ) 2
. Usando técnicas de cálculo diferencial para minimizar una
s xy
= = y−x
s xx
El botón Results permite controlar los resultados que aparecerán en la ventana session. Hay
4 alternativas para controlar la salida según se muestra en la Figura 1.
El botón Storage permite guardar algunas medidas importantes que aparecen el análisis de
regresión y que posteriormente se pueden usar, por ejemplo en el análisis de residuales.
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 1 7241245891 7241245891 36.33 0.000
Residual Error 13 2591087442 199314419
Total 14 9832333333
Unusual Observations
Obs Area Precio Fit StDev Fit Residual St Resid
14 3000 220000 188737 7923 31263 2.68R
Interpretación de b:
Indica el cambio promedio en la variable de respuesta Y cuando X aumenta en una unidad
adicional. En el ejemplo anterior indica que por cada pie cuadrado adicional de la casa su
precio aumentará en promedio en 38.5 dólares.
Inferencia en Regresión
Lineal
Se pueden hacer prueba de hipótesis acerca del intercepto a y de la pendiente b de la línea
de regresión poblacional. Lo más frecuente es tratar de probar las hipótesis :
En ambos casos la prueba estadística que se usa es una prueba de t de Student. Para que esta
prueba sea válidad se debe asumir que los errores e, se distribuyen en forma normal. Sólo
discutiremos la prueba de hipótesis para la pendiente. La prueba estadística será:
t= =
s .e .( ) s
S xx
n
i i
( y
i =1
− y ) 2
corregida de la variable X.
El análisis de varianza que fue introducida por Fisher, consiste en descomponer la variación
total de una variable en varias partes , cada una de las cuales es llamada una fuente de
variación . En el caso de regresión , la descomposición de la variación de la variable de
respuesta Y es como sigue:
n
SST
Donde SSR representa la suma de cuadrado debido a la regresión y SST representa la suma
de cuadrado del total. El coeficiente de Determinación varia entre 0 y 1 , aunque es bastante
común expresarlo en porcentaje Un R2 mayor del 70% indica una buena asociación lineal
entre las variables y la variable X se puede usar para predecir Y.
También R2 indica que porcentaje de la variabilidad de la variable de respuesta. Y, es
explicada por su relación lineal con X mientras más alto sea este valor es la predicción de Y
usando X.
Intervalos de Confianza para
el valor medio Y e Intervalo
de predicción
Dado un valor de la variable X se puede hallar un intervalo de confianza para el valor
medio de todos los valores Y correspondientes a dicho valor y también un intervalo de
confianza para el valor estimado de Y que le correspondería a la X dada, éste último es
llamado un intervalo de predicción.
Un intervalo de confianza del 100(1-)% para el valor medio dado que X=Xo es de la
forma:
1 ( xo − x
Y o t ( 1− / 2 ,n − 2 ) s +
n S xx
Un intervalo de confianza del 100(1-)% para el valor predicho de Y dado que X=Xo es de
la forma:
1 ( xo − x
Y o t ( 1− / 2 ,n− 2 ) s 1 + +
n S xx
Es más riesgoso hacer predicciones para un solo valor que para un valor medio, por esta
razón el intervalo de predicción de Y, es más ancho que el intervalo de confianza para el
valor medio.
Es más riesgoso hacer predicciones para un solo valor que para un valor medio, por esta
razón el intervalo de predicción de Y, es más ancho que el intervalo de confianza para el
valor medio.
El botón Options de la ventana regression permite hallar estos intervalos de confianza. La
figura 4 muestra la ventana de diálogo que aparece cuando se oprime el botón Options. En
este ejemplo se trata de hacer estas predicciones cuando la casa tiene un área de 3500 pies
cuadrados.
En la ventana session aparecerá el siguiente resultado:
Predicted Values
Interpretación: Hay un 95% de confianza de que el valor medio de todas las casas de 3500
pies cuadrados de área se encuentre entre 1184.536 y 231.461.
Hay un 95% de confianza de que el valor de una casa de 3500 pies cuadrados se encuentre
entre 169.518 y 2246.479
Asimismo, la opción Fitted line Plot del menú de Regression permite hallar bandas de
confianza tanto para el valor predicho como para el valor medio de las Y. Con laas bandas
de confianza se pueden tener intervalos de confianzas para cualquier valor dado de X . Para
el presente ejemplo.
Bandas de Confianza
Y = 73167.7 + 38.5231X
R-Sq = 73.6 %
200000
Precio
150000
Regression
100000
95% CI
95% PI
Area
Notar que las bandas de confianza son anchas en los extremos y angostas en el centro. En
realidad las bandas angostan cuando los valores de X que se toman están cerca del
promedio X .
Análisis de los residuales
regresión. Es decir, r = Y − Y .
El residual puede ser considerado como el error observado. También se acostumbra a usar
el Residual estandarizado, el cual se obtiene al dividir el residual entre la desviación
estándar de los residuales, que es igual a MSE y el Residual "deleted", que es similar
al anterior pero eliminando de los cálculos la observación cuyo residual se desea hallar.
Se puede detectar:
a) Si efectivamente la relación entre las variables X y Y es lineal.
b) Si hay normalidad de los errores.
c) Si hay valores anormales en la distribución de errores.
d) Si hay varianza constante (propiedad de Homcedaticidad) y
e) Si hay independencia de los errores.
En esta manera cada plot de residual sale una ventana gráfica separada. Hay cinco
plots que se usan:
Plot de Normalidad
Histograma de Residuales
Plot de Residuales versus lso valores predichos (FITS)
Plot de Residuales versus el indice de la observación
Plot de residuales versus la variable predictora.
La segunda manera de obtener los plots de residuales es escogiendo primero el botón
Storage de la ventana de diálogo de Regression como aparece en la figura N° 8 para
almacenar los residuales y los valores estimados de la variable de respuesta (Fits).
Análisis de Residuales
Normal Plot of Residuals I Chart of Residuals
3 4
3.0SL=3.388
3
2 2
Residual
Residual
1
1 X=0.01614
0
0 -1
-2
-1 -3 -3.0SL=-3.355
-4
-2 -1 0 1 2 0 5 10 15
Normal Score Observation Number
2
3
Frequency
Residual
1
2
0
1
-1
0
-1.5-1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 120000
130000
140000
150000
160000
170000
180000
190000
Residual Fit
Interpretación: Los puntos del plot de normalidad no caen cerca de una línea recta y en el
extremo superior se detecta un outlier. Similarmente el histograma no es simétrico con un
pico central y también muestra un outlier en el extremo superior. En conclusión No Hay
Normalidad de los errores.
Elplot de residuales versus el índice de la observación muestra que, la observación 14 es un
"outlier" , pues el residual estandarizado cae más allá de dos. El plot de los residuales
versus los valores predichos muestra que la varianza de errores no es constante con respecto
a la variable de respuesta, pues tiende a aumentar cuando el valor de la variable de
respuesta aumenta.
Gracias...
Departamento de Calidad