Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Simple
Regresión Simple
4/25/2007
Regresión Simple
Resumen
El procedimiento de Regresión Simple está diseñado para construir un modelo estadístico que
describa el impacto de un solo factor cuantitativo X sobre una variable dependiente Y.
Cualquiera de los 27 modelos lineales y no lineales pueden ser ajustados usando ya sea el
procedimiento de mínimos cuadrados o el procedimiento de estimación resistente. Las pruebas se
corren para determinar la significancia estadística del modelo. El modelo ajustado puede ser
graficado con límites de confianza y/ o límites de predicción. Los residuos también pueden ser
graficados y las observaciones influyentes pueden ser identificadas también.
Datos Muestrales:
El archivo nonlin.sf3 contiene datos de la cantidad de chlorine disponible en muestras de un
producto com una función del número de weeks desde que fue producido: Los datos tomados de
Draper y Smith (1998), consisten de n = 44 muestras, una parte de la cual se muestra abajo:
Weeks Chlorine
8 0.49
8 0.49
10 0.48
10 0.47
10 0.48
10 0.47
12 0.46
12 0.46
12 0.45
12 0.43
14 0.45
14 0.43
14 0.43
… …
Captura de Datos
Los datos que aparecen en el cuadro de diálogo de abajo requieren los nombres de las columnas
que contienen la variable dependiente Y y la variable independiente X:
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 0.48551 0.00589066 82.4204 0.0000
Pendiente -0.00271679 0.000243115 -11.1749 0.0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.0295587 1 0.0295587 124.88 0.0000
Residuo 0.00994133 42 0.000236698
Total (Corr.) 0.0395 43
• Variables y modelo: identificación de las variables de captura y el modelo que fue ajustado.
De manera automática, un modelo lineal de la forma:
Y=a+bX (1)
es ajustado, sin embargo un modelo diferente puede ser seleccionado usando las Opciones
del Análisis.
Analysis Options
• Tipo de Modelo: Se refiere al modelo que va a ser estimado.Todos los modelos mostrados
pueden ser linealizados mediante la transformación ya sea de X o de Y o de ambos. Cuando
ajusta un modelo lineal, STATGRAPHICS primero transforma los datos, después ajusta el
modelo y finalmente invierte la transformación para mostrar los resultados.
Utilizar medianas de 3 grupos – A través del método de Tukey de ajustar una línea recta,
los datos son divididos en 3 grupos de acuerdo con los valores de X y se estiman las
medianas para cada grupo. Finalmente una línea unirá las 3 medianas.
y = ( β0 + β1x )
Raíz cuadrada de Y 2 raíz cuadrada ninguna
Exponencial
y = e( β0 + β1x ) logaritmo ninguna
Y Logarítmico- X Cuadrática
y = e (β 0 + β 1 x ) logaritmo raíz cuadrada
Y Logarítmico- X Cuadrático
y = e (β 0 + β1 x ) logaritmo cuadrado
2
Y Inverso, X cuadrático
(
y = β 0 + β1 x 2 )−1 inverso cuadrático
Coeficientes
Mínimos Cuadrados Estándar Estadístico M.A.D.
Parámetro Estimado Error T Valor-P Estimación
Intercepto 0.48551 0.00589066 82.4204 0.0000 0.48
Pendiente -0.00271679 0.000243115 -11.1749 0.0000 -0.0025
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.0295587 1 0.0295587 124.88 0.0000
Residuo 0.00994133 42 0.000236698
Total (Corr.) 0.0395 43
0.5
Mínimos Cuadrados
0.48 M.A.D.
0.46
chlorine
0.44
0.42
0.4
0.38
0 10 20 30 40 50
weeks
La gráfica incluye:
yˆ = aˆ + bˆx (4)
Esta es la ecuación que debería ser usada para predecir valores de la variable dependiente
Y dados los valores de la variable independiente X. Es conveniente notar que hace un
trabajo relativamente adecuado al captar gran parte de la correlación entre chlorine y
weeks.
• Límites de predicción para nuevas observaciones. Éstas son las bandas externas de la
gráfica y describen que tan exacta sería una predicción de un nuevo valor. Sin importar el
tamaño de la muestra, las observaciones nuevas variarán alrededor de la línea verdadera
con una desviación estándar igual a σ.
La inclusión de los límites de confianza y los límites de predicción con sus respectivos niveles de
confianza está determinada por la tabla ANOVA/de regresión del cuadro de diálogo Preferencias
accesible desde el menú Edición.
• Resolución en el eje de las X: Número de valores de X que determinan la línea cuando ésta
se grafica. Mientras más alta sea la resolución, la gráfica será más suavizada.
Para los datos del ejemplo, el P-Value pequeño indica que el modelo lineal no explica
adecuadamente la relación entre chlorine y weeks.
Gráfico de chlorine
0.5
0.48
0.46
observado
0.44
0.42
0.4
0.38
0.38 0.4 0.42 0.44 0.46 0.48 0.5
predicho
Si el modelo ajusta bien, los puntos deben estar colocados aleatoriamente alrededor de la línea
diagonal. Es posible observar algunas veces curvatura en esta gráfica, lo cual indicaría la
necesidad de un modelo curvilineo más que un modelo lineal. Cualquier cambio en la
variabilidad de valores pequeños de X a valores elevados de X podría también indicar la
necesidad de transformar la variable dependiente antes de ajustar un modelo a los datos. En la
gráfica de arriba, la variabilidad parece ser poco constante. Sin embargo, alguna evidencia de
curvatura está presente.
Gráficas de Residuos
Como con todos los modelos estadísticos, es una práctica adecuada examinar los residuos. En
una regresión, los residuos son definidos como:
ei = y i − yˆ i (5)
Por ejemplo, los residuos son las diferencias entre los datos observados y el modelo ajustado.
Residuos versus X
Esta gráfica es útil para visualizar la necesidad de un modelo curvilineal.
Gráfico de Residuos
chlorine = 0.48551 - 0.00271679*weeks
2.1
Rediduo Estudentizado
1.1
0.1
-0.9
-1.9
0 10 20 30 40 50
weeks
Note que entre weeks 20 y 30, todos los residuos yacen abajo de 0 (mostrado en la línea
horizontal). Dentro de este rango, la línea recta sobreestima la cantidad de chlorine disponible.
Así mismo, tiende a subestimar la cantidad después de las 30 weeks.
Gráfico de Residuos
chlorine = 0.48551 - 0.00271679*weeks
2.1
Rediduo Estudentizado
1.1
0.1
-0.9
-1.9
0.37 0.39 0.41 0.43 0.45 0.47
predicho chlorine
Gráfico de Residuos
chlorine = 0.48551 - 0.00271679*weeks
Rediduo Estudentizado 2.1
1.1
0.1
-0.9
-1.9
0 10 20 30 40 50
número de fila
Si los datos están acomodados en orden cronológico, cualquier pauta en los datos podría indicar
una influencia externa. En la gráfica de arriba, la curvatura puede ser vista porque el archivo con
los datos del ejemplo está acomodado de acuerdo con los valores de X.
Ventana de Opciones
3. Residuos del modelo alterno – se refiere a los residuos cuando el modelo se estimó
usando el método resistente.
0.48
0.46
chlorine
0.44
0.42
0.4
0.38
0 10 20 30 40 50
weeks
De acuerdo con la inspección visual, el modelo parece capturar bien la curvatura observada en
los datos. Algunos otros modelos proporcionan resultados similares.
Residuos Atípicos
Una vez que el modelo ha sido ajustado, es útil estudiar los residuos para determinar si existe
alguna observación atípica que debería ser removida de los datos. La ventana de los Residuos
Atípicos muestra todas las observaciones que tienen residuos estudentizados de 2.0 o mayores en
valor absoluto.
Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
10 12.0 0.43 0.454342 -0.0243423 -2.50
17 18.0 0.46 0.426082 0.0339182 3.72
18 18.0 0.45 0.426082 0.0239182 2.39
Los residuos estudentizados mayores a 3 en valor absoluto corresponden a puntos mayores a tres
desviaciones estándar del modelo ajustado, el cual es un evento extremadamente raro para una
distribución normal. En los datos del ejemplo, la fila #17 está a casi 4 desviaciones estándar
fuera.
0.48
0.46
chlorine
0.44
0.42
0.4
0.38
0 10 20 30 40 50
weeks
Los puntos excluidos están marcados con una X. Para los datos del ejemplo, remover la fila #17
tiene un efecto pequeño en el modelo ajustado.
Puntos Influyentes
Al ajustar un modelo de regresión, no todas las observaciones tienen la misma influencia sobre el
parámetro estimado en el modelo ajustado. En una regresión simple, los puntos localizados en
niveles muy bajos o muy altos de X tienen una influencia más grande que aquellos localizados
más cerca de la media de X. La ventana de Puntos Influyentes muestra cualquier observación que
tiene una elevada influencia sobre el modelo ajustado:
Puntos Influyentes
Predicciones Residuos
Row X Y Y Studentizados Influencia
1 8.0 0.49 0.492999 -0.39 0.170775
2 8.0 0.49 0.492999 -0.39 0.170775
Influencia Media de un punto = 0.0465116
La tabla de arriba muestra cada punto con una carga o leverage igual a 3 o más veces que el
punto de un dato promedio, donde la carga de una observación es una medida de su influencia
sobre los coeficientes del modelo estimado. En general, valores con un peso que excede 5 veces
el valor del dato promedio deber ser examinados cuidadosamente porque tienen una influencia
desproporcionada sobre el modelo ajustado.
En los datos del ejemplo, los dos valores en X = 8 tienen una influencia moderadamente grande
sobre el modelo ajustado porque esos valores corresponden al valor mínimo de X. Comparado
con el peso o carga promedio h = 0.045, esos puntos tienen casi 4 veces la influencia de un
punto promedio. Idealmente, se debería preferir un conjunto de datos en los cuales todos los
valores tienen aproximadamente el mismo peso para que ningún punto tenga un excesivo
impacto sobre el modelo ajustado. En muchos casos, esto no puede ser alcanzado, pero los
puntos con elevado peso deben por lo menos ser revisados para asegurar su validez.
Valores Predichos
95.00% 95.00%
Predicciones Límite Predicción Límite Confianza
X Y Inferior Superior Inferior Superior
10.0 0.46974 0.451074 0.487692 0.464628 0.474797
15.0 0.436805 0.417213 0.455556 0.433686 0.439903
20.0 0.419369 0.398951 0.438839 0.416296 0.42242
25.0 0.408551 0.387495 0.428573 0.404999 0.412072
30.0 0.401176 0.37963 0.421623 0.397128 0.405184
35.0 0.395825 0.373892 0.416604 0.391352 0.400247
40.0 0.391763 0.369521 0.412808 0.38694 0.396527
Guardar Resultados
Los siguientes resultados pueden ser guardados en la hoja de datos:
Nota: Si los límites son salvados, serán usados en la ventana de Predicciones. Si los límites de
dos colas se muestran en la tabla de Predicciones, entonces los límites salvados también serán de
dos colas. Si un intervalo de una cola es mostrado en la tabla, entonces los límites salvados serán
también de una cola.
S xy
β̂ 1 = (6)
S xx
βˆ 0 = y − βˆ1 x (7)
donde
n 2
S xx = ∑ ( xi − x ) (8)
i =1
n
S xy = ∑ ( xi − x )( y i − y ) (9)
i =1
Tabla de ANOVA
( )
n 2
SSE
Error cuadrado medio: MSE = (12)
n−2
SSR
Radio F: F = (13)
MSE
2
(14)
j =1 i =1
(15)
j =1 i =1
SSLOF /(c − 2)
Radio F para Bondad de Ajuste: F = (16)
SSPE /(n − c)
⎡1 X 2 ⎤
s ( βˆ 0 ) = MSE ⎢ + ⎥ (17)
⎣ n S XX ⎦
MSE
s ( βˆ1 ) = (18)
S XX
Coeficiente de Correlación
n
∑ (x i − x )( y i − y )
r= i =1
(19)
n n
∑ (x − x) ∑ (y − y)
2 2
i i
i =1 i =1
R-Cuadrada
SSR
R2 = (20)
SSR + SSE
R-Cuadrada Ajustada
⎡ ⎛ n −1 ⎞ SSE ⎤
2
Radj = 100⎢1 − ⎜ ⎟ ⎥% (21)
⎣ ⎝ n − 2 ⎠ SSR + SSE ⎦
σ̂ = MSE (22)
Predicciones
yˆ = βˆ 0 + βˆ1 x (23)
1 (x − x )
2
Límites de Confianza: yˆ ± tα / 2,n − 2σˆ + (24)
n S xx
1 (x − x )
2
Límites de Predicciones: yˆ ± tα / 2,n − 2σˆ 1 + + (25)
n S xx
1 ( xi − x )
2
hi = + (26)
n S xx
Estadístico Durbin-Watson
n
∑ (e i − ei −1 )
2
D= i=2
n
(27)
∑e
i =1
2
i
D−2
D* = (28)
4/n
Es comparado con una distribución normal estándar. Para 100 < n ≤ 500, D/4 es comparado con
una distribución beta con parámetros
n −1
α=β = (29)
2
Para tamaños de muestra más pequeños, D/4 es comparado con una distribución beta con
parámetros basados en una traza de matrices relacionadas a la matriz X, como es descrito por
Durbin y Watson (1951) en la sección 4 de su publicación clásica.
∑e e i i −1
r1 = i =2
n
(30)
∑e i =1
2
i