Está en la página 1de 20

STATGRAPHICS – Rev.

4/25/2007

Regresión Simple

Resumen

El procedimiento de Regresión Simple está diseñado para construir un modelo estadístico que
describa el impacto de un solo factor cuantitativo X sobre una variable dependiente Y.
Cualquiera de los 27 modelos lineales y no lineales pueden ser ajustados usando ya sea el
procedimiento de mínimos cuadrados o el procedimiento de estimación resistente. Las pruebas se
corren para determinar la significancia estadística del modelo. El modelo ajustado puede ser
graficado con límites de confianza y/ o límites de predicción. Los residuos también pueden ser
graficados y las observaciones influyentes pueden ser identificadas también.

Ejemplo de StatFolio: simple reg.sgp

Datos Muestrales:
El archivo nonlin.sf3 contiene datos de la cantidad de chlorine disponible en muestras de un
producto com una función del número de weeks desde que fue producido: Los datos tomados de
Draper y Smith (1998), consisten de n = 44 muestras, una parte de la cual se muestra abajo:

Weeks Chlorine
8 0.49
8 0.49
10 0.48
10 0.47
10 0.48
10 0.47
12 0.46
12 0.46
12 0.45
12 0.43
14 0.45
14 0.43
14 0.43
… …

Captura de Datos
Los datos que aparecen en el cuadro de diálogo de abajo requieren los nombres de las columnas
que contienen la variable dependiente Y y la variable independiente X:

© 2005 por StatPoint, Inc. Regresión Simple - 1


STATGRAPHICS – Rev. 4/25/2007

• Y: columna numérica que contiene las n observaciones para la variable dependiente Y.

• X: columna numérica que contiene los n valores para la variable independiente X.

• Selección: subconjunto de datos seleccionados.

Resumen del Análisis


El Resumen del Análisis muestra la información acerca del modelo ajustado.

Regresión Simple - chlorine vs. weeks


Variable dependiente: chlorine (percent available)
Variable independiente: weeks (weeks since production)
Lineal: Y = a + b*X

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 0.48551 0.00589066 82.4204 0.0000
Pendiente -0.00271679 0.000243115 -11.1749 0.0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.0295587 1 0.0295587 124.88 0.0000
Residuo 0.00994133 42 0.000236698
Total (Corr.) 0.0395 43

Coeficiente de Correlación = -0.865055


R-cuadrada = 74.8321 porciento
R-cuadrado (ajustado para g.l.) = 74.2328 porciento
Error estándar del est. = 0.015385
Error absoluto medio = 0.012834
Estadístico Durbin-Watson = 0.992081 (P=0.0001)
Autocorrelación de residuos en retraso 1 = 0.451981

© 2005 por StatPoint, Inc. Regresión Simple - 2


STATGRAPHICS – Rev. 4/25/2007

Se encuentran incluidos en el resultado:

• Variables y modelo: identificación de las variables de captura y el modelo que fue ajustado.
De manera automática, un modelo lineal de la forma:

Y=a+bX (1)

es ajustado, sin embargo un modelo diferente puede ser seleccionado usando las Opciones
del Análisis.

• Coeficientes: Muestra los coeficientes estimados, errores estándares, t-estadísticas y P


values. Los estimadores de los coeficientes del modelo pueden ser usados para escribir la
ecuación ajustada, la cual en el ejemplo es:

chlorine = 0.48551 – 0.00271679 weeks (2)

La t-estadística prueba la hipótesis nula de que el correspondiente parámetro del modelo es


igual a 0, versus la hipótesis alternativa de que no es igual a 0. Pequeños P-Values (menores
que 0.05 si se opera con un 5% de nivel de significancia) indican que el coeficiente del
modelo es significativamente diferente de 0. En ejemplo que aquí se muestra, ambos, el
intercepto y la pendiente son estadísticamnete significativos.

• Análisis de Varianza: Descomposión de la variabilidad de la variable dependiente Y dentro


de un modelo de suma de cuadrados y de suma de cuadrados del error o residuos. Es de
particular interés en éste análisis la Prueba F y su P-value asociado para probar la
significancia estadística del modelo ajustado. Un pequeño P-Value (menor a 0.05 si se opera
con un nivel de significancia de 5%) indica que la relación estadística de la forma
especificada existe entre Y y X. En los datos del ejemplo, el modelo es altamente
significativo.

• Estadísticos: Muestra el resumen estadístico para el modelo ajustado incluyendo:

Coeficiente de correlación – mide el grado de asociación lineal entre Y y X en un rango que


va de -1 (perfecta correlación lineal negativa) a +1 (perfecta correlación lineal positiva). En
los datos del ejemplo, la correlación entre chlorine y weeks es relativamente fuerte y de signo
negativo, lo cual indica que chlorine disminuye conforme weeks aumentan o trascurren.

R-squared - representa el porcentaje de la variabilidad en Y que ha sido explicado por el


modelo de regresión ajustado en un rango que va de 0 a 100%. Para los datos del ejemplo, la
regresión explica alrededor de 75% de la variabilidad de las cantidades de chlorine. El
restante 25% es atribuible a las desviaciones alrededor de la línea las cuales pueden ser por
otros factores como el error de medición o un error del modelo lineal para ajustar los datos
adecuadamente.

R-Squared Ajustada – muestra el estadístico R cuadrado, ajustado por el número de


coeficientes en el modelo. Este valor es usado frecuentemente para comparar modelos con
diferente número de coeficientes.

© 2005 por StatPoint, Inc. Regresión Simple - 3


STATGRAPHICS – Rev. 4/25/2007
Error Estándar del Estimador – Muestra la desviación estándar estimada de los residuos (las
desviaciones alrededor del modelo). Éste modelo es usado para crear límites en las
predicciones para nuevas observaciones.

Error Absoluto Medio – Muestra el valor absoluto promedio de los residuos.

Estadístico Durbin-Watson – Es una medida de de la correlación serial en los residuos. Si los


residuos varían aleatoriamente, éste valor puede ser cercano a 2.
Un pequeño P-Value indica una tendencia no aleatoria en los residuos. Para unos datos que
corren sobre el tiempo, un pequeño P-value podría indicar que alguna tendencia en el tiempo
no ha sido tomada en cuenta. En el ejemplo, un pequeño P-value indica que en realidad el
modelo lineal no ha tomado en cuenta toda la estructura de los datos, lo cual puede ser visto
cuando los residuos son gráficados.

Rezago 1 en la Autocorrelación de los Residuos – Muestra la correlación estimada entre


residuos consecutivos en una escala de -1 a 1. Valores lejanos de 0 indican que la estructura
importante no ha sido medida o representada por el modelo.

Analysis Options

• Tipo de Modelo: Se refiere al modelo que va a ser estimado.Todos los modelos mostrados
pueden ser linealizados mediante la transformación ya sea de X o de Y o de ambos. Cuando
ajusta un modelo lineal, STATGRAPHICS primero transforma los datos, después ajusta el
modelo y finalmente invierte la transformación para mostrar los resultados.

• Ajustes Alternos: Se refiere a un procedimiento alternativo de estimación. Si son


seleccionados, un conjunto adicional de estimadores serán añadidos al resultado. Existen dos
métodos de estimación se encuentran disponibles, ambos son resistentes a observaciones
atípicas:

© 2005 por StatPoint, Inc. Regresión Simple - 4


STATGRAPHICS – Rev. 4/25/2007
Minimizar Desviaciones Absolutas – Minimiza la suma de valores absolutos de las
desviaciones alrededor del modelo ajustado.

Utilizar medianas de 3 grupos – A través del método de Tukey de ajustar una línea recta,
los datos son divididos en 3 grupos de acuerdo con los valores de X y se estiman las
medianas para cada grupo. Finalmente una línea unirá las 3 medianas.

Los modelos disponibles se muestran en la siguiente tabla:

© 2005 por StatPoint, Inc. Regresión Simple - 5


STATGRAPHICS – Rev. 4/25/2007

Modelo Ecuación Transformación en Y Transformación en X


Lineal y = β0 + β1x ninguna ninguna

y = ( β0 + β1x )
Raíz cuadrada de Y 2 raíz cuadrada ninguna

Exponencial
y = e( β0 + β1x ) logaritmo ninguna

Inverso de Y y = (β 0 + β 1 x ) inverso ninguna


−1

Y Cuadrática y = β 0 + β1 x cuadrado ninguna

Raíz cuadrada de X y = β0 + β1 x ninguna raíz cuadrada


Raíz cuadrada doble
(
y = β 0 + β1 x )2 raíz cuadrada raíz cuadrada

Y Logarítmico- X Cuadrática
y = e (β 0 + β 1 x ) logaritmo raíz cuadrada

Y Inversa- raíz cuadrada de X


(
y = β 0 + β1 x ) −1 inverso raíz cuadrada

Y cuadrática- raíz cuadrada de raíz cuadrada raíz cuadrada


X y = β 0 + β1 x
X Logarítmico y = β0 + β1 ln( x ) ninguna Logaritmo
Raíz cuadrada de Y- logaritmo y = (β 0 + β 1 ln(x) ) raíz cuadrada Logaritmo
2
de X

Multiplicativo y = β0 x β1 logaritmo Logaritmo


Y Inverso, X logarítmico 1 inverso Logaritmo
y=
β 0 + β 1 ln( x)
Y cuadrática - logaritmo de X y = β 0 + β 1 ln( x) cuadrado Logaritmo

Inverso de X y = β 0 + β1 / x ninguna inverso


Raíz cuadrada de Y -inverso de y = (β 0 + β 1 / x ) raíz cuadrada inverso
2
X
Curva S
y = e( β0 + β1 / x ) logaritmo inverso

Doble inverso y = [β 0 + β / x ] inverso inverso


−1

Y cuadrática- inverso de X y = β 0 + β1 / x cuadrado inversa

X Cuadrática y = β 0 + β1 x 2 ninguna cuadrado


Raíz cuadrada de Y- cuadrado
de X. (
y = β 0 + β1 x 2 ) 2 raíz cuadrada cuadrado

Y Logarítmico- X Cuadrático
y = e (β 0 + β1 x ) logaritmo cuadrado
2

Y Inverso, X cuadrático
(
y = β 0 + β1 x 2 )−1 inverso cuadrático

Doble cuadrático cuadrado cuadrado


y = β 0 + β1 x 2
e( β0 + β1x )
Logístico y/(1-y) ninguna
y=
[1 + e( β0 + β1x )
]
Log probit y = ϕ ( β0 + β1 ln( x )) ϕ −1 ( y ) Logaritmo
(inv. normal)

© 2005 por StatPoint, Inc. Regresión Simple - 6


STATGRAPHICS – Rev. 4/25/2007
Para determinar cuál modelo se ajusta a los datos, el resultado en la ventana Comparación de
Modelos Alternativos que se describe abajo puede ser útil, porque ajusta y muestra todos los
modelos en orden decrecreciente de sus R-cuadradas.

Ejemplo - Ajuste Resistente

Selececcionando Desviaciones Mínimas Absolutas en las Opciones del Análisis, el cuadro de


diálogo muestra un estimador alternativo de la línea que relaciona chlorine y weeks:

Regresión Simple - chlorine vs. weeks


Variable dependiente: chlorine (percent available)
Variable independiente: weeks (weeks since production)
Lineal: Y = a + b*X

Coeficientes
Mínimos Cuadrados Estándar Estadístico M.A.D.
Parámetro Estimado Error T Valor-P Estimación
Intercepto 0.48551 0.00589066 82.4204 0.0000 0.48
Pendiente -0.00271679 0.000243115 -11.1749 0.0000 -0.0025

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0.0295587 1 0.0295587 124.88 0.0000
Residuo 0.00994133 42 0.000236698
Total (Corr.) 0.0395 43

Coeficiente de Correlación = -0.865055


R-cuadrada = 74.8321 porciento
R-cuadrado (ajustado para g.l.) = 74.2328 porciento
Error estándar del est. = 0.015385
Error absoluto medio = 0.012834
Estadístico Durbin-Watson = 0.992081 (P=0.0001)
Autocorrelación de residuos en retraso 1 = 0.451981
Desviación Media Absoluta = 0.0127273

La columna etiquetada como M.A.D. estimate muestra el ajuste alternativo:

chlorine = 0.48 – 0.0025 weeks (3)

La diferencia entre los dos modelos ajustados es relativamente menor.

© 2005 por StatPoint, Inc. Regresión Simple - 7


STATGRAPHICS – Rev. 4/25/2007

Gráfica del Modelo Ajustado


Esta ventana muestra el modelo o modelos ajustados, junto con los límites de confianza y límites
de predicción si son requeridos.

Gráfico del Modelo Ajustado

0.5
Mínimos Cuadrados
0.48 M.A.D.

0.46
chlorine

0.44

0.42

0.4

0.38
0 10 20 30 40 50
weeks

La gráfica incluye:

• La línea del mejor ajuste o ecuación de predicción :

yˆ = aˆ + bˆx (4)

Esta es la ecuación que debería ser usada para predecir valores de la variable dependiente
Y dados los valores de la variable independiente X. Es conveniente notar que hace un
trabajo relativamente adecuado al captar gran parte de la correlación entre chlorine y
weeks.

• Intervalos de Confianza para la respuesta media de X. Se refiere a las bandas internas


de la gráfica mostrada arriba. Los intervalos internos describen que tan adecuadadamente
ha sido estimada la ubicación de la línea dada la muestra de datos disponible. Conforme
el tamaño de la muestra n incrementa, esas bandas se ajustarán mejor. Es posible notar
que que la amplitud de las bandas varía como una función de X y la línea estimada se
acerca más al valor promedio de x .

• Límites de predicción para nuevas observaciones. Éstas son las bandas externas de la
gráfica y describen que tan exacta sería una predicción de un nuevo valor. Sin importar el
tamaño de la muestra, las observaciones nuevas variarán alrededor de la línea verdadera
con una desviación estándar igual a σ.

La inclusión de los límites de confianza y los límites de predicción con sus respectivos niveles de
confianza está determinada por la tabla ANOVA/de regresión del cuadro de diálogo Preferencias
accesible desde el menú Edición.

© 2005 por StatPoint, Inc. Regresión Simple - 8


STATGRAPHICS – Rev. 4/25/2007
Opciones de la Ventana

• Gráfico: Tipo de modelo o modelos para graficar.

• Incluir: Límites que se van a incluir en la gráfica.

• Nivel de Confianza: Porcentaje de confianza para los límites.

• Resolución en el eje de las X: Número de valores de X que determinan la línea cuando ésta
se grafica. Mientras más alta sea la resolución, la gráfica será más suavizada.

• Tipo de Límites: Si grafica intervalos de confianza de dos o de una cola.

Prueba de Bondad de Ajuste


Cuando se registra más de una observación en Y para el mismo valor de X, se puede realizar una
prueb de bondad de ajuste para determinar si el modelo seleccionado describe adecuadamente la
relación entre X y Y. La ventana de falta de ajuste muestra la siguiente tabla:

Análisis de Varianza con Carencia-de-Ajuste


Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P
Modelo 0.0295587 1 0.0295587 124.88 0.0000
Residuo 0.00994133 42 0.000236698
Carencia-de-Ajuste 0.00757467 16 0.000473417 5.20 0.0001
Error Puro 0.00236667 26 0.0000910256
Total (Corr.) 0.0395 43

La prueba de bondad de ajuste descompone la suma de cuadrados de los residuos en 2


componentes:

1. Error puro: variabilidad de los valores de Y con respecto al mismo valor de X.

© 2005 por StatPoint, Inc. Regresión Simple - 9


STATGRAPHICS – Rev. 4/25/2007
2. Bondad de Ajuste: variabilidad de los valores promedio de Y alrededor del modelo
ajustado.

Es de primordial interés el P-Value para la bondad de ajuste. Un P-value pequeño (debajo de


0.05 si se opera con un nivel de significancia de 5%) indica que el modelo seleccionado no
describe adecuadamente la relación observada.

Para los datos del ejemplo, el P-Value pequeño indica que el modelo lineal no explica
adecuadamente la relación entre chlorine y weeks.

Valor observado versus Valor de predicción


La gráfica de valores observados versus los valores de predicciónmuestra los valores observados
de Y en el eje vertical y los valores de predicción Ŷ sobre el eje horizontal.

Gráfico de chlorine

0.5

0.48

0.46
observado

0.44

0.42

0.4

0.38
0.38 0.4 0.42 0.44 0.46 0.48 0.5
predicho

Si el modelo ajusta bien, los puntos deben estar colocados aleatoriamente alrededor de la línea
diagonal. Es posible observar algunas veces curvatura en esta gráfica, lo cual indicaría la
necesidad de un modelo curvilineo más que un modelo lineal. Cualquier cambio en la
variabilidad de valores pequeños de X a valores elevados de X podría también indicar la
necesidad de transformar la variable dependiente antes de ajustar un modelo a los datos. En la
gráfica de arriba, la variabilidad parece ser poco constante. Sin embargo, alguna evidencia de
curvatura está presente.

Gráficas de Residuos
Como con todos los modelos estadísticos, es una práctica adecuada examinar los residuos. En
una regresión, los residuos son definidos como:

ei = y i − yˆ i (5)

Por ejemplo, los residuos son las diferencias entre los datos observados y el modelo ajustado.

El procedimiento de la Regresión Simple crea 3 gráficas de residuos:

© 2005 por StatPoint, Inc. Regresión Simple - 10


STATGRAPHICS – Rev. 4/25/2007
1. versus X.
2. versus el valor de predicción Ŷ .
3. versus el número de fila.

Residuos versus X
Esta gráfica es útil para visualizar la necesidad de un modelo curvilineal.

Gráfico de Residuos
chlorine = 0.48551 - 0.00271679*weeks
2.1
Rediduo Estudentizado

1.1

0.1

-0.9

-1.9
0 10 20 30 40 50
weeks

Note que entre weeks 20 y 30, todos los residuos yacen abajo de 0 (mostrado en la línea
horizontal). Dentro de este rango, la línea recta sobreestima la cantidad de chlorine disponible.
Así mismo, tiende a subestimar la cantidad después de las 30 weeks.

Residuos versus valores de predicción


Ésta gráfica es útil para detectar cualquier heteroscedasticidad en los datos.

Gráfico de Residuos
chlorine = 0.48551 - 0.00271679*weeks
2.1
Rediduo Estudentizado

1.1

0.1

-0.9

-1.9
0.37 0.39 0.41 0.43 0.45 0.47
predicho chlorine

La heteroscedasticidad ocurre cuando la variabilidad de los datos cambia conforme la media


cambia y podría ser necesaria la transformación de los datos previo al ajuste del modelo de
regresión. Esto se evidencia usualmente con una forma de embudo en la gráfica de los residuos.

© 2005 por StatPoint, Inc. Regresión Simple - 11


STATGRAPHICS – Rev. 4/25/2007
Residuos versus Observaciones
Esta gráfica muestra los residuos versus el número de fila en la hoja de la base de datos:

Gráfico de Residuos
chlorine = 0.48551 - 0.00271679*weeks
Rediduo Estudentizado 2.1

1.1

0.1

-0.9

-1.9
0 10 20 30 40 50
número de fila

Si los datos están acomodados en orden cronológico, cualquier pauta en los datos podría indicar
una influencia externa. En la gráfica de arriba, la curvatura puede ser vista porque el archivo con
los datos del ejemplo está acomodado de acuerdo con los valores de X.

Ventana de Opciones

Los siguientes residuos pueden ser gráficados en cada gráfica:

1. Residuos – los residuos del ajuste de mínimos cuadrados.

2. Residuos Estudentizados – la diferencia entre los valores observados yi y los valores


pronosticados ŷ i cuando el modelo es ajustado usando todas las observaciones excepto la
i-ésima observación, dividido por el error estándar estimado. Estos residuos son llamados
algunas veces residuos eliminados externamente puesto que miden qué tan lejos cada
valor se encuentra del modelo ajustado cuando el modelo se ajustó usando todos los datos
excepto el punto que está siendo considerado. Esto es importante porque una observación
atípica grande podría afectar el modelo tanto que no parecería estar lo suficientemente
lejos de la línea.

3. Residuos del modelo alterno – se refiere a los residuos cuando el modelo se estimó
usando el método resistente.

© 2005 por StatPoint, Inc. Regresión Simple - 12


STATGRAPHICS – Rev. 4/25/2007

Comparación de Modelos Alternos


La ventana Comparación de Modelos Alternos muestra los valores de R- cuadrada obtenidos
cuando ajustamos cada uno de los 27 modelos disponibles:

Comparación de Modelos Alternos


Modelo Correlación R-Cuadrada
Cuadrado-Y Inversa de X 0.9367 87.75%
Inversa de X 0.9333 87.11%
Raíz Cuadrada-Y Inversa de X 0.9312 86.71%
Curva S 0.9288 86.27%
Doble Inverso -0.9233 85.25%
Inversa-Y Log-X 0.9219 84.99%
Multiplicativa -0.9218 84.98%
Logaritmo de X -0.9207 84.77%
Cuadrado-Y Log-X -0.9185 84.36%
Inversa-Y Raíz Cuadrada-X 0.9038 81.69%
Logarítmico-Y Raíz Cuadrada-X -0.9012 81.21%
Raíz Cuadrada deX -0.8974 80.54%
Cuadrado-Y Raíz Cuadrada-X -0.8926 79.68%
Inversa de Y 0.8759 76.73%
Exponencial -0.8710 75.87%
Raíz Cuadrada de Y -0.8682 75.37%
Logístico -0.8665 75.08%
Log probit -0.8662 75.03%
Lineal -0.8651 74.83%
Cuadrado de Y -0.8581 73.63%
Inversa-Y Cuadrado-X 0.8023 64.37%
Log-Y Cuadrado-X -0.7941 63.05%
Raíz Cuadrada-X Cuadrado-X -0.7896 62.34%
Cuadrado de X -0.7849 61.60%
Cuadrado Doble -0.7748 60.04%
Raíz Cuadrada Doble <sin ajuste>
Raíz Cuadrada-Y Log-X <sin ajuste>

Los modelos están ordenados en orden decreciente de la R-cuadrada. Cuando seleccionamos un


modelo alternativo, deben considerarse primero los modelos que se encuentran en la parte
superior de la lista. Sin embargo, debido a que el estadístico R-cuadrada fue calculado después
de transformar X y/o Y, el modelo con el más alto R-cuadrado puede no ser el mejor modelo.
Siempre es recomendable graficar el modelo ajustado para ver si hace un buen trabajo para los
datos.

Ejemplo: Ajuste de un modelo no lineal


Dado que el modelo Y Cuadrática- X Inversa tiene la R-cuadrada más elevada, es un candidadto
razonable para la muestra de datos. Una vez seleccionado éste modelo usando las Opciones de
Análisis, obtenemos el siguiente resultado:

© 2005 por StatPoint, Inc. Regresión Simple - 13


STATGRAPHICS – Rev. 4/25/2007

Gráfico del Modelo Ajustado


chlorine = sqrt(0.131783 + 0.895725/weeks)
0.5

0.48

0.46
chlorine

0.44

0.42

0.4

0.38
0 10 20 30 40 50
weeks

De acuerdo con la inspección visual, el modelo parece capturar bien la curvatura observada en
los datos. Algunos otros modelos proporcionan resultados similares.

Residuos Atípicos
Una vez que el modelo ha sido ajustado, es útil estudiar los residuos para determinar si existe
alguna observación atípica que debería ser removida de los datos. La ventana de los Residuos
Atípicos muestra todas las observaciones que tienen residuos estudentizados de 2.0 o mayores en
valor absoluto.

Residuos Atípicos
Predicciones Residuos
Fila X Y Y Residuos Studentizados
10 12.0 0.43 0.454342 -0.0243423 -2.50
17 18.0 0.46 0.426082 0.0339182 3.72
18 18.0 0.45 0.426082 0.0239182 2.39

Los residuos estudentizados mayores a 3 en valor absoluto corresponden a puntos mayores a tres
desviaciones estándar del modelo ajustado, el cual es un evento extremadamente raro para una
distribución normal. En los datos del ejemplo, la fila #17 está a casi 4 desviaciones estándar
fuera.

© 2005 por StatPoint, Inc. Regresión Simple - 14


STATGRAPHICS – Rev. 4/25/2007
Los puntos pueden ser removidos del ajuste ientras se examina la Gráfica del Modelo Ajustado
al darle clic en un punto y presionando el botón Excluir/Incluir en la barra de herramientas

Gráfico del Modelo Ajustado


chlorine = sqrt(0.131086 + 0.895701/weeks)
0.5

0.48

0.46
chlorine

0.44

0.42

0.4

0.38
0 10 20 30 40 50
weeks

Los puntos excluidos están marcados con una X. Para los datos del ejemplo, remover la fila #17
tiene un efecto pequeño en el modelo ajustado.

Puntos Influyentes
Al ajustar un modelo de regresión, no todas las observaciones tienen la misma influencia sobre el
parámetro estimado en el modelo ajustado. En una regresión simple, los puntos localizados en
niveles muy bajos o muy altos de X tienen una influencia más grande que aquellos localizados
más cerca de la media de X. La ventana de Puntos Influyentes muestra cualquier observación que
tiene una elevada influencia sobre el modelo ajustado:

Puntos Influyentes
Predicciones Residuos
Row X Y Y Studentizados Influencia
1 8.0 0.49 0.492999 -0.39 0.170775
2 8.0 0.49 0.492999 -0.39 0.170775
Influencia Media de un punto = 0.0465116

La tabla de arriba muestra cada punto con una carga o leverage igual a 3 o más veces que el
punto de un dato promedio, donde la carga de una observación es una medida de su influencia
sobre los coeficientes del modelo estimado. En general, valores con un peso que excede 5 veces
el valor del dato promedio deber ser examinados cuidadosamente porque tienen una influencia
desproporcionada sobre el modelo ajustado.

En los datos del ejemplo, los dos valores en X = 8 tienen una influencia moderadamente grande
sobre el modelo ajustado porque esos valores corresponden al valor mínimo de X. Comparado
con el peso o carga promedio h = 0.045, esos puntos tienen casi 4 veces la influencia de un
punto promedio. Idealmente, se debería preferir un conjunto de datos en los cuales todos los
valores tienen aproximadamente el mismo peso para que ningún punto tenga un excesivo
impacto sobre el modelo ajustado. En muchos casos, esto no puede ser alcanzado, pero los
puntos con elevado peso deben por lo menos ser revisados para asegurar su validez.

© 2005 por StatPoint, Inc. Regresión Simple - 15


STATGRAPHICS – Rev. 4/25/2007
Predicciones
La ventana de Valores Predichos crea predicciones usando el modelo ajustado de mínimos
cuadrados.

Valores Predichos
95.00% 95.00%
Predicciones Límite Predicción Límite Confianza
X Y Inferior Superior Inferior Superior
10.0 0.46974 0.451074 0.487692 0.464628 0.474797
15.0 0.436805 0.417213 0.455556 0.433686 0.439903
20.0 0.419369 0.398951 0.438839 0.416296 0.42242
25.0 0.408551 0.387495 0.428573 0.404999 0.412072
30.0 0.401176 0.37963 0.421623 0.397128 0.405184
35.0 0.395825 0.373892 0.416604 0.391352 0.400247
40.0 0.391763 0.369521 0.412808 0.38694 0.396527

Incluidos en la tabla están:

• X – el valor de la variable independiente con el cual se va a hacer la predicción.

• Predicciones Y – el valor de predicción de la variable dependiente usando el modelo


ajustado.

• Límites de Predicción – predice los límites para nuevas observaciones al nivel


seleccionado de confianza (corresponde a las bandas externas sobre la gráfica del modelo
ajustado).

• Límites de Confianza – límites de confianza para el valor de la media de Y al nivel


seleccionado de confianza (corresponde a las bandas internas sobre la gráfica del modelo
ajustado).

Por ejemplo, en X = 30 weeks, la mejor predicción de la cantidad media de chlorine disponible


es 0.402, sin embargo podría ser fácilmente en cualquier otro lugar entre 0.397 y 0.407. Además,
se podría predecir con 95% de confianza que cualquier otra muestra más allá de las 30 weeks
caería entre 0.377 y 0.425. Obviamente, la media puede ser estimada de forma más precisa que el
valor observado de cualquier simple muestra aleatoria.

© 2005 por StatPoint, Inc. Regresión Simple - 16


STATGRAPHICS – Rev. 4/25/2007
Opciones de Ventana

• Nivel de Confianza: porcentaje de confianza para los intervalos.

• Tipo de Límite: si los límites van a ser de dos colas o de una.

• Pronóstico en X: hasta 10 valores de X para hacer predicciones.

Guardar Resultados
Los siguientes resultados pueden ser guardados en la hoja de datos:

1. Valores de Predicción – el valor de predicción de Y correspondiente a cada una de las n


observaciones.
2. Límites Inferiores para las Predicciones – los límites inferiores de predicción para cada
valor de predicción.
3. Límites superiores para Predicciones – los límites superiores de predicción para cada
valor de predicción.
4. Límites Inferiores para Medias de predicción – los límites de confianza inferiores para el
valor medio de Y en cada uno de los n valores de X.
5. Límites Superiores para Medias de predicción – los límites de confianza inferiores para
el valor medio de Y en cada uno de los n valores de X.
6. Residuos – los n residuos.
7. Residuos Estudentizados – los n residuos Estudentizados.
8. Leverages o cargas – las cargas correspondientes a los n valores de X.

Nota: Si los límites son salvados, serán usados en la ventana de Predicciones. Si los límites de
dos colas se muestran en la tabla de Predicciones, entonces los límites salvados también serán de
dos colas. Si un intervalo de una cola es mostrado en la tabla, entonces los límites salvados serán
también de una cola.

© 2005 por StatPoint, Inc. Regresión Simple - 17


STATGRAPHICS – Rev. 4/25/2007
Cálculos

Estimadores de Mínimos Cuadrados

S xy
β̂ 1 = (6)
S xx

βˆ 0 = y − βˆ1 x (7)

donde

n 2

S xx = ∑ ( xi − x ) (8)
i =1

n
S xy = ∑ ( xi − x )( y i − y ) (9)
i =1

Tabla de ANOVA

Suma de cuadrados: SSR = β̂ 12 S XX (10)

( )
n 2

Error de la suma de cuadrados: SSE = ∑ y i − βˆ 0 − βˆ1 xi (11)


i =1

SSE
Error cuadrado medio: MSE = (12)
n−2

SSR
Radio F: F = (13)
MSE
2

Bondad de Ajuste: SSLOF = ∑∑ ( y j − yˆ ij )


c nj

(14)
j =1 i =1

Error Puro: SSPE = ∑∑ ( y ij − y j )


c nj

(15)
j =1 i =1

SSLOF /(c − 2)
Radio F para Bondad de Ajuste: F = (16)
SSPE /(n − c)

Donde c = número de valores únicos de X.

© 2005 por StatPoint, Inc. Regresión Simple - 18


STATGRAPHICS – Rev. 4/25/2007
Errores Standar

⎡1 X 2 ⎤
s ( βˆ 0 ) = MSE ⎢ + ⎥ (17)
⎣ n S XX ⎦

MSE
s ( βˆ1 ) = (18)
S XX

Coeficiente de Correlación
n

∑ (x i − x )( y i − y )
r= i =1
(19)
n n

∑ (x − x) ∑ (y − y)
2 2
i i
i =1 i =1

R-Cuadrada

SSR
R2 = (20)
SSR + SSE

R-Cuadrada Ajustada

⎡ ⎛ n −1 ⎞ SSE ⎤
2
Radj = 100⎢1 − ⎜ ⎟ ⎥% (21)
⎣ ⎝ n − 2 ⎠ SSR + SSE ⎦

Error Estándar de Estimación

σ̂ = MSE (22)

Predicciones

yˆ = βˆ 0 + βˆ1 x (23)

1 (x − x )
2
Límites de Confianza: yˆ ± tα / 2,n − 2σˆ + (24)
n S xx

1 (x − x )
2
Límites de Predicciones: yˆ ± tα / 2,n − 2σˆ 1 + + (25)
n S xx

© 2005 por StatPoint, Inc. Regresión Simple - 19


STATGRAPHICS – Rev. 4/25/2007
Influencia

1 ( xi − x )
2

hi = + (26)
n S xx

Estadístico Durbin-Watson
n

∑ (e i − ei −1 )
2

D= i=2
n
(27)
∑e
i =1
2
i

Si n > 500, entonces

D−2
D* = (28)
4/n

Es comparado con una distribución normal estándar. Para 100 < n ≤ 500, D/4 es comparado con
una distribución beta con parámetros

n −1
α=β = (29)
2

Para tamaños de muestra más pequeños, D/4 es comparado con una distribución beta con
parámetros basados en una traza de matrices relacionadas a la matriz X, como es descrito por
Durbin y Watson (1951) en la sección 4 de su publicación clásica.

Rezago 1 Autocorrelación Residual


n

∑e e i i −1
r1 = i =2
n
(30)
∑e i =1
2
i

© 2005 por StatPoint, Inc. Regresión Simple - 20

También podría gustarte