Está en la página 1de 8

Resumen tema 11

Ejercicio 11
Tema 11. Predicción y análisis de residuos
Mediante el método de mínimos cuadrados se obtiene la mejor línea recta que ajusta a
los datos experimentales.
Si el ajuste es pobre, debe descartarse el modelo lineal y buscar otro. Una importante
aplicación del modelo de regresión es la predicción de nuevas observaciones de Y
correspondientes a un valor dado de X. Si X0 es el valor de interés, entonces:
Ŷ = b0 + b1X0

Es el estimador puntual del nuevo valor de la respuesta Y 0.


La línea de regresión puede usarse para estimar el valor de Y para un valor
determinado X. Para obtener una predicción puntual o pronóstico, simplemente evalúe
la función de regresión estimada en X.
Antigüedad Gastos de reparación
del camión en durante el último XY X2 Y2
años  (X) año en miles  (Y)
5 7 35 25 49
3 7 21 9 49
3 6 18 9 36
1 4 4 1 16
∑ x = 12 ∑ Y = 24 ∑XY =78 ∑X2 = 44 ∑Y2 = 150

Para este ejemplo, obtenemos b0 y b1, de la siguiente manera:

se obtuvo la ecuación de regresión estimada:


Ŷ0 = 3.75 + 0.75 X0
Si X0 = 4, entonces, el valor estimado para Y será:
Ŷ0 = b0 + b1X0
= 3.75 + 0.75 (4)
= 3.75 + 3
= 6.75
Existen dos fuentes de incertidumbre asociadas con una predicción puntual generada
por la ecuación de regresión adaptada:
1. Incertidumbre debida a la dispersión de los datos respecto a la línea de
regresión de la muestra.
2. Incertidumbre debida a la dispersión de la muestra respecto a la línea de
regresión de la población.

Es posible elaborar un intervalo de predicción de Y que tome en cuenta estas dos


fuentes de incertidumbre. El error estándar del pronóstico mide la variabilidad de Y
prevista sobre la Y real para un valor determinado de X. El error estándar del
pronóstico está dado por la expresión:

El primer término, S2ε, mide la dispersión de los datos sobre la línea de regresión de la
muestra (primera fuente de incertidumbre).
El segundo término:

Mide la dispersión de la línea de regresión de la muestra sobre la línea de regresión de


la población (segunda fuente de incertidumbre).
Intervalos de confianza de un valor particular de Y para un valor dado de X 0
Muy frecuentemente, el interés fundamental de un análisis de regresión se ubica en
predecir el valor esperado de Y para valores específicos de X, es decir, para un valor
dado de X = X0. Este intervalo se denomina a menudo intervalo de predicción del (1 - α)
100%, y se obtiene como sigue:

Con t* = tα/2, (n -2)

Puesto que:
Donde X0 es el valor dado de X; además Ŷ = b0 + b1X0. Para el ejemplo anterior, si X0 =
4, entonces, un intervalo de confianza al 95% para Ŷ = 6.75 será:
t* = t0.05/2 (4 -2) = t0.025 (2) = 4.303
Entonces:

En donde:

6.75 ± 4.303 (0.8660)


6.75 ± 4.3696
De modo que el límite inferior de confianza (LIC) = 2.3804, y el límite superior de
confianza (LSC) =11.1196.
Así, el gasto estimado en reparación de 6.75 estará en el intervalo (2.3804,
11.1196); recordando que las unidades están en miles de unidades monetarias
($), este gasto estará entre 2,380.40 y 11,119.60.

Análisis de residuos
El hecho de ajustar un modelo por mínimos cuadrados, construir intervalos de
predicción y probar hipótesis, no completa el estudio de regresión. Estos pasos son
solamente la mitad de la historia: las inferencias que se pueden hacer cuando los
supuestos del modelo se cumplen de manera adecuada.

Independencia: Los términos de error e son independientes uno del otro. Este supuesto
implica que la muestra de datos X-Y es aleatoria. Cuando los datos X-Y son registrados
a lo largo del tiempo, a menudo se viola este supuesto. Más que ser independientes,
las observaciones consecutivas están correlacionadas serialmente.
Homogeneidad de varianzas: La dispersión de los datos poblacionales alrededor de la
línea de regresión de la población permanece constante a lo largo de la línea. La
varianza de la población no se hace ni más grande ni más pequeña, aunque los valores
X de los puntos aumenten.

Normalidad: Para un valor determinado de X, la población de valores de Y es


normalmente distribuida sobre la línea de regresión de la población. En la práctica, se
obtienen resultados razonablemente precisos mientras los valores Y se distribuyan de
manera razonablemente normal.

Gráfica como histograma de los residuales


Un histograma de los residuales constituye una manera de verificar el supuesto de
normalidad. En la práctica, las desviaciones moderadas de una curva normal o una
curva en forma de campana no afectan las conclusiones en pruebas de hipótesis o en
intervalos de confianza para la predicción cuando se basan en la distribución t,
particularmente si las series de datos son grandes. Una violación del supuesto de
normalidad, por sí sola, ordinariamente no es tan grave como una violación de los
demás supuestos.

Información obtenida de http://www.udc.es/.../. Sólo para fines educativos.


Gráfica de dispersión de residuales contra valores ajustados
Si una gráfica de dispersión de residuales contra valores ajustados a la recta indica que
la naturaleza general de la relación entre Y y X forma una curva en vez de una línea
recta, una transformación adecuada de los datos puede producir una relación no lineal
a otra que se aproxime a la lineal.
Información obtenida de http://dm.udc.es/.../. Sólo para fines educativos.
Gráfica de dispersión, residuales contra variable explicativa
En este tipo de gráfica, los residuos pueden ser graficados contra distintas variables.
Información obtenida y modificada de http://tabarefernandez.tripod.com/.../. Sólo para
fines educativos.
Gráfica de residuales contra tiempo si los datos son cronológicos
El supuesto de independencia es el más importante. La falta de independencia puede
tergiversar drásticamente las conclusiones extraídas de las pruebas de t. Este supuesto
corre el riesgo de ser violado particularmente para datos de series de tiempo, que son
frecuentes en problemas de pronóstico económico o pronóstico de negocios.
Para residuales de series de tiempo, es decir, residuales producidos utilizando métodos
de regresión en datos ordenados por tiempo, se puede verificar la independencia
mediante una gráfica de residuales sobre el tiempo. Si hay independencia no debe
haber un patrón sistemático, tal como un conjunto de valores consecutivos altos,
seguido por otro de valores bajos. Además, cuando se calculan las autocorrelaciones
muestrales de los residuales se puede verificar la independencia. Este tema de la
autocorrelación ya se trató en el tema 6 del módulo anterior.
Información obtenida de http://ssfe.itorizaba.edu.mx/.../. Sólo para fines educativos.
Una transformación también ayuda a estabilizar la varianza. En la siguiente figura hay
una gráfica residual que indica que la distribución de los residuales aumenta cuando la
magnitud de los valores estimados o ajustados se incrementa. Esto quiere decir que la
variabilidad de los puntos de datos sobre la línea de mínimos cuadrados es mayor para
valores ajustados de Y grandes que para valores pequeños, lo cual implica que el
supuesto de varianza constante no se cumple. En esta situación, el relacionar el
logaritmo de Y contra X podría producir una variación residual más coherente con el
supuesto de varianza constante.
Imagen obtenida y modificada de https://encrypted-tbn1.gstatic.com/.../. Sól

También podría gustarte