Está en la página 1de 11

Estadística y

pronósticos
para la toma
de decisiones

Regresión lineal simple y


regresión lineal múltiple

Tema 11. Predicción y


análisis de residuos
Introducción
Una importante aplicación del modelo de regresión es la predicción de observaciones nuevas o futuras de Y
correspondientes a un nivel especificado de la variable independiente X. Por ejemplo, supóngase que en un
proceso químico el rendimiento de un producto está relacionado con la temperatura de operación del proceso.
El conjunto de técnicas que se utilizarán para construir y evaluar modelos que describen la relación entre vari-
ables y para formular inferencias basadas en los modelos obtenidos se conoce colectivamente como técnicas
de regresión. Después podría utilizarse el modelo para predecir el rendimiento a un nivel dado de temperatura.
También podría utilizarse con fines optimización del proceso o de control del mismo.

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
02
Explicación
Mediante el método de mínimos cuadrados se obtiene la mejor línea recta que ajusta a los datos ex-
perimentales. Sin embargo, es posible que una vez graficados los datos experimentales, estos no muestren
relación alguna, o bien, si es el caso, la relación mostrada no tiene que ser necesariamente lineal, pudiendo
mostrar otro tipo de relación (por ejemplo, cuadrática) entre las dos variables. Si es así, el uso del modelo lineal
probablemente no sea el adecuado.

Si el ajuste es pobre, debe descartarse el modelo lineal y buscar otro. Una importante aplicación del modelo
de regresión es la predicción de nuevas observaciones de Y correspondientes a un valor dado de X. Si X0 es el
valor de interés, entonces:

Ŷ = b0 + b1X0

Es el estimador puntual del nuevo valor de la respuesta Y0.

La línea de regresión puede usarse para estimar el valor de Y para un valor determinado X. Para obtener una
predicción puntual o pronóstico, simplemente evalúe la función de regresión estimada en X.

Antigüedad del Gastos de reparación durante el


XY X2 Y2
camión en años (X) último año en miles (Y)
5 7 35 25 49
3 7 21 9 49
3 6 18 9 36
1 4 4 1 16
∑ x = 12 ∑ Y = 24 ∑XY =78 ∑X2 = 44 ∑Y2 = 150

X=3 Y=6

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
03
Para este ejemplo, se obtuvo la ecuación de regresión estimada:

Ŷ0 = 3.75 + 0.75 X0

Si X0 = 4, entonces, el valor estimado para Y será:

Ŷ0 = b0 + b1X0

= 3.75 + 0.75 (4)

= 3.75 + 3

= 6.75

Existen dos fuentes de incertidumbre asociadas con una predicción puntual generada por la ecuación de re-
gresión adaptada:

1. Incertidumbre debida a la dispersión de los datos respecto a la línea


de regresión de la muestra.

2. Incertidumbre debida a la dispersión de la muestra respecto a la línea


de regresión de la población.

Es posible elaborar un intervalo de predicción de Y que tome en cuenta estas dos fuentes de incertidumbre. El
error estándar del pronóstico mide la variabilidad de Y prevista sobre la Y real para un valor determinado de X.
El error estándar del pronóstico está dado por la expresión:


( ) 
2
2 1 X0 + X
S + 
ε  n 2 

 ∑ X2 − n X ( ) 

El primer término, S2ε, mide la dispersión de los datos sobre la línea de regresión de la muestra (primera
fuente de incertidumbre).

El segundo término:


( ) 
2
2 2 1 X + X
S +S  + 
0

ε  n 2 
ε
 ∑ X2 − n X ( ) 

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
04
Mide la dispersión de la línea de regresión de la muestra sobre la línea de regresión de la población (segunda
fuente de incertidumbre).

Intervalos de confianza de un valor particular de Y para un valor dado de X0

Muy frecuentemente, el interés fundamental de un análisis de regresión se ubica en predecir el valor esperado
de Y para valores específicos de X, es decir, para un valor dado de X = X0. Este intervalo se denomina a menudo
intervalo de predicción del (1 - α) 100%, y se obtiene como sigue:


( ) 
( )
2 2
2 2 1 X − X X − X
S +S  +
0  = S 2 1+ 1 + 0

ε  n 2 
( ) ( )
2
ε ε n
 ∑ X2 − n X 
 ∑ X2 − n X
Con t* = tα2, (n -2) s

Puesto que:

(X
)
2
1 −X
 ±t*S
Y 1+ +
0

∑ X − n ( X)
ε 2
n 2

Donde X0 es el valor dado de X; además Ŷ = b0 + b1X0. Para el ejemplo anterior, si X0 = 4, entonces, un intervalo
de confianza al 95% para Ŷ = 6.75 será:

1 ( 4 − 3)
2

1+ +
4 8

t* = t0.05/2 (4 -2) = t0.025 (2) = 4.303

Entonces:
Sε =
∑Y 2
− b0 ∑ Y − b1 ∑ XY
6.75 ± 4.303 (0.8660) n−2
150 − ( 3.75 )( 24 ) − ( 0.75 )( 78 )
=
4−2

6.75 ± 4.3696

En donde:
(X )
2
−X
 ± t * S 1+ 1 +
Y
0

∑ X − n ( X)
ε 2
n 2

=0.8660

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
05
De modo que el límite inferior de confianza (LIC) = 2.3804,
y el límite superior de confianza (LSC) =11.1196.

Así, el gasto estimado en reparación de 6.75 estará en el intervalo


(2.3804, 11.1196); recordando que las unidades están en miles
de unidades monetarias ($), este gasto estará entre 2,380.40 y 11,119.60.

En general, es peligroso utilizar la función de regresión ajustada para predecir valores de Y más allá del rango
de valores disponibles. Se puede justificar que se trate de predecir Y cuando X = 4 porque algunos de los va-
lores originales de X están cerca de 4. Por otro lado, podría ser imprudente predecir Y cuando X = 10, pues
no se han recopilado datos para X tan grandes, y por esta razón cualquier predicción que implique tal valor de
X sería muy dudosa. Para calcular el gasto cuando la antigüedad es de 10 años, tiene que suponerse que el
modelo de línea recta es aún válido; puede haber buenas razones para pensar así, pero no se tiene evidencia
directa para respaldar tal suposición.

Análisis de residuos

El hecho de ajustar un modelo por mínimos cuadrados, construir intervalos de predicción y probar hipótesis, no
completa el estudio de regresión. Estos pasos son solamente la mitad de la historia: las inferencias que se pu-
eden hacer cuando los supuestos del modelo se cumplen de manera adecuada. En la mayoría de los estudios
no es obvio que un modelo en particular sea correcto. Las inferencias pueden ser seriamente engañosas si los
supuestos elaborados en la formulación del modelo son extremadamente incompatibles con los datos.

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
06
Es esencial verificar cuidadosamente los datos para evitar violaciones de los supuestos. Recuerda que los su-
puestos de regresión lineal simple son:

1 2 3 4
En la población existe Los términos de error La dispersión de los Para un valor de-
una relación lineal son independientes datos poblacionales terminado de X, la
entre X y Y. También uno del otro. Este su- alrededor de la línea población de valores
hay extensiones de puesto implica que la de regresión de la de Y es normalmente
la regresión lineal muestra de datos X-Y población permanece distribuida sobre la
simple para tratar las es aleatoria. Cuando constante a lo largo línea de regresión de
relaciones X-Y que no los datos X-Y son reg- de la línea. La vari- la población. En la
son lineales. istrados a lo largo del anza de la población práctica, se obtienen
tiempo, a menudo se no se hace ni más resultados razon-
viola este supuesto. grande ni más peque- ablemente precisos
Más que ser indepen- ña, aunque los va- mientras los valores
dientes, las observa- lores X de los puntos Y se distribuyan de
ciones consecutivas aumenten. manera razonable-
están correlacionadas mente normal.
serialmente.

La información sobre la variación que no se puede explicar por la función de regresión ajustada se encuentra en
los residuales e = Y - Ŷ. Para verificar los méritos de un modelo tentativo, se pueden examinar diversas gráficas
de residuales.

Gráfica como histograma de los residuales


Un histograma de los residuales constituye una manera de verificar el supuesto de normalidad. En
la práctica, las desviaciones moderadas de una curva normal o una curva en forma de campana no
afectan las conclusiones en pruebas de hipótesis o en intervalos de confianza para la predicción cu-
ando se basan en la distribución t, particularmente si las series de datos son grandes. Una violación
del supuesto de normalidad, por sí sola, ordinariamente no es tan grave como una violación de los
demás supuestos.

15
12
frecuencia

6
3
0
-3 -2 -1 0 1 2 3
res_est
Información obtenida de http://www.udc.es/.../. Sólo para fines educativos.

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
07
Gráfica de dispersión de residuales contra valores ajustados
Si una gráfica de dispersión de residuales contra valores ajustados a la recta indica que la natura-
leza general de la relación entre Y y X forma una curva en vez de una línea recta, una transformación
adecuada de los datos puede producir una relación no lineal a otra que se aproxime a la lineal.
20

10 *
* * * ** **
*
****** ** ***
*
* * **** ** ** *** * * *
* *** * * ** **** ** *********** *** ***************
0
*** **** * * *** *** ****** ****
***** * ***** **
residuos
* ** * ** ****
** *** ******* *** ************* *******
* ** * * * ** * **
* * ***
-10
*
-20
-2 0 2 4 6 8 10 12
predicciones
Información obtenida de http://www.udc.es/.../. Sólo para fines educativos.

Gráfica de dispersión, residuales contra variable explicativa


En este tipo de gráfica, los residuos pueden ser graficados contra distintas variables.

Residuales 0

-2

-4

-6
8 10 12 14 16 18 20 22
Variable explicativa (x)
Información obtenida y modificada de http://tabarefernandez.tripod.com/.../. Sólo para fines educativos.

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
08
Gráfica de residuos contra tiempo si los datos son cronológicos
El supuesto de independencia es el más importante. La falta de independencia puede tergiversar
drásticamente las conclusiones extraídas de las pruebas de t. Este supuesto corre el riesgo de ser vio-
lado particularmente para datos de series de tiempo, que son frecuentes en problemas de pronóstico
económico o pronóstico de negocios.

Para residuales de series de tiempo, es decir, residuales producidos utilizando métodos de re-
gresión en datos ordenados por tiempo, se puede verificar la independencia mediante una gráfica de
residuales sobre el tiempo. Si hay independencia no debe haber un patrón sistemático, tal como un
conjunto de valores consecutivos altos, seguido por otro de valores bajos. Además, cuando se calcu-
lan las autocorrelaciones muestrales de los residuales se puede verificar la independencia. Este tema
de la autocorrelación ya se trató en el tema 6 del módulo anterior.

6
5
4
3
2
Residuacles

1
0
5 10 15 20 25
-1
Tiempo
-2
-3
-4
-5
-6

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
09
Gráfica de residuos contra tiempo si los datos son cronológicos
Una transformación también ayuda a estabilizar la varianza. En la siguiente figura hay una gráfica
residual que indica que la distribución de los residuales aumenta cuando la magnitud de los valores
estimados o ajustados se incrementa. Esto quiere decir que la variabilidad de los puntos de datos
sobre la línea de mínimos cuadrados es mayor para valores ajustados de Y grandes que para valores
pequeños, lo cual implica que el supuesto de varianza constante no se cumple. En esta situación, el
relacionar el logaritmo de Y contra X podría producir una variación residual más coherente con el su-
puesto de varianza constante.

3
*** ***
2 ******** * ****
* * ***** **
* * *
*** ** ******** ***** *
1
** ** * * * ** *** * **
*** ******************** **** **** *******************
***** ** ** * * * *
Residuos

0
************************************************* ** ***** ***
************************* ********
* ************************* * *
-1
********** ***
****
-2
* *** *
*
-3
0 2 4 6 8
Valores estimados
Imagen obtenida y modificada de https://encrypted-tbn1.gstatic.com/.../. Sólo para fines educativos.

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
10
Checkpoint
Antes de dar por concluido el tema, asegúrate de comprender:
La obtención del error estándar del pronóstico.

Obtención de los intervalos de confianza para un valor especificado de X.

Referencias bibliográficas
Hanke, J. E., y Wichern, D. W. (2010). Pronósticos en los negocios (9ª ed.). México: Pearson.

Levin, R., y Rubin, D. (2010). Estadística para administración y economía (7ª ed.). México. Pearson
educación.

Rodríguez, J., Pierdant, E., y Rodríguez, C. (2016). Estadística para administración (2ª ed.). México:
Editorial Patria.

Tema 11. Prediccióny análisis de residuos


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
11

También podría gustarte