Está en la página 1de 1

492 Capítulo 12 Regresión lineal múltiple y ciertos modelos de regresión no lineal

(véase el ejercicio de repaso 12.63) y un estimado no sesgado de


n n
1 1 (s 2 − σ 2)( n − p)
(Sesgo ŷ i ) 2 es dado por (Sesgo ŷ i ) 2 = .
σ2 i =1
σ2 i =1
σ2
2
En las ecuaciones anteriores s es el cuadrado medio del error para el posible modelo
y σ 2 es la varianza del error de la población. Así, si asumimos que se dispone de algún
estimado σ̂ 2 para σ 2, entonces Cp es dado por la siguiente ecuación:

Estadístico Cp (s 2 − σ̂ 2)( n − p)
Cp = p + ,
σ̂ 2
donde p es el número de parámetros en el modelo, s2 es el cuadrado medio del error para
el modelo candidato y σ̂ 2 es un estimador de σ 2.
Es evidente que el científico debería adoptar modelos con valores pequeños de Cp.
El lector observará que, a diferencia del estadístico PRESS, Cp carece de una escala.
Además, se puede obtener cierta información acerca de qué tan adecuado es un posible
modelo observando su valor de Cp. Por ejemplo, Cp > p indica que un modelo está ses-
gado debido a que está subajustado, mientras que Cp ≈ p indica un modelo razonable.
Con frecuencia hay confusión respecto a la procedencia de σ̂ 2 en la fórmula para Cp.
Es evidente que el científico o ingeniero no tienen acceso a la cantidad σ 2 de la pobla-
ción. En aplicaciones donde se dispone de corridas repetidas, digamos en situaciones de
diseño experimental, se dispone de un estimado de σ 2 independiente del modelo (véase
los capítulos 11 y 15). Sin embargo, la mayoría de paquetes de cómputo utilizan σ̂ 2
como el cuadrado medio del error del modelo más completo. Evidentemente, si éste no
es un buen estimado, la parte de sesgo del estadístico Cp puede ser negativa. Por consi-
guiente, Cp puede ser menor que p.
Ejemplo 12.12: Considere el conjunto de datos de la tabla 12.15, los cuales reflejan el interés de un fa-
bricante de grava asfáltica en la relación que existe entre las ventas durante un año espe-
cífico y los factores que influyen en ellas. (Los datos fueron tomados de Kutner et al.,
2004, véase la bibliografía).
En los subconjuntos de modelos posibles, hay tres que revisten interés especial.
Estos tres son los de x2x3, x1x2x3 y x1x2x3x4. A continuación se presenta la información per-
tinente para comparar los tres modelos. Para ayudar a la toma de decisiones incluimos
los estadísticos PRESS de los tres modelos.
Modelo R2 R 2pred s2 PRESS Cp
x2x3 0.9940 0.9913 44.5552 782.1896 11.4013
x1x2x3 0.9970 0.9928 24.7956 643.3578 3.4075
x1x2x3x4 0.9971 0.9917 26.2073 741.7557 5.0
A partir de la información de la tabla parece claro que el modelo x1x2x3 es mejor
que los otros dos. Observe que para el modelo completo Cp = 5.0. Esto ocurre porque la
parte de sesgo es igual a cero y σ̂ 2 = 26.2073 es el cuadrado medio del error del modelo
completo.
La figura 12.6 es una salida de resultados de la función PROC REG del SAS, la cual
muestra información sobre todas las regresiones posibles. A partir de ella es posible
hacer comparaciones de otros modelos con (x1, x2, x3). Observe que (x1, x2, x3) parece
muy bueno en comparación con todos los demás modelos.
Como verificación final del modelo (x1, x2, x3), la figura 12.7 presenta una gráfica de
probabilidad normal de los residuales del modelo.

También podría gustarte