Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DIAGNOSIS Y VALIDACIÓN
DEL MODELO DE REGRESIÓN
INTRODUCCIÓN
RESUMEN Y CONCLUSIONES
CUESTIONES
70 MÍNIMOS CUADRADOS ORDINARIOS
INTRODUCCIÓN
donde .
Por otra parte, y una vez realizado el ajuste, se puede observar el valor del
residuo para determinar la importancia del error cometido en el análisis. Para no
equivocarse hay que tener en cuenta que el residuo tiene las mismas unidades de
medida que la variable analizada, y así se pueden llegar a conclusiones totalmente
contrarias si se cambia la escala de dicha variable.
Aunque el ajuste para explicar el consumo de un producto sea el mismo, los resultados son
aparentemente muy diferentes si el consumo se mide en euros o se mide en miles de millones de
euros. En el primer caso el residuo parecerá extremadamente grande, mientras que en el segundo
parecerá muy pequeño. El ajuste es igual de bueno (o malo) y los valores de los residuos nos engañan.
en donde cada residuo se divide por una estimación de la desviación típica, teniendo
en cuenta que para cada residuo rti, se elimina la observación correspondiente (Yi,
Xi) de los cálculos de la varianza. Se rehace el cálculo obteniendo una nueva
72 MÍNIMOS CUADRADOS ORDINARIOS
Una vez normalizados, los residuos ei, ri y rti aportarán una información que será
determinante sobre lo adecuado del ajuste realizado y sobre posibles anomalías en
los datos originales.
Cuando las pruebas indiquen que no existe normalidad, esto será debido bien a
que la asimetría es muy grande, o bien a que existen puntos anómalos. Si los
residuos no son normales se puede comprobar si existe falta de linealidad en el
modelo. Si es éste el caso, se elige una transformación adecuada, y lo más probable
es que los residuos puedan aceptarse como normales. La alternativa es deducir, de
la distribución de los residuos, un modelo de distribución de las perturbaciones y
construir contrastes para determinar la validez de los parámetros. Este punto escapa
a los objetivos de la presente unidad temática.
74 MÍNIMOS CUADRADOS ORDINARIOS
(a) (b)
Figura 3.2: Papel probabilístico normal de residuos que no tienen distribución normal.
Es posible que no pueda admitirse la normalidad porque los residuos aparezcan formando una curva
en su parte negativa (Figura 3.2a). En este caso tomando logaritmos de la variable analizada (y
posiblemente de las explicativas, si existía una relación lineal) se solucionará la falta de normalidad.
Por otra parte es posible que los residuos aparezcan en el gráfico formando dos o más grupos. En la
Figura 3.2b se aprecia una clara separación en el cero y dos grupos de residuos a su izquierda y
derecha. Esto indica que existen dos poblaciones, que es necesario identificar (según cual sea la
variable analizada) y crear las variables ficticias necesarias. El número de poblaciones existentes es
el número de grupos que pueda observarse.
Para comenzar hay que conocer el aspecto del gráfico de residuos frente a
variable estimada en un modelo sin los problemas en el error o perturbación antes
mencionados.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 75
Comenzando con los casos en los que existen problemas, en la Figura 3.4 se
presenta el caso de que exista heterocedasticidad, esto es, la varianza del error o
perturbación no se mantiene constante, σ2(Uj)=σj2. En este caso la franja que
contiene los residuos no tiene una altura constante. La altura de la franja representa
la variabilidad de los residuos para cada valor de , y si esa variabilidad no es
constante entonces la altura tampoco tiene que serlo , siendo lo más habitual que
ésta aumente con la predicción, ya sea de forma lineal como en la Figura 3.4a o no
lineal, como en la Figura 3.4b.
(a) (b)
Figura 3.4: Ejemplos de gráficos de residuo para un modelo con problemas de heterocedasticidad.
En el caso (a) la varianza aumenta de forma lineal con la estimación, y en el caso (b) el aumento es
no lineal.
(a) (b)
Figura 3.5: Ejemplos de gráficos de los residuos para un modelo con problemas de autocorrelación.
La autocorrelación puede ser negativa (a) o positiva (b).
(a) (b)
Por último se debe señalar que los problemas del modelo no se presentan de
forma aislada, y que es habitual que los gráficos de los residuos tengan un aspecto
más complicado.
Los gráficos de los residuos frente a las variables explicativas ayudan a identificar
los problemas del modelo como debidos a alguna variable explicativa en particular.
El aspecto de los gráficos de los residuos frente a las variables explicativas es
similar a los vistos en el punto anterior, por lo que no se repiten aquí.
Con estos gráficos se pretende estudiar la relación que tiene la variable Y con una
variable explicativa en particular Xk, eliminando (filtrando) el efecto del resto de las
variables explicativas consideradas en el modelo, con lo que la relación queda ahora
más clara. Para ello, se debe:
Una aproximación aceptable y bastante más sencilla puede ser realizar el ajuste
con todas las variables, obtener los residuos (e) del ajuste y calcular un nuevo
residuo como e*=e+bkXk. Su representación frente a la variable explicativa Xk puede
mostrar, aproximadamente, el efecto marginal de X k sobre Y.
Dado que los modelos proporcionados por la teoría económica pueden no incluir
todas las variables explicativas, es interesante representar los valores del residuo
e frente al tiempo, frente el orden de introducción o frente al orden de medida para
poder asignar a esas variables los problemas que se detecten en el modelo.
Estos gráficos tienen el mismo aspecto que los gráficos de los residuos frente a
estimaciones o frente a variables explicativas, por lo que no se vuelven a presentar
en este apartado.
Ejemplo 3.1 Los siguientes gráficos son de los residuos del problema sobre la tasa de actividad de
las mujeres frente a la tasa de desempleo, planteado en el primer ejemplo de la primera unidad
temática.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 79
En los tres primeros gráficos se aprecia de forma clara que la distribución de los residuos no es
aleatoria, y que el modelo está mal formulado. En el gráfico de residuos frente a la predicción (Figura
3.10) y frente a la Tasa de Paro (Figura 3.12) se puede apreciar que los residuos se agrupan en dos
bandas claramente diferenciadas. Esto quiere decir que existen dos rectas y no sólo una, que existen
dos grupos de datos. En el gráfico de residuos frente al índice (Figura 3.11), u orden de introducción
de los datos (el año), se observan claramente dos comportamientos, una parte de residuos positivos
(primeros años) y otra parte de residuos negativos que incluye unas oscilaciones. Estos dos grupos,
positivos y negativos, están separados en un instante de tiempo determinado, el año 1986 que es el
momento de entrada de España en la CEE. Por último, en el papel probabilístico normal vemos que
los residuos están separados en dos partes, una a cada lado del cero. Esta separación en el cero indica
la presencia de dos poblaciones, las ya conocidas de antes y después de la entrada en la CEE.
La conclusión final sería que el modelo no está bien formulado, que existen dos periodos en el
intervalo de tiempo observado, lo que nos llevaría a introducir una variable ficticia en el ajuste para
separar ambos. Respecto al papel probabilístico normal, en principio no parece necesaria una
transformación de la variable estudiada, aunque la decisión final habría que tomarla tras realizar el
ajuste con la variable ficticia.
Figura 3.10: Residuos de Tasa de Actividad de Figura 3.11: Residuos de Tasa de Actividad de
las mujeres representados respecto a la las mujeres representados frente al orden de
predicción. introducción de los datos.
Figura 3.12: Residuos de Tasa de Actividad de Figura 3.13: Papel probabilístico normal de los
las mujeres representados respecto a la Tasa residuos del ajuste de Tasa de Actividad de las
de Paro. mujeres.
80 MÍNIMOS CUADRADOS ORDINARIOS
2. ERROR DE ESPECIFICACIÓN
Una relación no lineal puede aproximarse por una relación lineal en un rango de
valores relativamente estrecho de la variable explicativa. Esta aproximación puede
ser aceptable en el intervalo de valores observados, pero muy incorrecto fuera del
mismo. Especificar una relación lineal entre la variable explicada y las explicativas
cuando en realidad no la hay, es especialmente grave si se pretende estimar valores
fuera del rango de los datos.
Los gráficos para detectar errores de especificación son los gráficos de los
residuos ya vistos:
Donde $1 cuantifica el aumento del PIB en promedio por cada oficina de banco abierta, cuando se
mantiene el número de oficinas de caja de ahorro. El parámetro $1 cuantifica el aumento del PIB en
promedio por cada oficina de caja de ahorro abierta, cuando se mantiene el número de oficinas de
banco.
82 MÍNIMOS CUADRADOS ORDINARIOS
Realizado el ajuste, la estimación de los Tabla 3.1: PIB y número de sucursales bancarias
parámetros es significativa, lo mismo que el y de cajas de ahorro.
modelo en sí, tal y como se aprecia en el
Cuadro 3.1, con un porcentaje de explicación AÑO BANCO CCAA PIB
del PIB de un 97'57%. Sin embargo, ahora 1982 59588 43787 307607
debemos centrar nuestra atención en el aspecto 1983 63206 46340 313052
que presentan los gráficos de residuos, en la 1984 65135 47919 318639
Figura 3.14. 1985 66345 49604 326036
1986 66128 50800 336643
Como se observa en la Figura 3.14, los 1987 66034 52681 355317
residuos no están distribuidos al azar, forman
1988 66426 55342 373418
figuras geométricas reconocibles si se unen los
puntos mediante una línea, por lo que debe 1989 66647 58739 391443
admitirse que el modelo está mal formulado. 1990 67333 60844 406245
Entre otras cuestiones, puede observarse una 1991 69104 60756 416588
clara curva en el gráfico de residuos frente al 1992 72330 56632 420459
número de BANCOS, Figura 3.13a, lo cual 1993 70748 57617 416122
indicaría una relación de tipo cuadrático entre 1994 70482 59096 426039
el número de BANCOS y el PIB. 1995 70843 60124 437792
1996 71197 62644 448456
1997 70344 65865 466513
1998 70218 69542 486742
1999 68735 72119 506849
2000 65197 75649 527613
2001 60962 78207 542166
Fuente: Banco de España
(a) (b)
(c) (d)
Figura 3.14: Gráficos de residuos frente al número de bancos (a), el número de cajas de ahorro (b),
la predicción (c) y el orden de introducción (d).
desde el principio, hasta que los valores del residuo no cambien, se obtiene el
gráfico final en el que se observará la forma de la dependencia.
(a) (b)
Figura 3.15: Para apreciar mejor la curvatura se representa el promedio de tres residuos frente al
número de BANCOS (a) y la mediana de tres residuos frente al número de BANCOS.
Suponiendo una relación cuadrática con el número de oficinas de banco y realizado el ajuste,
puede comprobarse que P-Value es prácticamente igual a cero, por lo que parecía conveniente
la introducción del término al cuadrado, como se aprecia en el Cuadro 3.2.
Cuadro 3.2: Ajuste del modelo que incluye el cuadrado del número de BANCOS.
H0 γ1 = γ2 = 0
la relación es lineal y está bien formulada
Realizado el ajuste de
se buscan las sumas de cuadrados de residuo con y sin restricción, con lo que el estadístico
Fcalc se calcula como:
Cuadro 3.3: Ajuste con el cuadrado y el cubo de la estimación del PIB para determinar si la relación
está bien planteada
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 9,62713E10 4 2,40678E10 238,92 0,0000
Residual 1,51101E9 15 1,00734E8
-----------------------------------------------------------------------------
Total (Corr.) 9,77823E10 19
3. OBSERVACIONES INFLUYENTES
Por otra parte, el punto B no aparecerá como atípico en ningún gráfico de los
residuos ya que su posición es próxima a la media (obsérvese que la distancia a la
media es la misma que la del punto A), pero puede influir en el ajuste ya que difiere
mucho de las posiciones del resto de puntos.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 87
Por otra parte, el punto B dista la misma distancia d del punto medio. Ahora bien,
está claro que esa distancia es muy grande si se tiene en cuenta que la desviación
típica es ahora más pequeña. Está claro que el punto B no pertenece a la población
estudiada.
y su varianza:
Cuadro 3.4: Puntos influyentes señalados por el Statgraphics en el ajuste del número de expositores
de la Feria de Valencia.
Influential Points
------------------------------------------------
Mahalanobis
Row Leverage Distance DFITS
------------------------------------------------
5 0,0856615 0,921357 0,771667
6 0,261087 6,11442 -0,880052
11 0,63262 33,4872 1,32048
17 0,670623 39,7684 -1,53614
------------------------------------------------
Average leverage of single data point = 0,136364
El hecho de que una observación sea muy influyente a priori no quiere decir que
lo sea realmente.
(a) (b)
Figura 3.19: Una observación puede ser influyente a priori, pero finalmente no serlo (a) dado que la
recta no cambia mucho si no está dicha observación, o puede cambiar mucho (b) si se elimina.
Estas tres cuestiones han sugerido otros tantos métodos para construir medidas
de influencia, aunque finalmente se tiene que todos ellos son, en realidad, tres caras
de un sólo método. Para realizar la prueba se define un estadístico debido a Cook,
llamado DFITS o distancia de Cook:
donde:
es el residuo estandarizado.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 91
Siguiendo con el Ejemplo 3.3, ya sabemos que el Statgraphics presenta un total de cuatro
observaciones influyentes, de las cuales dos, la 11 y la 17 son potencialmente influyentes. Para
determinar finalmente la naturaleza de las ferias seleccionadas por el programa, debe calcularse el
valor límite que indica si una observación es realmente influyente. Dado que hay un total de 22
observaciones y 2 variables explicativas, el valor buscado es ±2*o(2+1)/22 = 0'7385. En el Cuadro
3.5 se presentan los dfits de cuatro ferias, superando todas ellas el valor límite calculado. La
conclusión es que las observaciones 5, 6, 11 y 17 son influyentes a posteriori, y modifican la
estimación de los parámetros dependiendo de si están o no. Las ferias realmente influyentes son FIMI
(5), CEVISAMA (6), del MUEBLE (11) y de la JOYERÍA (17).
Cuadro 3.5: Puntos influyentes señalados por el Statgraphics en el ajuste del número de expositores
de la Feria de Valencia.
Influential Points
------------------------------------------------
Mahalanobis
Row Leverage Distance DFITS
------------------------------------------------
5 0,0856615 0,921357 0,771667
6 0,261087 6,11442 -0,880052
11 0,63262 33,4872 1,32048
17 0,670623 39,7684 -1,53614
------------------------------------------------
Average leverage of single data point = 0,136364
esto es, obviamente una simplificación, dado que para identificar los valores
anómalos sería necesario buscar en las tablas de la distribución t aquél valor de la
t con los grados de libertad del residuo, que deja por encima de ella una
probabilidad del 2'5%.
En el Ejemplo 3.3, el Statgraphics presenta dos residuos elevados, los numerados como 5 y 12
(Cuadro 3.6). Los residuos estudentizados en ambos sobrepasan el valor de 2, lo cual es muy elevado,
pero no el valor de 3, que los etiquetaría como “muy preocupantes”.
Dado que los grados de libertad del residuo son 19, sería necesario buscar en la tabla de la
distribución t el valor que deja por encima un 2'5% (o tal vez un 0'5%) para poder realizar realmente
la prueba. El resultado es que ( ) con lo que realmente el resultado no cambia
en absoluto.
Cuadro 3.6: Residuos anómalos del ajuste del modelo para el número de expositores de la Feria de
Valencia.
Unusual Residuals
--------------------------------------------------------------
Predicted Studentized
Row Y Y Residual Residual
--------------------------------------------------------------
5 300,0 165,518 134,482 2,52
12 320,0 175,021 144,979 2,74
--------------------------------------------------------------
Por otro lado, si lo que se busca son valores X ij anómalos, éstos se detectan por
valores altos de su leverage:
El valor de referencia para determinar los valores anómalos de las variables explicativas es
3*(2+1)/22 = 0'4091, con lo que de nuevo aparecen las ferias 11 y 17 como anómalas.
Cuadro 3.7: Valores del leverage de los puntos influyentes señalados por el Statgraphics en el ajuste
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 93
Influential Points
------------------------------------------------
Mahalanobis
Row Leverage Distance DFITS
------------------------------------------------
5 0,0856615 0,921357 0,771667
6 0,261087 6,11442 -0,880052
11 0,63262 33,4872 1,32048
17 0,670623 39,7684 -1,53614
------------------------------------------------
Average leverage of single data point = 0,136364
RESUMEN Y CONCLUSIONES
4. Por último, es posible que el ajuste realizado esté condicionado por sólo una
o dos de las observaciones disponibles, bien porque los valores son muy
diferentes del resto de las observaciones, bien porque son fruto de algún tipo
de error. En la presente unidad temática se han presentado una serie de
pruebas que permiten identificar dichas observaciones, y determinar la
naturaleza de su influencia.
94 MÍNIMOS CUADRADOS ORDINARIOS
CUESTIONES
1.- Dados los siguientes GRÁFICOS DE LOS RESIDUOS, explicar que problemas
tienen los modelos respectivos (si los tienen).
2.- Dadas las siguientes salidas del Statgraphics, determinar la naturaleza de las
observaciones influyentes (tamaños de muestra 15 y 36, y número de variables
explicativas 3 y 4 respectivamente):
3.- Dibujar los gráficos de los residuos (e’) y determinar el problema que sufren los
siguientes modelos:
4.- Determinar los posibles problemas que aparecen en los siguientes gráficos de
los residuos: