Validación de Regresión

UNIDAD TEMÁTICA 03
DIAGNOSIS Y VALIDACIÓN
DEL MODELO DE REGRESIÓN
INTRODUCCIÓN
1. ANÁLISIS DE LOS RESIDUOS.

2. ERROR DE ESPECIFICACIÓN.
3. OBSERVACIONES INFLUYENTES.
RESUMEN Y CONCLUSIONES
CUESTIONES
70 MÍNIMOS CUADRADOS ORDINARIOS
INTRODUCCIÓN
Esta unidad temática se centra en la validación del modelo de regresión, y más

concretamente, en su validación mediante la observación de los residuos del ajuste.
No basta con que las pruebas de hipótesis realizadas sobre los parámetros indiquen
que el modelo resulta adecuado, además, se establecieron unas hipótesis sobre el
modelo que es necesario verificar. Las relativas al error o perturbación, que son las
más relevantes en esta validación, fueron:
1- Las perturbaciones Uj son variables aleatorias de media nula.

2- Todas las perturbaciones tienen la misma varianza.
3- Todas las perturbaciones están incorrelacionadas entre sí.
4- Las perturbaciones tienen una distribución conjunta normal.
5- La perturbación no depende de las variables explicativas Xi.
Para la comprobación de dichas hipótesis, en el primer apartado de la unidad

temática se van a proponer una serie de gráficos de los residuos del ajuste, en los
que se podrán determinar los problemas del modelo. Pese a la gran cantidad de
información que pueda extraerse de un gráfico de residuos, que no es comparable
a la información que se extrae de una prueba numérica, el uso de los gráficos puede
suponer frustración puesto que es necesario un cierto “entrenamiento” para poder
aprovecharlos en toda su extensión. En unidades temáticas posteriores se
propondrán, como alternativa o complemento a estos gráficos, un conjunto de
pruebas numéricas.
También se tratarán brevemente en la presente unidad temática los problemas

del error de especificación del modelo y de la presencia de observaciones
influyentes. El primer problema, que consiste en que el modelo propuesto no refleja
adecuadamente la relación entre la variable a explicar y las explicativas, se trata en
el segundo apartado. El problema de las observaciones influyentes, que se
presentará en el tercer apartado, se refiere a la presencia de observaciones que
pueden tener una influencia decisiva en la estimación de los parámetros del modelo,
hasta el punto de distorsionar la relación que existe entre la variable explicada y las
explicativas.
1. ANÁLISIS DE LOS RESIDUOS
Una vez estimado el modelo de regresión, se debe comprobar si se cumplen las

hipótesis referentes al error o perturbación, a las variables explicativas y explicada,
y a los parámetros del modelo. En particular, y en lo referente al error o
perturbación, se debe comprobar la normalidad, homocedasticidad e independencia
del error, la no dependencia del error de las variables explicativas, la no existencia
de relaciones entre las propias variables explicativas, la linealidad de la relación y
la no presencia de observaciones anómalas.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 71
Pero existe un problema, y es que no es posible contrastar dichas hipótesis

puesto que el error o perturbación (U) no es observable. Si que lo son, sin embargo,
los residuos del ajuste (e), por lo que se tratará de comprobar el cumplimiento de las
hipótesis en el residuo con la esperanza de que los resultados puedan extrapolarse
al error o perturbación. Error y residuo no son lo mismo, y se puede demostrar que
la relación entre ambos viene dada a partir de una matriz M obtenida a partir de la
matriz de datos X.
donde .
Por otra parte, y una vez realizado el ajuste, se puede observar el valor del
residuo para determinar la importancia del error cometido en el análisis. Para no
equivocarse hay que tener en cuenta que el residuo tiene las mismas unidades de
medida que la variable analizada, y así se pueden llegar a conclusiones totalmente
contrarias si se cambia la escala de dicha variable.
Para mejorar la observación de los residuos, es conveniente normalizarlos de

alguna manera. En este apartado se van a presentar los residuos estandarizados
y los estudentizados.
Aunque el ajuste para explicar el consumo de un producto sea el mismo, los resultados son
aparentemente muy diferentes si el consumo se mide en euros o se mide en miles de millones de
euros. En el primer caso el residuo parecerá extremadamente grande, mientras que en el segundo
parecerá muy pequeño. El ajuste es igual de bueno (o malo) y los valores de los residuos nos engañan.
Los residuos estandarizados se definen como el cociente entre el residuo y la

estimación desviación típica del error:
Si bien son sencillos de calcular, tienen el inconveniente de que no tienen una

distribución conocida. Para evitar esto, se definen los residuos estudentizados rti:
en donde cada residuo se divide por una estimación de la desviación típica, teniendo
en cuenta que para cada residuo rti, se elimina la observación correspondiente (Yi,
Xi) de los cálculos de la varianza. Se rehace el cálculo obteniendo una nueva
estimación, , y de ésta forma el residuo estudentizado tiene distribución t de

student.
Autoevaluación 3.1: ¿Entre qué valores oscilarán aproximadamente los residuos

estudentizados?.
Una vez normalizados, los residuos ei, ri y rti aportarán una información que será
determinante sobre lo adecuado del ajuste realizado y sobre posibles anomalías en
los datos originales.
1.1. ANÁLISIS GRÁFICO DE LOS RESIDUOS
Los gráficos más importantes para el análisis de los residuos son :
(1) Histograma y gráfico probabilístico normal de los residuos e i, r i, rt i .

(2) Gráfico de los residuos frente a los valores estimados.
(3) Gráfico de los residuos frente a las variables explicativas.
(4) Gráficos parciales de los residuos.
(5) Gráfico de los residuos frente a las variables no incluidas.
A continuación se presentan cada uno de estos gráficos y su utilidad en la

comprobación de las hipótesis realizadas sobre el error o perturbación.
(1) Histograma y gráfico probabilístico normal de los residuos
El cumplimiento de la hipótesis de normalidad es indispensable para poder

realizar las pruebas de significación y obtener los intervalos de confianza que
permitan realizar predicciones. Además de las pruebas numéricas, es posible
comprobar la normalidad del error representando gráficamente los residuos en un
histograma y en un papel probabilístico normal. En particular, el papel normal es un
gráfico extremadamente útil para analizar la normalidad de los residuos e identificar
valores o comportamientos anómalos en los mismos.
Entrando en detalle, el histograma es un gráfico utilizado habitualmente para

determinar la normalidad de una variable. Sin embargo tiene como inconveniente
que debe disponerse de un número suficiente datos (50 o más residuos) para poder
representarlo con garantías de éxito. Lamentablemente lo habitual es que el número
de datos utilizado sea reducido y no permita construir el histograma. Además, se
debe buscar la forma típica de campana, cuestión importante porque debe tener un
aspecto muy preciso en cuanto a simetría y a apuntamiento, cuestiones difíciles de
observar.
En cualquier caso resulta más conveniente representarlos en el papel

probabilístico normal (Figura 3.1), dado que la alineación de los residuos indicará la
normalidad de los mismos, y una alineación es más sencilla de observar que el
aspecto que pueda tener una campana.
La Figura 3.1 es un papel normal, un

gráfico en el que en el eje de ordenadas
se representa la probabilidad en una
escala especial. Como puede verse, no
es una escala proporcional, y ha sido
escogida de forma que al representar los
datos en el mismo, éstos aparezcan
alineados si tienen distribución normal.
Para poder representar los residuos,

éstos se ordenan de menor a mayor, se
numeran de 1 a n (total de residuos) y se
calcula la probabilidad de cada uno
como:
Figura 3.1: Papel probabilístico normal de los

residuos del ajuste.
El papel probabilístico normal ofrece una mayor cantidad de información sobre

la distribución de los residuos que cualquier otro gráfico o prueba numérica. El papel
normal se hace imprescindible cuando existe falta de normalidad de los residuos
puesto que permite tomar decisiones sobre la forma de transformar el modelo para
conseguir la normalidad.
La falta de normalidad de los residuos puede ser debida a unas pocas

observaciones atípicas. En el último apartado se verá cómo localizarlas, comprobar
su influencia y la posibilidad de eliminarlas. Es posible aplicar las pruebas de
hipótesis en el caso de que la desviación respecto a la distribución normal no sea
muy grande, aunque los resultados deben tomarse entonces como meras
aproximaciones.
Cuando las pruebas indiquen que no existe normalidad, esto será debido bien a
que la asimetría es muy grande, o bien a que existen puntos anómalos. Si los
residuos no son normales se puede comprobar si existe falta de linealidad en el
modelo. Si es éste el caso, se elige una transformación adecuada, y lo más probable
es que los residuos puedan aceptarse como normales. La alternativa es deducir, de
la distribución de los residuos, un modelo de distribución de las perturbaciones y
construir contrastes para determinar la validez de los parámetros. Este punto escapa
a los objetivos de la presente unidad temática.
Los residuos en el papel probabilístico normal pueden presentar aspectos característicos de no

normalidad, aspectos que nos pueden permitir transformar de forma sencilla el modelo para que se
cumpla esta hipótesis.
(a) (b)
Figura 3.2: Papel probabilístico normal de residuos que no tienen distribución normal.
Es posible que no pueda admitirse la normalidad porque los residuos aparezcan formando una curva
en su parte negativa (Figura 3.2a). En este caso tomando logaritmos de la variable analizada (y
posiblemente de las explicativas, si existía una relación lineal) se solucionará la falta de normalidad.
Por otra parte es posible que los residuos aparezcan en el gráfico formando dos o más grupos. En la
Figura 3.2b se aprecia una clara separación en el cero y dos grupos de residuos a su izquierda y
derecha. Esto indica que existen dos poblaciones, que es necesario identificar (según cual sea la
variable analizada) y crear las variables ficticias necesarias. El número de poblaciones existentes es
el número de grupos que pueda observarse.
(2) Gráfico de los residuos frente a la estimación
Los gráficos de los residuos frente a la estimación de la variable explicada

pueden indicar problemas de heterocedasticidad (σ2(Uj)=σj2), falta de linealidad,
valores atípicos o autocorrelación (cov(UiUj )…0). Si existe alguno de estos
problemas en el modelo, entonces los gráficos de residuos frente a la estimación lo
mostrarán.
Para comenzar hay que conocer el aspecto del gráfico de residuos frente a
variable estimada en un modelo sin los problemas en el error o perturbación antes
mencionados.
Dicho aspecto se encuentra en la

Figura 3.3. En ella puede verse que los
residuos ocupan completamente un
franja cuyos límites superior e inferior
son paralelos al eje de abscisas, y
situados a la misma distancia del
mismo.
En los casos reales no se suele

disponer de suficientes puntos para
llenar de forma homogénea esta banda, Figura 3.3: Gráfico de residuos de un modelo sin
así que hay que tener cierta flexibilidad problemas.
para admitir que este gráfico es el que
se está obdservando.
Comenzando con los casos en los que existen problemas, en la Figura 3.4 se
presenta el caso de que exista heterocedasticidad, esto es, la varianza del error o
perturbación no se mantiene constante, σ2(Uj)=σj2. En este caso la franja que
contiene los residuos no tiene una altura constante. La altura de la franja representa
la variabilidad de los residuos para cada valor de , y si esa variabilidad no es
constante entonces la altura tampoco tiene que serlo , siendo lo más habitual que
ésta aumente con la predicción, ya sea de forma lineal como en la Figura 3.4a o no
lineal, como en la Figura 3.4b.
(a) (b)
Figura 3.4: Ejemplos de gráficos de residuo para un modelo con problemas de heterocedasticidad.
En el caso (a) la varianza aumenta de forma lineal con la estimación, y en el caso (b) el aumento es
no lineal.
Otro de los problemas importantes es la autocorrelación del error, expresado bien

mediante la covarianza, cov(Ui,Uj)…0, o mediante el coeficiente de autocorrelación.
En particular se analiza la autocorrelación de un error Ui y su valor inmediatamente
anterior Ui-1. En este caso los residuos aparecen alternando su signo, o bien derivan
de valores positivos hacia los negativos y a la inversa. En el primer caso, Figura
3.5a, la autocorrelación es negativa (ρ<0), mientras que en el segundo, Figura 3.5b,
la autocorrelación es positiva (ρ>0).
(a) (b)
Figura 3.5: Ejemplos de gráficos de los residuos para un modelo con problemas de autocorrelación.
La autocorrelación puede ser negativa (a) o positiva (b).
La evolución del cambio de signo de los residuos es sencilla de explicar

atendiendo al signo de la autocorrelación. Si el coeficiente de autocorrelación es
positivo (ρ>0) entonces la relación entre Ut y Ut-1 es positiva, y al aumentar Ut-1
también lo hace Ut y por ello tienden a mantener el signo. Si el coeficiente de
autocorrelación es negativo (ρ<0) entonces la relación entre Ut y Ut-1 es negativa, y
al aumentar Ut-1 disminuye Ut y se produce el cambio de signo. Los residuos e
siguen la misma pauta.
Otro problema fácilmente identificable es la presencia de residuos anómalos, es

decir, residuos que se separan mucho de la pauta marcada por el resto de los
residuos del ajuste. En la Figura 3.6 se presentan un par de ejemplos de residuos
anómalos, si bien en el primer caso resulta tan anómalo el residuo separado que se
observa como que el resto están alineados.
(a) (b)
Figura 3.6: Ejemplo de residuos anómalos.
En el gráfico de residuos frente a la predicción también es posible determinar si

la perturbación depende de alguna variable explicativa.
Si es ese el caso, los residuos no

están distribuidos al azar, sino más bien
se presenta un figura geométrica
reconocible. En la Figura 3.7 se presenta
el caso de suponer una relación lineal
cuando en realidad es cuadrática.
El gran inconveniente de este gráfico

es que no es posible determinar a partir
del mismo a la variable explicativa Figura 3.7: los residuos se presentan formando
causante del problema. una curva muy clara, señal de que un modelo
lineal no resulta adecuado para la variable
explicada.
Si la teoría económica así lo exige, es

posible que el modelo no tenga
constante, y haya que realizar el ajuste
sin ella. Sin embargo puede ocurrir que
los residuos muestren que realmente si
la debería tener.
En este caso los residuos aparecen

todos en una franja inclinada, como se
presenta en la Figura 3.8.
Figura 3.8: Gráfico del residuo de un ajuste sin
constante.
Por último se debe señalar que los problemas del modelo no se presentan de
forma aislada, y que es habitual que los gráficos de los residuos tengan un aspecto
más complicado.
Ese es el caso de la Figura 3.9, en

que se combinan dos problemas, la
existencia de heterocedasticidad y una
incorrecta formulación del modelo al
considerar linealidad cuando no es
posible hacerlo.
Figura 3.9: En este gráfico de residuo existen

problemas de hetocedaticidad y falta de
linealidad.
Los gráficos de los residuos frente a las variables explicativas ayudan a identificar
los problemas del modelo como debidos a alguna variable explicativa en particular.
El aspecto de los gráficos de los residuos frente a las variables explicativas es
similar a los vistos en el punto anterior, por lo que no se repiten aquí.
Con estos gráficos se pretende estudiar la relación que tiene la variable Y con una
variable explicativa en particular Xk, eliminando (filtrando) el efecto del resto de las
variables explicativas consideradas en el modelo, con lo que la relación queda ahora
más clara. Para ello, se debe:
1) realizar la regresión de la variable explicada Y frente al resto de las variables

explicativas del modelo X1 ... Xk-1
2) obtener los residuos de la regresión, estimaciones de la perturbación V del

modelo anterior, que son la propia variable explicada a la cual se le ha
“quitado el efecto” de las variables explicativas,
3) y por último representar los residuos e* frente a la variable explicativa Xk
Una aproximación aceptable y bastante más sencilla puede ser realizar el ajuste
con todas las variables, obtener los residuos (e) del ajuste y calcular un nuevo
residuo como e*=e+bkXk. Su representación frente a la variable explicativa Xk puede
mostrar, aproximadamente, el efecto marginal de X k sobre Y.
Dado que los modelos proporcionados por la teoría económica pueden no incluir
todas las variables explicativas, es interesante representar los valores del residuo
e frente al tiempo, frente el orden de introducción o frente al orden de medida para
poder asignar a esas variables los problemas que se detecten en el modelo.
Estos gráficos tienen el mismo aspecto que los gráficos de los residuos frente a
estimaciones o frente a variables explicativas, por lo que no se vuelven a presentar
en este apartado.
Ejemplo 3.1 Los siguientes gráficos son de los residuos del problema sobre la tasa de actividad de
las mujeres frente a la tasa de desempleo, planteado en el primer ejemplo de la primera unidad
temática.
En los tres primeros gráficos se aprecia de forma clara que la distribución de los residuos no es
aleatoria, y que el modelo está mal formulado. En el gráfico de residuos frente a la predicción (Figura
3.10) y frente a la Tasa de Paro (Figura 3.12) se puede apreciar que los residuos se agrupan en dos
bandas claramente diferenciadas. Esto quiere decir que existen dos rectas y no sólo una, que existen
dos grupos de datos. En el gráfico de residuos frente al índice (Figura 3.11), u orden de introducción
de los datos (el año), se observan claramente dos comportamientos, una parte de residuos positivos
(primeros años) y otra parte de residuos negativos que incluye unas oscilaciones. Estos dos grupos,
positivos y negativos, están separados en un instante de tiempo determinado, el año 1986 que es el
momento de entrada de España en la CEE. Por último, en el papel probabilístico normal vemos que
los residuos están separados en dos partes, una a cada lado del cero. Esta separación en el cero indica
la presencia de dos poblaciones, las ya conocidas de antes y después de la entrada en la CEE.
La conclusión final sería que el modelo no está bien formulado, que existen dos periodos en el
intervalo de tiempo observado, lo que nos llevaría a introducir una variable ficticia en el ajuste para
separar ambos. Respecto al papel probabilístico normal, en principio no parece necesaria una
transformación de la variable estudiada, aunque la decisión final habría que tomarla tras realizar el
ajuste con la variable ficticia.
Figura 3.10: Residuos de Tasa de Actividad de Figura 3.11: Residuos de Tasa de Actividad de
las mujeres representados respecto a la las mujeres representados frente al orden de
predicción. introducción de los datos.
Figura 3.12: Residuos de Tasa de Actividad de Figura 3.13: Papel probabilístico normal de los
las mujeres representados respecto a la Tasa residuos del ajuste de Tasa de Actividad de las
de Paro. mujeres.
2. ERROR DE ESPECIFICACIÓN
Se comete un error de especificación cuando se establece una dependencia

(relación) errónea entre la variable a estudiar y las variables explicativas. Los errores
de especificación pueden ser de tres tipos:
1 - Omisión de variables importantes.

2 - Introducción de variables innecesarias.
3 - Establecer una relación lineal cuando en realidad no la hay.
La inadecuada especificación de las variables conduce a un residuo de valor

medio no nulo, mientras que si lo que se especifica mal es la forma de la relación,
entonces las propiedades del modelo quedan afectadas muy negativamente.
2.1. OMISIÓN DE VARIABLES EXPLICATIVAS IMPORTANTES
La omisión de una variable explicativa puede conducir a la obtención de

estimadores sesgados, esto es, estimadores que en promedio no coinciden con el
parámetro que se desea estimar. Si la variable explicativa que no se ha incluido está
incorrelacionada con las variables incluidas en el modelo, entonces b es insesgado.
En caso contrario es segado, y el sesgo aumenta con la correlación.
En cuanto a la estimación de la varianza ( ), ésta queda también afectada. Si

la variable excluida esta incorrelacionada, entonces los residuos contienen su efecto
y la estimación de será mayor que cuando esta incluida. Existe un sesgo por
exceso que conducirá a errores en la prueba t, y se considerarán como no
significativas algunas variables explicativas que sí lo son. Por el contrario, si la
variable esta correlacionada, entonces tiende a disminuir, haciendo que variables
no explicativas sean consideradas como tales.
2.2. INCLUSIÓN DE VARIABLES IRRELEVANTES
La inclusión de variables irrelevantes tiene tanta importancia o más que la

exclusión de variables realmente explicativas, y de nuevo sus efectos dependen de
si la variable introducida está incorrelacionada o no con las variables del modelo, y
en general, aunque b sigue siendo insesgado, la estimación de la varianza
residual, , puede verse muy afectada.
En efecto, si la variable incluida esta muy correlacionada con las existentes, la

estimación aumenta mucho. Si no esta correlacionada, aumenta también,
aunque poco. Estos efectos son menos apreciables a medida que aumenta el
tamaño de la muestra.
En resumen, la inclusión de "variables explicativas" irrelevantes pueden conducir

a la exclusión de variables significativas al disminuir n.
2.3. SUPONER LINEALIDAD CUANDO NO ES POSIBLE
Una relación no lineal puede aproximarse por una relación lineal en un rango de
valores relativamente estrecho de la variable explicativa. Esta aproximación puede
ser aceptable en el intervalo de valores observados, pero muy incorrecto fuera del
mismo. Especificar una relación lineal entre la variable explicada y las explicativas
cuando en realidad no la hay, es especialmente grave si se pretende estimar valores
fuera del rango de los datos.
La mejor forma de determinar que la relación entre variable explicada y explicativa

no es lineal es observar un gráfico de residuos, si bien existen algunas pruebas
numéricas para tratar de responder a la pregunta. En los siguientes apartados se
tratarán ambos temas.
2.3.1. GRÁFICO DE RESIDUOS
La mejor forma de determinar si la relación lineal está bien planteada es observar

un gráfico de residuos. El motivo es que, además de saber que está mal planteada,
se puede tratar de determinar el tipo de relación real entre las variables.
Los gráficos para detectar errores de especificación son los gráficos de los
residuos ya vistos:
(1) Gráfico de los residuos frente a los valores estimados.

Ejemplo 3.2 Se desea determinar si resulta razonable utilizar el NÚMERO DE OFICINAS

BANCARIAS y de CAJAS DE AHORRO como indicador de la producción en España. Para ello se
propone un modelo lineal en el que se relaciona el PIB, medido en miles de millones de pesetas, con
el número de Oficinas bancarias y de cajas de ahorro, ambos medidos en unidades. Proponer y ajustar
el modelo, determinando si la relación lineal resulta razonable para el mismo, y proponer su
modificación en caso de que no lo sea.
El modelo propuesto para el estudio del PIB es:
Donde $1 cuantifica el aumento del PIB en promedio por cada oficina de banco abierta, cuando se
mantiene el número de oficinas de caja de ahorro. El parámetro $1 cuantifica el aumento del PIB en
promedio por cada oficina de caja de ahorro abierta, cuando se mantiene el número de oficinas de
banco.
Realizado el ajuste, la estimación de los Tabla 3.1: PIB y número de sucursales bancarias
parámetros es significativa, lo mismo que el y de cajas de ahorro.
modelo en sí, tal y como se aprecia en el
Cuadro 3.1, con un porcentaje de explicación AÑO BANCO CCAA PIB
del PIB de un 97'57%. Sin embargo, ahora 1982 59588 43787 307607
debemos centrar nuestra atención en el aspecto 1983 63206 46340 313052
que presentan los gráficos de residuos, en la 1984 65135 47919 318639
Figura 3.14. 1985 66345 49604 326036
1986 66128 50800 336643
Como se observa en la Figura 3.14, los 1987 66034 52681 355317
residuos no están distribuidos al azar, forman
1988 66426 55342 373418
figuras geométricas reconocibles si se unen los
puntos mediante una línea, por lo que debe 1989 66647 58739 391443
admitirse que el modelo está mal formulado. 1990 67333 60844 406245
Entre otras cuestiones, puede observarse una 1991 69104 60756 416588
clara curva en el gráfico de residuos frente al 1992 72330 56632 420459
número de BANCOS, Figura 3.13a, lo cual 1993 70748 57617 416122
indicaría una relación de tipo cuadrático entre 1994 70482 59096 426039
el número de BANCOS y el PIB. 1995 70843 60124 437792
1996 71197 62644 448456
1997 70344 65865 466513
1998 70218 69542 486742
1999 68735 72119 506849
2000 65197 75649 527613
2001 60962 78207 542166
Fuente: Banco de España
Cuadro 3.1: Ajuste del PIB frente al número de BANCOS y CCAA.
Multiple Regression Analysis

-----------------------------------------------------------------------------
Dependent variable: PIB
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -156237,0 52904,6 -2,95318 0,0089
BANCO 2,07225 0,80149 2,5855 0,0192
CCAA 7,22545 0,291619 24,777 0,0000
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 9,54116E10 2 4,77058E10 342,10 0,0000
Residual 2,37062E9 17 1,39448E8
-----------------------------------------------------------------------------
Total (Corr.) 9,77823E10 19
R-squared = 97,5756 percent R-squared (adjusted for d.f.) = 97,2904 percent

(a) (b)
(c) (d)
Figura 3.14: Gráficos de residuos frente al número de bancos (a), el número de cajas de ahorro (b),
la predicción (c) y el orden de introducción (d).
Cuando no es posible observar claramente la falta de relación lineal en el gráfico

de residuos, pueden utilizarse algunos métodos para resaltar la estructura del
modelo:
- Se ordenan los residuos ei, de menor a mayor valor de la estimación. Si lo que

se pretende es poner de manifiesto una curvatura, es conveniente "filtrar" los
valores eliminando el "ruido" y destacando una posible pauta. Para ello se
calcula unos residuos promedio, en los que de forma artificial se ha disminuido
la varianza:
- Otro procedimiento utilizado es el de Mosteller-Tuckey, que consiste en tomar

como nuevo valor del residuo la mediana de los valores actual, anterior y
posterior (e i-1, e i, e i+1) y representarlo gráficamente. Repitiendo el proceso
desde el principio, hasta que los valores del residuo no cambien, se obtiene el
gráfico final en el que se observará la forma de la dependencia.
Si no se aprecia a simple vista la curvatura, pueden utilizarse el filtro de residuos o el procedimiento

de Mosteller-Tuckey, presentados anteriormente, para tratar de realzar la curvatura. El resultado de
promediar tres residuos se presenta en la Figura 3.15a, y si se opta por la mediana de tres residuos,
el resultado es la Figura 3.15b.
(a) (b)
Figura 3.15: Para apreciar mejor la curvatura se representa el promedio de tres residuos frente al
número de BANCOS (a) y la mediana de tres residuos frente al número de BANCOS.
Suponiendo una relación cuadrática con el número de oficinas de banco y realizado el ajuste,
puede comprobarse que P-Value es prácticamente igual a cero, por lo que parecía conveniente
la introducción del término al cuadrado, como se aprecia en el Cuadro 3.2.
Cuadro 3.2: Ajuste del modelo que incluye el cuadrado del número de BANCOS.
Multiple Regression Analysis

-----------------------------------------------------------------------------
Dependent variable: PIB
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 3,07251E6 429008,0 7,1619 0,0000
CCAA 7,20101 0,140916 51,1015 0,0000
BANCO -95,5591 12,9552 -7,37615 0,0000
BANCO^2 0,000736274 0,000097656 7,53947 0,0000
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 9,72616E10 3 3,24205E10 996,21 0,0000
Residual 5,20703E8 16 3,25439E7
-----------------------------------------------------------------------------
Total (Corr.) 9,77823E10 19
R-squared = 99,4675 percent R-squared (adjusted for d.f.) = 99,3676 percent

2.3.2. CONTRASTE DE MALA ESPECIFICACIÓN FUNCIONAL
Se han propuesto algunas pruebas de hipótesis con el objeto de determinar si la

relación entre variable explicada y explicativa es la propuesta en el modelo.
Lamentablemente su utilidad es bastante reducida, dado que las pruebas no indican
cual es la variable explicativa que no tienen relación lineal con la variable explicada,
ni la forma de su relación (cuadrática, cúbica, exponencial, ...).
Una de las pruebas es el contraste de error de especificación de la regresión,

RESET. La prueba se basa en que si la relación lineal es la correcta, ninguna
función no lineal que se pueda añadir al modelo original hará que este mejore.
Puesto que no se conoce la variable explicativa que tiene relación incorrecta, lo que
se añadiría al modelo serían algunas potencias (habitualmente hasta la potencia 3)
de la estimación de la variable explicada.
El modelo original quedaría ampliado por la estimación de la variable explicada

de la siguiente forma:
la prueba a utilizar sería la prueba F para un conjunto de parámetros
H0 γ1 = γ2 = 0
la relación es lineal y está bien formulada
H1 al menos uno de los parámetros es

distinto de cero
la relación con alguna variable explicativa
no es lineal
Si entonces se acepta H0 (γ1 = γ2 = 0) y la relación es lineal.
Realizado el ajuste de
se buscan las sumas de cuadrados de residuo con y sin restricción, con lo que el estadístico
Fcalc se calcula como:
y se rechaza H0 , esto es, que la relación
entre el PIB y alguna variable explicativa no es lineal.

Cuadro 3.3: Ajuste con el cuadrado y el cubo de la estimación del PIB para determinar si la relación
está bien planteada
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 9,62713E10 4 2,40678E10 238,92 0,0000
Residual 1,51101E9 15 1,00734E8
-----------------------------------------------------------------------------
Total (Corr.) 9,77823E10 19
3. OBSERVACIONES INFLUYENTES
Un aspecto extraordinariamente importante en el ajuste por mínimos cuadrados

ordinarios (MCO) es la presencia de observaciones que pueden condicionar los
valores de las estimaciones de los parámetros (b), pudiéndose encontrar así
modelos en los que las estimaciones y sus propiedades estén determinados por tan
sólo un par de observaciones, aunque se cuente con una gran cantidad de ellas. Por
lo tanto, y antes de aceptar el modelo como correcto, es conveniente estudiar hasta
qué punto el ajuste realizado depende de todas las observaciones y no de un
subconjunto muy reducido de éstas.
El análisis que se presenta a continuación recibe el nombre de estudio de

robustez del modelo, y tiene dos componentes:
1 - Estudio de robustez de diseño, o robustez a priori.

2 - Estudio de robustez de parámetros estimados, o robustez a posteriori.
3.1. ROBUSTEZ DE DISEÑO
Si un punto se encuentra muy alejado del resto de observaciones, su estimación

coincide prácticamente con el valor observado. Debido a ello, estos puntos no se
pueden identificar a través de un gráfico de los residuos como los vistos
anteriormente, sino a través de los valores nii pertenecientes a la diagonal principal
de la matriz N vista anteriormente ( , donde ).
En la Figura 3.16, el punto identificado como A no aparece como atípico en

ningún gráfico de los residuos, ni tiene más influencia que el resto de los puntos en
el ajuste.
Por otra parte, el punto B no aparecerá como atípico en ningún gráfico de los
residuos ya que su posición es próxima a la media (obsérvese que la distancia a la
media es la misma que la del punto A), pero puede influir en el ajuste ya que difiere
mucho de las posiciones del resto de puntos.
Ejemplo 3.3 Se desea establecer una Tabla 3.2: Feria de Valencia.

relación entre el número total de
EXPOSITORES habidos en la FERIA NÚMERO PRECIO
FERIA SUP.
INTERNACIONAL DE VALENCIA y el EXP. m2
PRECIO MEDIO por metro cuadrado de la TEXTILHOGAR 281 25582 10600
parcela y la SUPERFICIE ocupada por la INDUFERIAS 100 4300 8215
feria. Para ello se dispone de los datos FEJU 208 16206 11500
correspondientes a las ferias que tuvieron DIPA 221 8316 12000
lugar en el año 1995-1996. FIMI 300 8500 14690
CEVISAMA 507 46451 10800
Dada la gran diferencia existente en los
CEVIDER 79 3035 11500
tamaños y en el renombre internacional de
FIAM 148 9600 12000
cada una de las ferias, es posible que alguna
de ellas influya de forma decisiva en el ajuste INTERMUSIC 138 6687 10452
del modelo. Por ello sería conveniente EXPOFARMACIA 40 1000 12700
determinar si esto sucede, y cuales son las MUEBLE 900 70000 12000
ferias que ejercen esta influencia sobre el IBERFLORA 320 11000 10400
ajuste. INTERART 40 1000 13635
ALMONEDAS 40 750 14000
FIVAC 25 720 7877
SIF 194 4363 13500
JOYERIA 80 1200 23010
MOTOR EPOCA 26 374 8640
PUERICULTURA 46 4978 12400
SIP 26 1258 11200
CABALLO 40 800 9000
COMUNICA 70 1517 10700
Fuente: Diario Las Provincias.
En la Figura 3.16 se tiene una

explicación de lo que sucede. El punto
A dista una cierta distancia d del punto
medio. Dada la gran desviación típica
existente, se puede admitir que el punto
pertenece a la población estudiada.
Figura 3.16: Valores atípicos de las variables

explicativas
Por otra parte, el punto B dista la misma distancia d del punto medio. Ahora bien,
está claro que esa distancia es muy grande si se tiene en cuenta que la desviación
típica es ahora más pequeña. Está claro que el punto B no pertenece a la población
estudiada.
Para detectar estos puntos, parece

razonable calcular una distancia
relativa, cociente de la distancia al
punto medio y la desviación típica, d/σ,
en vez de la distancia ordinaria d.
El término nii que se ha mencionado

anteriormente, denominado leverage,
corresponden a la diagonal principal de
la matriz N y mide esa distancia relativa
entre el punto Xi y la media . Si el
punto esta muy alejado de la media se
tiene que el valor del leverage es nii . 1
y que la varianza es cero, var(e i)=0,
indicando que sea cual sea el valor de
la variable explicada, Y, el residuo es
siempre igual a cero, por lo que el
hiperplano de regresión siempre pasará
por ese punto.
Figura 3.17: Distancia relativa al resto de las
observaciones.
En cuanto a los valores de nii, se puede demostrar que:

- 1/n # n ii # 1
- 3 n ii = traza (N) = k +1
El valor medio de los n ii :
y su varianza:
En términos relativos, serán influyentes aquellas observaciones que estén

fuera del intervalo dado por .
Otros criterios indican que el punto n ii es influyente si n ii > .

En el Ejemplo 3.3, el Statgraphics presenta un total de cuatro observaciones influyentes. Para

determinar su naturaleza debe calcularse el valor límite que indica si una observación es
potencialmente influyente, tal y como se acaba de presentar. Dado que hay un total de 22
observaciones y 2 variables explicativas, el valor buscado es 2*(2+1)/22 = 0'2727. En el Cuadro 3.4
se presentan los leverages de cuatro ferias, de los cuales sólo los dos últimos sobrepasan el valor
límite. La conclusión es que las observaciones 11 y 17 son influyentes a priori, y podrían modificar
la estimación de los parámetros dependiendo de si están o no. Dichos leverages corresponden a las
ferias del MUEBLE (11) y de la JOYERÍA (17).
Cuadro 3.4: Puntos influyentes señalados por el Statgraphics en el ajuste del número de expositores
de la Feria de Valencia.
Influential Points
------------------------------------------------
Mahalanobis
Row Leverage Distance DFITS
------------------------------------------------
5 0,0856615 0,921357 0,771667
6 0,261087 6,11442 -0,880052
11 0,63262 33,4872 1,32048
17 0,670623 39,7684 -1,53614
------------------------------------------------
Average leverage of single data point = 0,136364
Dado que sólo hay dos variables explicativas es

posible realizar su representación en un
diagrama de dispersión, y determinar la
presencia de ferias cuyo comportamiento sea
muy diferente al resto.
En la Figura 3.18 puede observarse que las

ferias 6, 11 y 17 son las que más alejadas del
promedio aparecen.
Figura 3.18: Gráfico SUPERFICIE-PRECIO con

las ferias cuya pareja de valores difieren mucho
del promedio.
Autoevaluación 3.2: Lo lógico es cuanto mayor sea el precio, menor sea la superficie, y a
la inversa. Lo anómalo en este caso es una superficie grande con un precio grande o una
superficie pequeña con un precio bajo. Entonces, ¿cuáles son los valores anómalos
realmente?.
3.2. ROBUSTEZ DE PARÁMETROS ESTIMADOS
El hecho de que una observación sea muy influyente a priori no quiere decir que
lo sea realmente.
(a) (b)
Figura 3.19: Una observación puede ser influyente a priori, pero finalmente no serlo (a) dado que la
recta no cambia mucho si no está dicha observación, o puede cambiar mucho (b) si se elimina.
Si bien la observación B de la Figura 3.19a está alejada de la nube de puntos,

puede apreciarse que el ajuste no va a cambiar demasiado si se incluye en el
modelo o no. Todo los contrario sucede en la Figura 3.19b, en el que la presencia
de la observación B hace que las propiedades del modelo se vean muy afectadas:
- La estimación de los parámetros, b, es muy diferente si el punto B esta incluido

en el ajuste o si no lo esta.
- Modifica sensiblemente las predicciones de la variable explicada.
- La predicción de B es muy buena si lo incluye y muy mala si no lo hace.
Estas tres cuestiones han sugerido otros tantos métodos para construir medidas
de influencia, aunque finalmente se tiene que todos ellos son, en realidad, tres caras
de un sólo método. Para realizar la prueba se define un estadístico debido a Cook,
llamado DFITS o distancia de Cook:
donde:
es el residuo estandarizado.
El punto (i) es influyente si:
En el Statgraphics se define el DFITS como:
donde rti es el residuo estudentizado, y el criterio es ahora * *
Siguiendo con el Ejemplo 3.3, ya sabemos que el Statgraphics presenta un total de cuatro
observaciones influyentes, de las cuales dos, la 11 y la 17 son potencialmente influyentes. Para
determinar finalmente la naturaleza de las ferias seleccionadas por el programa, debe calcularse el
valor límite que indica si una observación es realmente influyente. Dado que hay un total de 22
observaciones y 2 variables explicativas, el valor buscado es ±2*o(2+1)/22 = 0'7385. En el Cuadro
3.5 se presentan los dfits de cuatro ferias, superando todas ellas el valor límite calculado. La
conclusión es que las observaciones 5, 6, 11 y 17 son influyentes a posteriori, y modifican la
estimación de los parámetros dependiendo de si están o no. Las ferias realmente influyentes son FIMI
(5), CEVISAMA (6), del MUEBLE (11) y de la JOYERÍA (17).
Cuadro 3.5: Puntos influyentes señalados por el Statgraphics en el ajuste del número de expositores
de la Feria de Valencia.
Influential Points
------------------------------------------------
Mahalanobis
------------------------------------------------
5 0,0856615 0,921357 0,771667
6 0,261087 6,11442 -0,880052
11 0,63262 33,4872 1,32048
17 0,670623 39,7684 -1,53614
------------------------------------------------
3.3 OBSERVACIONES ANÓMALAS
Otro caso diferente son las observaciones anómalas, posiblemente errores en la

observación, en la anotación o en la transcripción de los datos.
Aunque en la inspección visual se detectan valores cuyo residuo es muy grande,

pueden existir puntos con Leverage alto que sin embargo den un residuo bajo. Para
evitar este problema se utiliza el residuo estandarizado (ri), o bien el residuo
estudentizado, algo mas complicado de calcular a mano, pero que ofrecen la
mayoría de los paquetes estadísticos.
Con estos residuos se encuentran valores de Yi anómalos, ya que éstos cumplen

la condición:
esto es, obviamente una simplificación, dado que para identificar los valores
anómalos sería necesario buscar en las tablas de la distribución t aquél valor de la
t con los grados de libertad del residuo, que deja por encima de ella una
probabilidad del 2'5%.
En el Ejemplo 3.3, el Statgraphics presenta dos residuos elevados, los numerados como 5 y 12
(Cuadro 3.6). Los residuos estudentizados en ambos sobrepasan el valor de 2, lo cual es muy elevado,
pero no el valor de 3, que los etiquetaría como “muy preocupantes”.
Dado que los grados de libertad del residuo son 19, sería necesario buscar en la tabla de la
distribución t el valor que deja por encima un 2'5% (o tal vez un 0'5%) para poder realizar realmente
la prueba. El resultado es que ( ) con lo que realmente el resultado no cambia
en absoluto.
Cuadro 3.6: Residuos anómalos del ajuste del modelo para el número de expositores de la Feria de
Valencia.
Unusual Residuals
--------------------------------------------------------------
Predicted Studentized
Row Y Y Residual Residual
--------------------------------------------------------------
5 300,0 165,518 134,482 2,52
12 320,0 175,021 144,979 2,74
--------------------------------------------------------------
Por otro lado, si lo que se busca son valores X ij anómalos, éstos se detectan por
valores altos de su leverage:
El valor de referencia para determinar los valores anómalos de las variables explicativas es
3*(2+1)/22 = 0'4091, con lo que de nuevo aparecen las ferias 11 y 17 como anómalas.
Cuadro 3.7: Valores del leverage de los puntos influyentes señalados por el Statgraphics en el ajuste
del número de expositores de la Feria de Valencia.
Influential Points
------------------------------------------------
Mahalanobis
------------------------------------------------
5 0,0856615 0,921357 0,771667
6 0,261087 6,11442 -0,880052
11 0,63262 33,4872 1,32048
17 0,670623 39,7684 -1,53614
------------------------------------------------
RESUMEN Y CONCLUSIONES
1. Comprobar las hipótesis sobre los parámetros y el modelo no es suficiente

para dar como válido un modelo de regresión. Además es necesario
comprobar que las hipótesis establecidas sobre el modelo se cumplen, siendo
las más importantes las referidas al error o perturbación.
2. En la presente unidad temática se han presentado una serie de gráficos que

permiten la validación del modelo, al menos en lo que respecta al error o
perturbación. Dicha validación se produce por medio de los residuos del ajuste,
la diferencia existente entre el valor real de la variable explicada y el valor
aproximado propuesto por el modelo.
3. También se ha presentado la importancia que tiene la correcta formulación del

modelo sobre las estimaciones de los parámetros del mismo. De nuevo los
gráficos de residuos son determinantes para ello.
4. Por último, es posible que el ajuste realizado esté condicionado por sólo una
o dos de las observaciones disponibles, bien porque los valores son muy
diferentes del resto de las observaciones, bien porque son fruto de algún tipo
de error. En la presente unidad temática se han presentado una serie de
pruebas que permiten identificar dichas observaciones, y determinar la
naturaleza de su influencia.
CUESTIONES
1.- Dados los siguientes GRÁFICOS DE LOS RESIDUOS, explicar que problemas
tienen los modelos respectivos (si los tienen).
(a) (b) (c)
2.- Dadas las siguientes salidas del Statgraphics, determinar la naturaleza de las
observaciones influyentes (tamaños de muestra 15 y 36, y número de variables
explicativas 3 y 4 respectivamente):
Flagged Observations for VENTAS

-------------------------------------------------------------------
Obs. Number Stnd. Residual Leverage Mahalanobis Dist. DFITS
1 5.62907 0.98153 689.755 41.0303
2 1.87870 0.45200 9.79398 1.70622
7 -4.29258 0.10036 0.52173 -1.43376
-------------------------------------------------------------------
Number of flagged observations (residual, leverage or DFITS) = 3
Flagged Observations for LOG CONSUMOV

-------------------------------------------------------------------
Obs. Number Stnd. Residual Leverage Mahalanobis Dist. DFITS
7 2.65057 0.18422 6.70644 1.25957
8 2.75178 0.11129 3.28606 0.97376
9 -2.27623 0.13527 4.34728 -0.90028
36 -1.73592 0.30442 13.9089 -1.14841
-------------------------------------------------------------------
Number of flagged observations (residual, leverage or DFITS) = 4
3.- Dibujar los gráficos de los residuos (e’) y determinar el problema que sufren los
siguientes modelos:
a) El modelo adecuado es Y=a+bX+e, pero se ha estimado Y=b’X+e’.

b) El modelo adecuado es Y=a+bX+cX2+e, pero se ha estimado Y=a’+b’X+e’.
c) El modelo adecuado es Y=a+bX+e, en el que Var(e)=cX2, pero se ha estimado
Y=a+bX+e’.
Donde a, b, c, a’ y b’ son constantes, y e es una variable aleatoria con valor medio

cero y varianza constante.
4.- Determinar los posibles problemas que aparecen en los siguientes gráficos de
los residuos:
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)


Validación de Regresión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Validación de Regresión

Cargado por

Copyright:

Formatos disponibles

UNIDAD TEMÁTICA 03

1. ANÁLISIS DE LOS RESIDUOS.

Esta unidad temática se centra en la validación del modelo de regresión, y más

1- Las perturbaciones Uj son variables aleatorias de media nula.

Para la comprobación de dichas hipótesis, en el primer apartado de la unidad

También se tratarán brevemente en la presente unidad temática los problemas

1. ANÁLISIS DE LOS RESIDUOS

Una vez estimado el modelo de regresión, se debe comprobar si se cumplen las

Pero existe un problema, y es que no es posible contrastar dichas hipótesis

Para mejorar la observación de los residuos, es conveniente normalizarlos de

Los residuos estandarizados se definen como el cociente entre el residuo y la

Si bien son sencillos de calcular, tienen el inconveniente de que no tienen una

estimación, , y de ésta forma el residuo estudentizado tiene distribución t de

Autoevaluación 3.1: ¿Entre qué valores oscilarán aproximadamente los residuos

1.1. ANÁLISIS GRÁFICO DE LOS RESIDUOS

Los gráficos más importantes para el análisis de los residuos son :

(1) Histograma y gráfico probabilístico normal de los residuos e i, r i, rt i .

A continuación se presentan cada uno de estos gráficos y su utilidad en la

(1) Histograma y gráfico probabilístico normal de los residuos

El cumplimiento de la hipótesis de normalidad es indispensable para poder

Entrando en detalle, el histograma es un gráfico utilizado habitualmente para

En cualquier caso resulta más conveniente representarlos en el papel

La Figura 3.1 es un papel normal, un

Para poder representar los residuos,

Figura 3.1: Papel probabilístico normal de los

El papel probabilístico normal ofrece una mayor cantidad de información sobre

La falta de normalidad de los residuos puede ser debida a unas pocas

Los residuos en el papel probabilístico normal pueden presentar aspectos característicos de no

(2) Gráfico de los residuos frente a la estimación

Los gráficos de los residuos frente a la estimación de la variable explicada

Dicho aspecto se encuentra en la

En los casos reales no se suele

Otro de los problemas importantes es la autocorrelación del error, expresado bien

La evolución del cambio de signo de los residuos es sencilla de explicar

Otro problema fácilmente identificable es la presencia de residuos anómalos, es

Figura 3.6: Ejemplo de residuos anómalos.

En el gráfico de residuos frente a la predicción también es posible determinar si

Si es ese el caso, los residuos no

El gran inconveniente de este gráfico

Si la teoría económica así lo exige, es

En este caso los residuos aparecen

Ese es el caso de la Figura 3.9, en

Figura 3.9: En este gráfico de residuo existen

(3) Gráfico de los residuos frente a las variables explicativas.

(4) Gráficos parciales de los residuos.

1) realizar la regresión de la variable explicada Y frente al resto de las variables

2) obtener los residuos de la regresión, estimaciones de la perturbación V del

3) y por último representar los residuos e* frente a la variable explicativa Xk

(5) Gráfico de los residuos frente a las variables no incluidas.

Se comete un error de especificación cuando se establece una dependencia

1 - Omisión de variables importantes.

La inadecuada especificación de las variables conduce a un residuo de valor

2.1. OMISIÓN DE VARIABLES EXPLICATIVAS IMPORTANTES

La omisión de una variable explicativa puede conducir a la obtención de

En cuanto a la estimación de la varianza ( ), ésta queda también afectada. Si

2.2. INCLUSIÓN DE VARIABLES IRRELEVANTES

La inclusión de variables irrelevantes tiene tanta importancia o más que la

En efecto, si la variable incluida esta muy correlacionada con las existentes, la

En resumen, la inclusión de "variables explicativas" irrelevantes pueden conducir

2.3. SUPONER LINEALIDAD CUANDO NO ES POSIBLE

La mejor forma de determinar que la relación entre variable explicada y explicativa

2.3.1. GRÁFICO DE RESIDUOS

La mejor forma de determinar si la relación lineal está bien planteada es observar