Está en la página 1de 27

“Año del Diálogo y la Reconciliación Nacional” 2018

Los supuestos considerados en modelo de regresión lineal son los


siguientes:
La relación entre 𝑌 y las variables regresoras es lineal.
 El error tiene media cero.
 El error tiene varianza 𝜎 2 constante
 Los errores no están correlacionados
 El error tiene distribución normal
Definición de los residuos
El residuo o residual es la diferencia entre el valor observado y el
valor ajustado
𝑒𝑖 = 𝑌𝑖 − 𝑌෠𝑖 𝑖 = 1,2,3 … . . , 𝑛
Donde:
𝑒𝑖 : residuo
𝑌𝑖 :valor observado
𝑌෠𝑖 : Valor Ajustado
Los residuos pueden ser considerados como los valores observados o
realizados de los errores del modelo. Por eso, los residuos son
usados para comprobar los supuestos concernientes a los errores del
modelo
La varianza aproximada de los residuos es

=𝑀𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 y la varianza
exacta es

𝑉𝑎𝑟 𝑒𝑖 = 𝜎 2 (1 − ℎ𝑖𝑖 )
donde
ℎ𝑖𝑖 →𝑖-ésimo elemento de la diagonal de la matriz sombrero 𝐇
𝐻 = 𝑋(𝑋𝑋 ′ )−1 𝑋′
El estimador de 𝑉𝑎𝑟(𝑒𝑖 ) es :
෣ 𝑒𝑖 = 𝑀𝑆𝑟𝑒𝑠 (1 − ℎ𝑖𝑖 )
𝑉𝑎𝑟
Los residuos estandarizados se calculan Como

𝑒𝑖
𝑑𝑖 = i=1,2,3…..n
𝑀𝑆𝑟𝑒𝑠

𝑑𝑖 tiene media cero y varianza aproximadamente igual a 1:


𝐸 𝑑𝑖 = 0
𝑉𝑎𝑟 𝑑𝑖 ≅ 1

Si 𝑑𝑖 > 3 la observación 𝑖 es un potencial dato atípico


El residuo estudentizado es el cociente entre el residuo y su desviación
estándar:

𝑒𝑖𝑖
𝑟𝑖 =
𝑀𝑆𝑟𝑒𝑠 (1 − ℎ𝑖𝑖 )

𝐸 𝑟𝑖 = 0
𝑉𝑎𝑟 𝑟𝑖 = 1
En general, es preferible emplear los residuos estudentizados en lugar de
𝑒𝑖 y 𝑑𝑖 , pues permiten identificar mejor observaciones influyentes .
Cuando el tamaño de muestra es grande hay poca diferencia entre 𝑟𝑖 y 𝑑𝑖
El residuo PRESS es definido por
𝑒(𝑖) = 𝑦𝑖 − 𝑦ො(𝑖)
donde
𝑦ො(𝑖) ⟹ valor ajustado sin considerar la 𝑖-ésima observación
(predicción de la 𝑖-ésima observación )
puede demostrar que
𝑒𝑖
𝑒(𝑖) =
(1 − ℎ𝑖𝑖 )

𝑒(𝑖) permite identificar observaciones influyentes, es decir, que


tienen un impacto importante sobre los coeficientes de regresión.
Las estimaciones puntuales por mínimos cuadrados de los
coeficientes de regresión no requieren del supuesto de normalidad.
Las inferencias acerca de las estimaciones puntuales (intervalos de
confianza y pruebas de hipótesis) sí requieren del supuesto de
normalidad.
En general, pequeños alejamientos de normalidad no afectan el
modelo, pero una deviación grande de la normalidad puede generar
inferencias erradas.
En muestras grandes, no se requiere la suposición de normalidad
Histograma, gráfico de cajas, tallos y hojas
 Gráfico de probabilidad normal
 Prueba de Shapiro-Wilk
 Prueba de Kolgomorov-Smirnov
Se ordenan los residuos de menor a mayor:
𝑒(1) < 𝑒(2) < 𝑒(3) < ⋯ . . < 𝑒(𝑛)
Para cada residuo 𝑖, se calcula el cuantil que este representa:
𝑖−0.5
𝑞𝑖 = i=1,2,3…n
𝑛
 Calcular 𝑧𝑖 , el cuantil de la distribución normal estándar que
corresponde a 𝑞𝑖
𝑧𝑖 = ∅−1𝑖 (𝑞𝑖 )
Φ :función de distribución normal estándar
Graficar los puntos (𝑒𝑖 , 𝑧𝑖)
Si los puntos se aproximan a una recta, podemos afirmar que los errores
tienen distribución normal.
a) distribución normal, b) distribución
con colas pesadas, c) distribución con
colas livianas, d) distribución
asimétrica a la derecha,
e) distribución asimétrica a la
izquierda
Permite verificar lo siguiente:
 Linealidad entre 𝑌 y las variables regresoras
 Varianza constante de los errores
Los gráficos de los residuos en función de las variables regresoras
también son útiles para estos propósitos.
a) modelo adecuado, b) y c) varianza de los residuos no constante, d)
no linealidad
Si el gráfico muestra una curva, significa que no se cumple el
supuesto de linealidad. Posibles tratamientos:
 Modificar la función de regresión.
Por ejemplo, emplear la función de regresión cuadrática
𝐸 𝑦 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2
Transformar la variable respuesta.
Transformar las variables explicativas
Si el gráfico muestra un patrón de comportamiento como en b) y c),
significa que la varianza de los errores no es constante. Posibles
tratamientos:
Transformar la variable respuesta.
 Transformar las variables explicativas.
 Emplear la estimación por mínimos cuadrados ponderados

Residuos grandes en los valores extremos de 𝑌෡𝑖 indican varianza no


constante o no linealidad entre la respuesta y las variables regresoras.
El objetivo de este ejemplo es entender cómo varia el consumo de gasolina
en los 50 Estados Unidos y el Distrito de Columbia y, en particular, estudiar
el efecto del impuesto a la gasolina en su consumo
Variables Descripción de variables
Drivers(X1) Cantidad de conductores con licencia
en el estado
FuelC(Y) Gasolina vendida para uso en carretera
(miles de galones)
Income(X2) Ingreso personal per cápita (año 2000)

Miles Longitud de carreteras federales en el


estado (millas)
Tax(X3) Tasa de impuestos estatales de
gasolina, centavos por galón
MPC Millas estimadas impulsadas per cápita
Pop Población de 16 años o más
Prueba de Breusch-pagan
Ho: Los errores tienen varianza constante
Prueba de Kolgomorov-Smirnov
Ho: Los errores del modelo tienen distribución normal

También podría gustarte