Está en la página 1de 22

Supuestos del modelo:

Normalidad de Residuos
(Solo cuando se realiza inferencia)
Realizado por:
Loor Neira Jennyfer
Colcha Guaspa Erika
Proaño Genesis
Semestre:
Cuarto “2”
Objetivo
Estudiar la importancia e implicaciones del supuesto de
normalidad en el modelo de regresión lineal y de manera
específica en la inferencia estadística de sus parámetros y la
aplicación de la prueba de Jarque-Bera utilizada para  detectar
si los términos en el modelo siguen o no una distribución
normal.
¿Qué es la normalidad?
Es uno de los supuestos que se consideran en el modelo de Regresión
Lineal Múltiple

 Consiste en que: Los residuos (error) de estos puntajes deben


todas las muestras, tanto de las variables tener una distribución normal.
independientes así como de la variable ¿Por qué es importante esto?
dependiente, tienen que estar distribuidos La regresión es un análisis lineal y por ello,
normalmente, es decir cumplir con la trabaja con relaciones lineales. Cuando los
distribución normal también llamada errores de las variables tienen distribución no
distribución de Laplace-Gauss. normal, pueden afectar las relaciones y la
significancia

EcuRed. (2018). EcuRed. Obtenido de Normalidad del modelo de regresión lineal:


https://www.ecured.cu/Normalidad_del_modelo_de_regresi%C3%B3n_lineal
¿Qúe son los residuos?
Llamamos residuos a las diferencias entre los valores de la variable dependiente
observados y los valores que predecimos a partir de nuestra modelo de
regresión.

Los residuos pueden ser nulos, positivos o negativos.


• Residuos Nulos: no existe ningún error en la estimación, ya que, los valores
observados coinciden con los valores estimados.
• Residuos Positivos: el valor observado de Y es mayor que el valor estimado lo que
implica que se infraestima la variable Y.
• Residuos Negativos: el valor observado de Y es menor que su valor estimado y por lo
tanto se sobreestima la variable Y.

Residuos = Valores observados – Valores que predice el modelo 


e = y - ?

Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Patrones en los gráficos de Residuos
Patrón Lo que podría indicar el patrón
Dispersión irregular o en forma de embudo o Varianza no constante (Heterocedasticidad )
abanico
Curvilíneo Falta incluir algún término de mayor orden.
(Cuadrtico, cúbico )
Aumento o disminución de puntos Outlier
Predominio de residuos positivos o negativos. Outlier

Un punto lejos del cero Outlier


Un punto muy lejos de la dirección de los demás Punto influyente

Merayo, P. (2021). Máxima Formación. Obtenido de ¿Cómo validar tu modelo de regresión?:


https://www.maximaformacion.es/blog-dat/como-validar-tu-modelo-de-regresion/
Patrones en los gráficos de
Residuos
Tendencias
Cuando los residuos se separan del cero Datos extremos (Outliers). 
de manera sistemática (no aleatoria), tanto Ocurre cuando uno o más residuos se
si aumentan como si disminuyen para apartan del patrón aleatorio del resto.
valores de predicciones mayores, el patrón Incluso, podemos observar que si
nos sugiere que la función de regresión no eliminamos el/los outlier el patrón de los
es lineal. A este patrón se le suele llamar residuos cambia.
tendencia, sesgo o "bias" en inglés.

Merayo, P. (2021). Máxima Formación. Obtenido de ¿Cómo validar tu modelo de regresión?:


https://www.maximaformacion.es/blog-dat/como-validar-tu-modelo-de-regresion/
Patrones en los gráficos de
Residuos
Dispersión irregular
Si observas un patrón de dispersión no aleatorio de los residuos, la variabilidad de los
residuos es mayor para ciertos valores predichos por el modelo, esto indica que no se
cumple el supuesto de varianza constante en los errores del modelo. Puedes observar alguno
de los siguientes casos:

 Un patrón de "abanico". Es decir, los residuos son cercanos a 0 para valores de x pequeños y
están más extendidos para valores de x grandes.
 Un patrón de "canalización". Es decir, los residuos se separan para valores de x pequeños pero
se cercan a 0 para valores de x grandes.
 Un patrón más complejo.

Merayo, P. (2021). Máxima Formación. Obtenido de ¿Cómo validar tu modelo de regresión?:


https://www.maximaformacion.es/blog-dat/como-validar-tu-modelo-de-regresion/
Recuerda
 Los residuos obtenidos utilizando mínimos cuadrados
ordinarios tienen que estar distribuidos de forma que……
aleatoria para que este método de estimación funcione
de forma adecuada.
 Si se supone que las perturbaciones del modelo siguen
una distribución Normal, entonces los residuos no
pueden ser asimétricos ni tampoco leptocúrticos o
platicúrticos.
 Se pueden utilizar para detectar problemas de
autocorrelación o de heterocedasticidad, puesto que si
el modelo está estimado correctamente, entonces los
residuos deberían de ser ruido blanco.

Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Importancia del Supuesto de Normalidad 
En el contexto del modelo de regresión múltiple, los estimadores de MCO se distribuyen
como una función de densidad de probabilidad normal.​

Esta propiedad permite realizar inferencia estadística sobre el modelo a través de
probar diferentes hipótesis en los valores de los estimadores​:
 t-Student´s​  F-estadística   cuadrada ​
 
 ​ El rechazo de normalidad en los errores afecta el valor de los estadísticos de las pruebas
de hipótesis como el t-Student y F. Los valores de los estadísticos son sensibles a la
distribución normal ​
• El valor del estadístico ji-cuadrada también se ve afectado. Bajo condiciones de No-
normalidad el valor crítico del ji-cuadrado se modifica ​
• Los estimadores siguen siendo insesgados, pero cuando no se cumple el supuesto de
normalidad se pierde eficiencia.
International Statistical Review(1987),55,pp.163-172.Printed in
Great Britain.International Statistical Institute
Especificación del modelo
Considere que la variable dependiente es explicada por K-1 variables independientes, esto
es,   donde , . . . , son los parámetros del modelo, es la
variable dependiente, las ’s, 𝑘 = 2, . . . ,𝐾, son las variables independientes, 𝜀𝑡 es el término
o error 97 estocástico, t, 𝑡 = 1, . . . , 𝑇, es un índice que indica el número de la observación
y T es el total de observaciones.
El
1. modelo
  está formulado en el momento o periodo t, por ello las variables y el término
estocástico están indexados con ese subíndice; mientras que el subíndice k en las variables
independientes o explicativas, indica el número de la variable en la ecuación de regresión.
En la especificación anterior se distinguen dos partes, la determinista o también conocida
como forma funcional, dada por
y la estocástica, que no es más que el término o error aleatorio .

International Statistical Review(1987),55,pp.163-172.Printed in Great Britain.International Statistical Institute


Especificación del modelo
El modelo en (1) se puede formular de manera matricial como sigue 𝑦 = 𝑋𝛽 + 𝜀, (2)
donde )′

1.  
Esta especificación y todo lo que sigue es válido c uando en lugar de variables en series de
tiempo se introducen en corte transversal. 𝜀 )′ y
𝛽 )′ . Observe que el vector y está constituido por las T observaciones de la variables
dependiente, la matriz X de dimensión 𝑇 × 𝐾 , por una columna de unos asociada al
término independiente y las K-1 columnas restantes corresponden a las observaciones de
las variables independientes, el vector 𝛽 de dimensión K, por los parámetros del modelo
y 𝜀 por los T términos estocásticos, uno por cada periodo.
Prueba de Jarque-Bera
Jarque y Bera (1980, 1987) formulan una prueba de normalidad que lleva su nombre, ellos
plantean que existen distribuciones que pueden coincidir con la distribución normal, en media y
varianza o sea, que su primer momento centrado en cero y su segundo alrededor de la media son
los mismos, pero que no necesariamente el tercero y cuarto momentos centrados en la media
son iguales. Esa es la razón que los conduce a plantear la prueba de normalidad basada en el
sesgo, s, y la curtosis, c, de manera que las hipótesis a probar son
𝐻0: Errores normales vs 𝐻1: Errores no normales o equivalentemente
𝐻0: 𝑠 = 0, 𝑐 = 3 vs 𝐻1: 𝑠 ≠ 0 y/o 𝑐 ≠ 3
y el estadístico de prueba bajo 𝐻0 es

International Statistical Review(1987),55,pp.163-172.Printed


in Great Britain.International Statistical Institute
donde 𝑐𝑠̂ es el coeficiente de sesgo y el 𝑐𝑐̂ coeficiente de curtosis dados por

Observe que si el estadístico de prueba JB es cercano a cero hay evidencia a favor de que
los errores se distribuyen de manera normal, en caso contrario, es decir, cuando JB está
alejado de cero, se rechaza la hipótesis nula y las distribuciones de los estimadores de las
betas y de la varianza de los errores estocásticos, no tendrán las distribuciones que
permiten hacer inferencia estadística del modelo de regresión lineal y por tanto, ellas serán
válidas sólo de manera asintótica de acuerdo al teorema de límite central.

International Statistical Review(1987),55,pp.163-172.Printed in Great Britain.International Statistical Institute


Distribución normal de los
residuos mediante inferencia
visual
Los análisis de normalidad, también denominados como contraste de
normalidad, son otro tipo de supuesto del modelo de regresión.

Esta representación consiste en la gráfica de probabilidad normal de los


residuos, también denominada como gráfico cuartil.

Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Distribución normal de los residuos mediante inferencia
visual

Si se cumple el supuesto de
normalidad de los residuos,
los puntos que constituyen
la gráfica de probabilidad
normal deberían alinearse
entorno a la línea recta
Posibles causas
de alejamiento a
la normalidad

La variable respuesta podría tener muchos Al ajustarse el modelo y representar los residuos
valores pequeños y pocos valores grandes, resultantes mediante un histograma, se podría
dando una representación de asimetría observar una distribución de colas livianas
positiva, o pocos valores pequeños y muchos producto de obtener pocos residuos de gran
valores grandes (asimetría negativa) magnitud, o bien, muchos residuos de gran
magnitud podría conducir a una distribución de
colas pesadas.

Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Diagrama de
árbol para
elegir el tipo de
distribución de
los datos,
adaptado de
Aswath
Damodaran
Ejemplo: Cuantil para el modelo de efectos mixtos
previamente ajustado
1.Se proporcionó los residuos pearson, datos
que se obtuvieron mediante previo ajuste del
modelo.
2.Línea de puntos el cual indica la ubicación
de los datos de acuerdo a los cuantiles de la
distribución normal y de la distribución
observada.
3.Si los puntos están cerca de línea recta,
significa que los datos y la distribución
normal tienen cuantiles comparables y se
cumple el supuesto de normalidad de los
residuos.
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H. Freeman and Company: 724.
Solución
Al observar el tráfico se puede concluir
que el rendimiento en la evaluación en
la prueba de matemáticas de la base de
datos no cumple el supuesto de
normalidad, una vez se aprecia que los
puntos no están del todo alineados
entorno a la recta, observándose unas
ligeras desviaciones en las colas. 
En este sentido y haciendo uso del
diagrama de árbol presentado con
anterioridad, elija la distribución que
más se acerca a la distribución
presentada por dicho datos.

Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Gráfica de probabilidad normal de los residuos
 La gráfica de probabilidad normal de los residuos para verificar el supuesto de que los
residuos están distribuidos normalmente.

La curva S implica una distribución La curva S invertida implica una


con colas largas. distribución con colas cortas.
Minitab. (2019). Minitab. Obtenido de Gráficas de residuos para Ajustar modelo de regresión:
https://bit.ly/3jGJSSR
Gráfica de probabilidad normal de los residuos

Algunos puntos alejados de la línea


La curva descendente implica una
implican una distribución con valores
distribución con asimetría a la derecha.
atípicos.

Minitab. (2019). Minitab. Obtenido de Gráficas de residuos para Ajustar modelo de regresión:
https://bit.ly/3jGJSSR
GRACIAS

También podría gustarte