Está en la página 1de 9

Los cuatro supuestos de la regresión lineal

La regresión lineal es un método estadístico útil que podemos utilizar para comprender la
relación entre dos variables, xey. Sin embargo, antes de realizar una regresión lineal,
primero debemos asegurarnos de que se cumplan cuatro supuestos:

1. Relación lineal: existe una relación lineal entre la variable independiente, x, y la variable
dependiente, y.

2. Independencia: Los residuos son independientes. En particular, no existe correlación


entre residuos consecutivos en datos de series de tiempo.

3. Homoscedasticidad: Los residuos tienen varianza constante en cada nivel de x.

4. Normalidad: Los residuos del modelo se distribuyen normalmente.

Si se violan uno o más de estos supuestos, los resultados de nuestra regresión lineal
pueden ser poco fiables o incluso engañosos.
En esta publicación, proporcionamos una explicación para cada suposición, cómo
determinar si se cumple la suposición y qué hacer si se viola la suposición.

Supuesto 1: Relación lineal


Explicación
El primer supuesto de la regresión lineal es que existe una relación lineal entre la variable
independiente, x, y la variable independiente, y.

Cómo determinar si se cumple este supuesto


La forma más fácil de detectar si se cumple esta suposición es crear un diagrama de
dispersión de x vs. y. Esto le permite ver visualmente si existe una relación lineal entre las
dos variables. Si parece que los puntos en la gráfica podrían caer a lo largo de una línea
recta, entonces existe algún tipo de relación lineal entre las dos variables y esta suposición
se cumple.

Por ejemplo, los puntos en la gráfica de abajo parece que caen aproximadamente en una
línea recta, lo que indica que existe una relación lineal entre xey:

Sin embargo, no parece haber una relación lineal entre xey en la siguiente gráfica:
Y en esta gráfica parece haber una relación clara entre xey, pero no una relación lineal :

Qué hacer si se viola esta suposición


Si crea un gráfico de dispersión de los valores de x e y y ver que hay no una relación lineal
entre las dos variables, entonces usted tiene un par de opciones:
1. Aplicar una transformación no lineal a la variable independiente y / o dependiente. Los
ejemplos comunes incluyen tomar el logaritmo, la raíz cuadrada o el recíproco de la variable
independiente y / o dependiente.

2. Agregue otra variable independiente al modelo. Por ejemplo, si la gráfica de x vs. y tiene
una forma parabólica, entonces podría tener sentido agregar X 2 como una variable
independiente adicional en el modelo.

Supuesto 2: Independencia
Explicación

El siguiente supuesto de la regresión lineal es que los residuos son independientes. Esto es
más relevante cuando se trabaja con datos de series de tiempo. Idealmente, no queremos
que haya un patrón entre residuos consecutivos. Por ejemplo, los residuos no deberían
crecer constantemente a medida que pasa el tiempo.

Cómo determinar si se cumple este supuesto


La forma más sencilla de probar si se cumple este supuesto es observar un gráfico de serie
de tiempo residual, que es un gráfico de residuos frente al tiempo. Idealmente, la mayoría de
las autocorrelaciones residuales deberían caer dentro de las bandas de confianza del 95%
alrededor de cero, que se ubican en aproximadamente +/- 2-sobre la raíz cuadrada de n ,
donde n es el tamaño de la muestra. También puede probar formalmente si se cumple esta
suposición mediante la prueba de Durbin-Watson .

Qué hacer si se viola esta suposición

Dependiendo de la naturaleza de la forma en que se infringe esta suposición, tiene algunas


opciones:

• Para una correlación serial positiva, considere agregar rezagos de la variable


dependiente y / o independiente al modelo.
• Para una correlación serial negativa, verifique que ninguna de sus variables esté
sobrediferenciada .
• Para la correlación estacional, considere agregar variables ficticias estacionales al
modelo.
Supuesto 3: Homoscedasticidad
Explicación
El siguiente supuesto de la regresión lineal es que los residuos tienen varianza constante en
cada nivel de x. Esto se conoce como homocedasticidad . Cuando este no es el caso, se
dice que los residuos sufren de heterocedasticidad .

Cuando la heterocedasticidad está presente en un análisis de regresión, los resultados del


análisis se vuelven difíciles de confiar. Específicamente, la heterocedasticidad aumenta la
varianza de las estimaciones del coeficiente de regresión, pero el modelo de regresión no
detecta esto. Esto hace que sea mucho más probable que un modelo de regresión declare
que un término del modelo es estadísticamente significativo, cuando en realidad no lo es.

Cómo determinar si se cumple este supuesto


La forma más sencilla de detectar heterocedasticidad es creando un valor ajustado frente a
una gráfica residual .

Una vez que ajusta una línea de regresión a un conjunto de datos, puede crear un diagrama
de dispersión que muestre los valores ajustados del modelo frente a los residuos de esos
valores ajustados. La gráfica de dispersión a continuación muestra un valor ajustado típico
frente a una gráfica residual en la que está presente la heterocedasticidad.
Observe cómo los residuales se dispersan mucho más a medida que los valores ajustados
aumentan. Esta forma de «cono» es un signo clásico de heterocedasticidad:

Qué hacer si se viola esta suposición


Hay tres formas habituales de corregir la heterocedasticidad:

1. Transforme la variable dependiente.Una transformación común es simplemente tomar


el logaritmo de la variable dependiente. Por ejemplo, si usamos el tamaño de la población
(variable independiente) para predecir el número de floristerías en una ciudad (variable
dependiente), podemos intentar usar el tamaño de la población para predecir el logaritmo del
número de floristerías en una ciudad. El uso del logaritmo de la variable dependiente, en
lugar de la variable dependiente original, a menudo hace que desaparezca la
heterocedasticidad.

2. Redefina la variable dependiente.Una forma común de redefinir la variable dependiente


es usar una tasa , en lugar del valor bruto. Por ejemplo, en lugar de usar el tamaño de la
población para predecir el número de floristerías en una ciudad, podemos usar el tamaño de
la población para predecir el número de floristerías per cápita. En la mayoría de los casos,
esto reduce la variabilidad que ocurre naturalmente entre poblaciones más grandes, ya que
estamos midiendo la cantidad de floristerías por persona, en lugar de la mera cantidad de
floristerías.
3. Utilice regresión ponderada.Otra forma de corregir la heterocedasticidad es utilizar la
regresión ponderada. Este tipo de regresión asigna un peso a cada punto de datos en
función de la varianza de su valor ajustado. Esencialmente, esto da pequeños pesos a los
puntos de datos que tienen variaciones más altas, lo que reduce sus residuos al cuadrado.
Cuando se utilizan los pesos adecuados, esto puede eliminar el problema de la
heterocedasticidad.

Supuesto 4: Normalidad
Explicación
El siguiente supuesto de la regresión lineal es que los residuos se distribuyen normalmente.

Cómo determinar si se cumple este supuesto


Hay dos formas habituales de comprobar si se cumple este supuesto:

1. Verifique la suposición visualmente usando gráficos QQ .

Un gráfico QQ, abreviatura de gráfico de cuantiles-cuantiles, es un tipo de gráfico que


podemos utilizar para determinar si los residuos de un modelo siguen una distribución
normal. Si los puntos del gráfico forman aproximadamente una línea diagonal recta, se
cumple el supuesto de normalidad.

La siguiente gráfica QQ muestra un ejemplo de residuos que siguen aproximadamente una


distribución normal:
Sin embargo, la gráfica QQ a continuación muestra un ejemplo de cuando los residuos se
apartan claramente de una línea diagonal recta, lo que indica que no siguen la distribución
normal:

2. También puede verificar el supuesto de normalidad mediante pruebas estadísticas


formales como Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre o D’Agostino-Pearson. Sin
embargo, tenga en cuenta que estas pruebas son sensibles a los tamaños de muestra
grandes, es decir, a menudo concluyen que los residuos no son normales cuando el tamaño
de la muestra es grande. Esta es la razón por la que a menudo es más fácil usar métodos
gráficos como una gráfica QQ para verificar esta suposición.

Qué hacer si se viola esta suposición


Si se viola el supuesto de normalidad, tiene algunas opciones:

• Primero, verifique que los valores atípicos no tengan un gran impacto en la


distribución. Si hay valores atípicos presentes, asegúrese de que sean valores reales
y que no sean errores de entrada de datos.
• A continuación, puede aplicar una transformación no lineal a la variable independiente
y / o dependiente. Los ejemplos comunes incluyen tomar el logaritmo, la raíz
cuadrada o el recíproco de la variable independiente y / o dependiente.
Como probar la existencia de problemas econométricos

1. Supuesto de normalidad (Prueba de Jarque Bera)


a. Ho: Los Ui siguen una distribución normal
b. Ho: Los Ui no siguen una distribución normal
2. Multicolinealidad (Matriz de correlaciones, VIF)
a. Modelo: Y=f(Xi) →R2
b. Variables explicativas: X=f(Xi) →R2
c. Klein: La multicolinealidad puede ser grave solamente si R2 entre variables
explicativas es mayor que R2 del modelo
d. Matriz de correlaciones, puede ser grave solamente si las r son mayores 0.8
e. FIV o VIF si son mayores a 10 existe problema de multicolinealidad
3. Supuesto de Homocedasticidad (prueba de White y método gráfico)
a. Ho: Homocedasticidad
b. Ha: Heterocedasticidad
4. Supuesto de Auto correlación (Prueba de Breush Pagan, Durbin Watson y método
gráfico)
a. Ho: No auto correlación
b. Ha: Auto correlación

Extra existencia de relación lineal estadísticamente

Prueba t: prueba significativa individual

a. Ho: β=0 (no existe relación lineal entre X y Y)


b. Ha: β≠0 (existe relación lineal entre X y Y)

Prueba F. prueba de significancia global

a. Ho: β2= β3=0 (no existe relación lineal conjunta entre X y Y)


b. Ha: β2≠ β3≠0 (existe relación lineal conjunta entre X y Y)

Es estadísticamente significativo cuando prob. < 0.05, cuando es estadísticamente significativo


rechazo Ho

Interpretación de los coeficientes del modelo

Lin - Lin

Lin - log (B/100)

log - lin (B*100)

Log - log

También podría gustarte