Está en la página 1de 6

Nombre: Morales Bonilla Joselyne Madelyne

Curso: MA 7 – 1
Maestro: Eco. Quintero Washington

Supuestos de la regresión lineal


La regresión lineal es un método estadístico útil que podemos utilizar para comprender
la relación entre dos variables, (x) (y). Sin embargo, antes de realizar una regresión lineal,
primero debemos asegurarnos de que se cumplan cuatro supuestos:
1. Relación lineal: existe una relación lineal entre la variable independiente, x, y la
variable dependiente, y.
2. Independencia: Los residuos son independientes. En particular, no existe correlación
entre residuos consecutivos en datos de series de tiempo.
3. Homocedasticidad: Los residuos tienen varianza constante en cada nivel de x.
4. Normalidad: Los residuos del modelo se distribuyen normalmente.
Si se violan uno o más de estos supuestos, los resultados de nuestra regresión lineal
pueden ser poco fiables o incluso engañosos.
Se proporciona una explicación para cada suposición, cómo determinar si se cumple la
suposición y qué hacer si se viola la suposición.
Supuesto 1: Relación lineal
El primer supuesto de la regresión lineal es que existe una relación lineal entre la
variable independiente, x, y la variable independiente, y.
Cómo determinar si se cumple este supuesto
La forma más fácil de detectar si se cumple esta suposición es crear un diagrama de
dispersión de x vs. y. Esto le permite ver visualmente si existe una relación lineal entre
las dos variables. Si parece que los puntos en la gráfica podrían caer a lo largo de una
línea recta, entonces existe algún tipo de relación lineal entre las dos variables y esta
suposición se cumple.
Por ejemplo, los puntos en la gráfica de abajo parece que caen aproximadamente en
una línea recta, lo que indica que existe una relación lineal entre (x) (y):
Nombre: Morales Bonilla Joselyne Madelyne
Curso: MA 7 – 1
Maestro: Eco. Quintero Washington

Y en esta gráfica parece haber una


relación clara entre (x) (y), pero no una
relación lineal:
Qué hacer si se viola esta suposición
Si crea un gráfico de dispersión de los
valores de (x) e (y) y ver que
hay no una relación lineal entre las
dos variables, entonces usted tiene un
par de opciones:
1. Aplicar una transformación no
lineal a la variable independiente y / o
dependiente. Los ejemplos comunes
incluyen tomar el logaritmo, la raíz
cuadrada o el recíproco de la variable
independiente y / o dependiente.
2. Agregue otra variable independiente al modelo. Por ejemplo, si la gráfica de x vs. y
tiene una forma parabólica, entonces podría tener sentido agregar X 2 como una
variable independiente adicional en el modelo.

Supuesto 2: Independencia
Es que los residuos son independientes. Esto es más relevante cuando se trabaja con
datos de series de tiempo. Idealmente, no queremos que haya un patrón entre residuos
consecutivos. Por ejemplo, los residuos no deberían crecer constantemente a medida
que pasa el tiempo.
Cómo determinar si se cumple este supuesto
La forma más sencilla de probar si se cumple este supuesto es observar un gráfico de
serie de tiempo residual, que es un gráfico de residuos frente al tiempo. Idealmente, la
mayoría de las autocorrelaciones residuales deberían caer dentro de las bandas de
confianza del 95% alrededor de cero, que se ubican en aproximadamente +/- 2-sobre la
raíz cuadrada de n, donde n es el tamaño de la muestra. También puede probar
formalmente si se cumple esta suposición mediante la prueba de Durbin-Watson
Qué hacer si se viola esta suposición
Dependiendo de la naturaleza de la forma en que se infringe esta suposición, tiene
algunas opciones:

• Para una correlación serial positiva, considere agregar rezagos de la variable


dependiente y / o independiente al modelo.
• Para una correlación serial negativa, verifique que ninguna de sus variables
esté sobre diferenciada.
• Para la correlación estacional, considere agregar variables ficticias estacionales al
modelo.
Nombre: Morales Bonilla Joselyne Madelyne
Curso: MA 7 – 1
Maestro: Eco. Quintero Washington

Supuesto 3: Homocedasticidad
El siguiente supuesto de la regresión lineal es que los residuos tienen varianza constante
en cada nivel de x. Esto se conoce como homocedasticidad. Cuando este no es el caso,
se dice que los residuos sufren de heterocedasticidad.
Cuando la heterocedasticidad está presente en un análisis de regresión, los resultados
del análisis se vuelven difíciles de confiar. Específicamente, la heterocedasticidad
aumenta la varianza de las estimaciones del coeficiente de regresión, pero el modelo de
regresión no detecta esto. Esto hace que sea mucho más probable que un modelo de
regresión declare que un término del modelo es estadísticamente significativo, cuando
en realidad no lo es.

Cómo determinar si se cumple este supuesto


La forma más sencilla de detectar heterocedasticidad es creando un valor ajustado
frente a una gráfica residual.
Una vez que ajusta una línea de regresión a un conjunto de datos, puede crear un
diagrama de dispersión que muestre los valores ajustados del modelo frente a los
residuos de esos valores ajustados. La gráfica de dispersión a continuación muestra
un valor ajustado típico frente a una gráfica residual en la que está presente la
heterocedasticidad.

Observe cómo los residuales se dispersan mucho más a medida que los valores ajustados
aumentan. Esta forma de «cono» es un signo clásico de heterocedasticidad:
Nombre: Morales Bonilla Joselyne Madelyne
Curso: MA 7 – 1
Maestro: Eco. Quintero Washington
Qué hacer si se viola esta suposición
Hay tres formas habituales de corregir la heterocedasticidad:
1. Transforme la variable dependiente: Una transformación común es simplemente
tomar el logaritmo de la variable dependiente. Por ejemplo, si usamos el tamaño de la
población (variable independiente) para predecir el número de floristerías en una ciudad
(variable dependiente), podemos intentar usar el tamaño de la población para predecir
el logaritmo del número de floristerías en una ciudad. El uso del logaritmo de la variable
dependiente, en lugar de la variable dependiente original, a menudo hace que
desaparezca la heterocedasticidad.
2. Redefina la variable dependiente: Una forma común de redefinir la variable
dependiente es usar una tasa, en lugar del valor bruto. Por ejemplo, en lugar de usar el
tamaño de la población para predecir el número de floristerías en una ciudad, podemos
usar el tamaño de la población para predecir el número de floristerías per cápita. En la
mayoría de los casos, esto reduce la variabilidad que ocurre naturalmente entre
poblaciones más grandes, ya que estamos midiendo la cantidad de floristerías por
persona, en lugar de la mera cantidad de floristerías.
3. Utilice regresión ponderada: Otra forma de corregir la heterocedasticidad es utilizar
la regresión ponderada. Este tipo de regresión asigna un peso a cada punto de datos en
función de la varianza de su valor ajustado. Esencialmente, esto da pequeños pesos a los
puntos de datos que tienen variaciones más altas, lo que reduce sus residuos al
cuadrado. Cuando se utilizan los pesos adecuados, esto puede eliminar el problema de
la heterocedasticidad.
Supuesto 4: Normalidad
El siguiente supuesto de la regresión lineal es que los residuos se distribuyen normalmente.

Cómo determinar si se cumple este supuesto

Hay dos formas habituales de comprobar si se cumple este supuesto:


1. Verifique la suposición visualmente usando gráficos QQ .
Un gráfico QQ, abreviatura de gráfico de cuantiles-cuantiles, es un tipo de gráfico
que podemos utilizar para determinar si los residuos de un modelo siguen una
distribución normal. Si los puntos del gráfico forman aproximadamente una línea
diagonal recta, se cumple el supuesto de normalidad.
La siguiente gráfica QQ muestra un ejemplo de residuos que siguen aproximadamente
una distribución normal:
Nombre: Morales Bonilla Joselyne Madelyne
Curso: MA 7 – 1
Maestro: Eco. Quintero Washington

Sin embargo, la gráfica QQ a continuación muestra un ejemplo de cuando los residuos


se apartan claramente de una línea diagonal recta, lo que indica que no siguen la
distribución normal:

2. También puede verificar el supuesto de normalidad mediante pruebas estadísticas


formales como Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre o D’Agostino-Pearson.
Sin embargo, tenga en cuenta que estas pruebas son sensibles a los tamaños de muestra
grandes, es decir, a menudo concluyen que los residuos no son normales cuando el
tamaño de la muestra es grande. Esta es la razón por la que a menudo es más fácil usar
métodos gráficos como una gráfica QQ para verificar esta suposición.

Qué hacer si se viola esta suposición


Si se viola el supuesto de normalidad, tiene algunas opciones:
• Primero, verifique que los valores atípicos no tengan un gran impacto en la
distribución. Si hay valores atípicos presentes, asegúrese de que sean valores
reales y que no sean errores de entrada de datos.
• A continuación, puede aplicar una transformación no lineal a la variable
independiente y / o dependiente. Los ejemplos comunes incluyen tomar el
logaritmo, la raíz cuadrada o el recíproco de la variable independiente y / o
dependiente.
Nombre: Morales Bonilla Joselyne Madelyne
Curso: MA 7 – 1
Maestro: Eco. Quintero Washington
Propiedades de los estimadores MCO
Los estimadores MCO son funciones lineales de los valores de Y (la variable dependiente)
que se combinan linealmente utilizando ponderaciones que son una función no lineal de
los valores de X (los regresores o variables explicativas). Así pues, el estimador MCO es
un estimador “lineal” con respecto a cómo utiliza los valores de la variable dependiente
únicamente, e independientemente de cómo utiliza los valores de los regresores.
Básicamente, esto significa que, si se hace el ejercicio una y otra vez con diferentes partes
de la población, y luego se encuentra la media de todas las respuestas obtenidas, se
tendrá la respuesta correcta (o se estará muy cerca de ella).
Existen cuatro propiedades que son:

1. Lineales Supone que las estimaciones de los parámetros, esto es, las b, pueden
expresarse como combinación lineal de las y.

2. Insesgados Implica que, si hacemos la media de las estimaciones de los


parámetros realizada en base a distintas muestras, ese valor coincidirá con el
verdadero valor del parámetro. Es decir, la media de las estimaciones equivale
al valor del parámetro.

3. Óptimos Supone que los estimadores MCO, de todos los estimadores que son
lineales e insesgados (es decir no estamos considerando todos los estimadores
posibles, únicamente los que son lineales e insesgados), son aquellos que
tienen una mínima varianza.
De acuerdo con el teorema de Gauss-Markov, no es posible reducir la
varianza de los estimadores lineales y al mismo tiempo garantizar que
permanezcan insesgados. Esto significa que es posible que los estimadores
no lineales tengan una varianza más pequeña, o que los estimadores lineales
no estén sesgados, pero tengan una varianza más pequeña. Sin embargo, no
existe un estimador lineal e insesgado que pueda tener una varianza menor.

4. Consistente La suposición subyacente es que la probabilidad de que un


estimador se desvíe del parámetro verdadero por una distancia épsilon es
cero a medida que el tamaño de la muestra se aproxima al infinito. En otras
palabras, la coherencia supone que cuantos más datos se dispongan, más
precisa será la estimación en relación con la realidad. Es importante señalar
que la validez de esta suposición depende de la presencia de HB VI.

Bibliografía:
3_Regresion_lineal_multiple_estimacion_y_propiedades-libre.pdf
(d1wqtxts1xzle7.cloudfront.net)
tema2.pdf (ua.es)

También podría gustarte