Está en la página 1de 15

1

CONTENIDO

Cap.07 Regresión lineal


7.1 Los modelos de regresión lineal 37
7.2 Regresión lineal múltiple 41
7.3 Ecuación de regresión 41
7.4 Multicolinealidad 43
7.5 Independencia de los errores 44
7.6 Normalidad de los residuos 45
7.7 Homocedasticidad 46
3

CAP.07: REGRESIÓN LINEAL


Los modelos de regresión lineal

Una ecuación de regresión busca calcular los valores que tendrá la variable
dependiente en función de los valores de la variable independiente (X). En los
modelos de regresión simple vemos la relación entre dos variables cuantitativas.
Esta relación se puede expresar en la siguiente ecuación lineal:

La relación entre dos variables cuantitativas en el SPSS se puede graficar mediante


gráficos de dispersión de la siguiente manera:
4

• Seleccionamos las variables independientes en el eje X y las dependientes en el eje Y.

El resultado que obtenemos es el siguiente gráfico de dispersión:

• Para calcular la recta de regresión damos doble clic en el gráfico.


5

• Seleccionamos la recta de ajuste total y luego la opción aceptar.

Finalmente, la ecuación regresión es la línea recta que pasa en medio de los puntos del
diagrama de dispersión y que representa la relación entre ambas variables. La ecuación
será la siguiente:

Es decir, por cada unidad que aumente la variable independiente (x1), se espera que el valor
de Y aumente en 1.91. Así mismo el valor del R2 que aparece en la esquina superior derecha
del gráfico nos indica el porcentaje de la varianza de Y que es explicado por la ecuación.

• El valor del R² indica qué porcentaje de la varianza de la variable dependiente es


explicado por el modelo de regresión El modelo de regresión explica el porcentaje de la
varianza de una variable dependiente a través del valor de R2.

Estos mismos resultados los podemos analizar en el panel de regresión lineal del SPSS de
la siguiente manera.

• Para construir nuestro modelo colocamos la variable dependiente (Y) y la variable


independiente (X) en sus respectivas casillas y presionamos aceptar.
40

En el resumen del modelo vemos que el R2 es de 0,775 es decir, el modelo explica el 0,77
de la varianza de la variable dependiente. Mientras que el valor de “sig” menor a 0,05 nos
dice que es estadísticamente significativo.

Finalmente, el SPSS también arroja los resultados de los coeficientes del modelo de
regresión simple. La constante 1928,206 le corresponde al valor de b0 y el valor de 1,909 le
corresponde a la variable independiente. Es decir, por cada unidad que aumente la variable
independiente (Salario Inicial), se espera que el valor de Y aumente en 1,91 Ambos valores
son estadísticamente significativos (Sig. < 0,05).
41

Regresión lineal múltiple

De la misma manera que una ecuación simple, una ecuación de regresión lineal
múltiple busca calcular los valores que tendrá la variable dependiente en función
de un grupo de variables independientes.

Los valores que el modelo predice son los valores esperados de Y, suelen ser
distintos a los valores reales (los valores observados) de la variable. A la diferencia
entre valor esperado y el valor observado se le conoce como residuos.

• Los errores de estimación de nuestro modelo de regresión serán los residuos.

Ejemplo: Una regresión busca estimar el salario de una persona basándose en su edad
(X1) y su experiencia laboral (X2).

Según dicha regresión se estima que una persona (i) de 30 años y con 5 años de
experiencia laboral deberá ganar S/.5000 soles (^y). Sin embargo, en los datos
encontramos un caso de una persona con 30 años de edad y 5 años de experiencia,
cuyo salario es de S/.7500. La diferencia entre el valor esperado (S/.7500) ambos
valores es el residuo y el valor observado (S/.5000) es el residuo de una estimación.
Para revisar los supuestos de una regresión, se analizarán todos los residuos de dicho
modelo.

• Un modelo de regresión líneal deberá cumplir ciertas condiciones que se


verifican mediante el comportamiento de los residuos. Estos serán los supuestos
a revisar.

Ecuación de regresión

Un primer paso será construir el modelo de regresión, una vez definidas las variables
de interés se deberán ingresar en el SPSS de la siguiente manera:
42

• Seleccionamos las variables independientes en el eje X y las dependientes en el eje Y.

Una acción importante para la evaluación de los supuestos es el cálculo de los


residuos, particularmente el valor estandarizado de los restudios y de los valores
esperados. Para ello, se seguirán los siguientes pasos:
43

Esta acción crea dos variables en la base de datos: la variable ZPR_1(Standardized


Predicte Value) de losvalores esperados o) yla variable ZRE_1(Standardized Residual)
de los residuos.

Multicolinealidad

Un primer supuesto es la multicolinealidad, ello ocurre cuando más de una


variable representa el mismo efecto dentro de una regresión. Por ejemplo, si hay
dos variables muy parecidas estarían “inflando” su efecto en un modelo de regresión.
Para verificar este efecto, se utilizará el “Factor de inflación de la varianza” (VIF). El
SPSS puede calcular el VIF de cada variable de la siguiente manera:

• Seleccionamos el ajuste del modelo y el diagnóstico de colinealidad para calcular el VIF.

Para identificar las variables que presentan multicolinealidad se verifica el valor


de inflación de la variable en los resultados.
44

El SPSS elimina aquellas variables que afectan la varianza.

Independencia de los errores

Un segundo supuesto por comprobar es la independencia de los errores, es decir


que no exista una relación entre los errores y los valores esperados. Ello se evalúa
mediante análisis de independencia de los errores utilizando el estadístico de Durbin
Watson. En la siguiente ruta:

Si el valor es próximo a 2, entonces los residuos no están correlacionados, si se


aproximan a 4, estarán negativamente correlacionados y si su valor está cercano a 0
estarán positivamente correlacionados.
45

Normalidad de los residuos

Un tercer supuesto que debemos revisar es la distribución normal de los errores.


Es posible observar cómo se comportan los residuos frente a los valores
pronosticados de la siguiente manera:

• Se selecciona las variables que guardamos: Residuos Estandarizados (ZRESID) y


Valores pronosticado (ZPRED).

La normalidad se puede comprobar verificando si la distribución de las frecuencias


se asemeja a la distribución normal. Otro camino para verificar este supuesto, es
verificar si en el gráfico P-P los puntos se distribuyen similar a la recta. De ser así se
acepta la distribución normal de los errores del modelo.
46

Otra forma para evaluar la normalidad de los valores errores es mediante la prueba
de normalidad de Kolgomorov-Smirnov (n>30) o Shapiro Wilk (n<30), que podemos
solicitarla de la siguiente manera:

Para evaluar el resultado, el valor de la “SIG” de la prueba deberá ser mayor a 0,05
para indicar que existe una normalidad.

Homocedasticidad

El último supuesto que se debe revisar el de la Homocedasticidad, según el cual


los residuos deben variar de forma independiente al valor esperado (Ŷ). Es decir, la
variabilidad del error debe ser homogéneo, a pesar del incremento o decrecimiento
del valor esperado de Y, sin presentar ningún tipo de patrón.

Para comprobar estadísticamente el supuesto de homocedasticidad se utiliza el


test de Breusch y Pagan y el test de White, que se solicita de la siguiente manera:
47

Finalmente, para evaluar el resultado, el valor de la “SIG” de la prueba, la cual


deberá ser mayor a 0.05 para indicar que existe una normalidad.
48

También podría gustarte