Está en la página 1de 9

Regresión Lineal Múltiple

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la


variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables
independientes llamadas predictores x 1, x 2, x 3, x 4 , … Es una extensión de la regresión lineal
simple, por lo que es fundamental comprender esta última. Los modelos de regresión
múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar
la influencia que tienen los predictores sobre ella (esto último se debe analizar con cautela
para no malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:

yi =( β + β x + β x + β x +⋯+ β x )+e
0 1 1i 2 2i 3 3i n ¿ i

 β 0: es la ordenada en el origen, el valor de la variable dependiente y i cuando todos


los predictores son cero.
 β i: es el efecto promedio que tiene el incremento en una unidad de la variable
predictora x i sobre la variable dependiente y i, manteniéndose constantes el resto
de variables. Se conocen como coeficientes parciales de regresión.
 e i: es el residuo o error, la diferencia entre el valor observado y el estimado por el
modelo.

Es importante tener en cuenta que la magnitud de cada coeficiente parcial de regresión


depende de las unidades en las que se mida la variable predictora a la que corresponde, por
lo que su magnitud no está asociada con la importancia de cada predictor. Para poder
determinar qué impacto tienen en el modelo cada una de las variables, se emplean
los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media
y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo.

Condiciones para la regresión lineal múltiple


Los modelos de correlación lineal múltiple requieren de las mismas condiciones que los
modelos lineales simples más otras adicionales.

No colinialidad o multicolinialidad:
En los modelos lineales múltiples los predictores deben ser independientes, no debe de
haber colinialidad entre ellos. La colinialidad ocurre cuando un predictor está linealmente
relacionado con uno o varios de los otros predictores del modelo o cuando es la
combinación lineal de otros predictores.

Parsimonia:
Este término hace referencia a que el mejor modelo es aquel capaz de explicar con mayor
precisión la variabilidad observada en la variable respuesta empleando el menor número de
predictores, por lo tanto, con menos asunciones.

Relación lineal entre los predictores numéricos y la variable respuesta:


Cada predictor numérico tiene que estar linealmente relacionado con la variable
respuesta Y mientras los demás predictores se mantienen constantes, de lo contrario no se
puede introducir en el modelo. La forma más recomendable de comprobarlo es
representando los residuos del modelo frente a cada uno de los predictores. Si la relación es
lineal, los residuos se distribuyen de forma aleatoria entorno a cero. Estos análisis son solo
aproximados, ya que no hay forma de saber si realmente la relación es lineal cuando el resto
de predictores se mantienen constantes.

Distribución normal de los residuos:


Los residuos se deben distribuir de forma normal con media cero. Para comprobarlo se
recurre a histogramas, a los cuantiles normales o a test de hipótesis de normalidad.

Variabilidad constante de los residuos (homocedasticidad):


La varianza de los residuos debe de ser constante en todo el rango de observaciones. Para
comprobarlo se representan los residuos. Si la varianza es constante, se distribuyen de forma
aleatoria manteniendo una misma dispersión y sin ningún patrón específico. Una
distribución cónica es un claro identificador de falta de homocedasticidad. También se
puede recurrir a contrastes de homocedasticidad como el test de Breusch-Pagan.

No autocorrelación (Independencia):
Los valores de cada observación son independientes de los otros, esto es especialmente
importante de comprobar cuando se trabaja con mediciones temporales. Se recomienda
representar los residuos ordenados acorde al tiempo de registro de las observaciones, si
existe un cierto patrón hay indicios de autocorrelación. También se puede emplear el test de
hipótesis de Durbin-Watson.

Valores atípicos, con alto leverage o influyentes:


Es importante identificar observaciones que sean atípicas o que puedan estar influenciando
al modelo. La forma más fácil de detectarlas es a través de los residuos, tal como se explica
en el capítulo de Regresión Lineal Simple.

Regresión Lineal Múltiple de una Muestra


La regresión de un conjunto de muestra con más de dos variables es:

= + + +
X i b 0 b 1 x 1i b 2 x 2 i b 3 x 3 i+⋯+b n x¿

, , , , , … se
Sean x 1 x 2 x 3 las variables en consideración. Entonces, con x 11 x 12 x 13

denota los valores que asume la variable x 1 y x 21 , , x , x , … denotan los valores


22 23

que asume la variable x 2 , y así sucesivamente. Con esta notación, una suma como
N

puede expresarse como ∑ x , ∑ o simplemente ∑ x .


x 21+ x 22 + x 23+…+ x2 N x 2j
2j 2
j
j=1

Ecuación de Regresión y Planos de Regresión


Una ecuación de regresión es una ecuación que se utiliza para estimar variables
dependientes, por ejemplo x 1 a partir de variables independientes x 1 , x 2 , x 3 , … y se
llama ecuación de regresión parcial de x 1 sobre x 1 , x 2 , x 3,… Empleando la notación
funcional esto puede expresarse como x 1=F ( x 2 , x 3 , x 4 ,… )

En el caso de tres variables, la ecuación de regresión de tres variables de


x 1 , sobre x 2 y x3 tiene la forma siguiente:

x 1=b1.23 +b 12.3 x 2 +b13.2 x 3

Donde b 1.23 , b 12.3 y b 13.2 son constantes. Los subíndices después del punto indica la
variable que se mantiene constante en cada caso.

Las ecuaciones normales relacionadas al caso anterior es:

b 1.23 N +b 12.3 ∑ x 2 +¿ b13.2 ∑ x 3=¿ ∑ x 1 ¿ ¿

b 1.23 ∑ x 2 +b12.3 ∑ x 2+ ¿ b13.2 ∑ x 2 x3 =¿ ∑ x 1 x 2 ¿ ¿


2

b 1.23 ∑ x 3 +b12.3 ∑ x 2 x 3 +b13.2 ∑ x 3=¿ ∑ x 1 x 3 ¿


2

Correlación Múltiple

Coeficientes de Correlación

El coeficiente de correlación lineal r 12 entre las variables x 1 yx 2 ignorando a la


variable x 3, y así sucesivamente se obtienen r 13 y r 23 , donde:

r 12=N
∑ x 1 x 2−¿ (∑ x 1 )(∑ x 2 ) ¿
√ [ N ∑ x1 −(∑ x 1 ) ] [ [ N ∑ x 2−(∑ x2 ) ]]
2 2 2 2

r 13=N
∑ x 1 x 3−¿ (∑ x1 )(∑ x3 ) ¿
√ [ N ∑ x 1− ( ∑ x 1 ) ] [ [ N ∑ x 3− ( ∑ x 3) ] ]
2 2 2 2

r 23=N
∑ x 2 x 3−¿ (∑ x 2)(∑ x 3) ¿
√ [ N ∑ x 2− ( ∑ x 2 ) ] [ [ N ∑ x 3− ( ∑ x 3 ) ] ]
2 2 2 2

Coeficiente de Correlación Múltiple

El coeficiente de correlación múltiple está dado por.



2
s1.23
R1.23= 1− 2
s1

El coeficiente de correlación múltiple también se puede calcular por medio de la


siguiente expresión:


2 2
r 12+ r 13−r 12 r 13 r 23
R1.23= 2
1−r 23

Error Estándar de Estimación

El error estándar de estimación de x 1 sobre x 2 y x 3 como

s1.23=
√ ∑ ( x 1−x 1 ,est ) 2
N

El error estándar de estimación también se puede calcular en términos de los coeficientes de


correlación empleando la fórmula:


2 2 2
1−r 12−r 13−r 23+ 2r 12 r 13 r 23
s1.23= 2
1−r 23

Ejercicios:

1) En la tabla siguiente se presentan los pesos dados en libra, las estaturas a la


pulgada más cercana y las edades al año más cercano de 12 niños.

Pesos
64 71 53 67 55 58 77 57 56 51 76 68
( x1 )
Estatura
57 59 49 62 51 50 55 48 52 42 61 57
( x2 )
Edad
8 10 6 11 8 7 10 9 10 6 12 9
( x3 )
a) Encontrar la ecuación de regresión de mínimos cuadrados de x 1 sobre x 2 y
x3
b) Calcular el error estándar de estimación.
c) Calcular el coeficiente de correlación múltiple.
d) Estimar el valor del peso, sabiendo que la estatura es de 62 pulgada y 13
años de edad.

Pesos Estatura Edad


( x1 ) ( x2) ( x3 )
64 57 8
71 59 10
53 49 6
67 62 11
55 51 8
58 50 7
77 55 10
57 48 9
56 52 10
51 42 6
76 61 12
68 57 9
2) En la tabla se representan los valores de tres variables x 1 , x 2 y x 3.

x1 3 5 6 8 12 14
x2 16 10 7 4 3 2
x3 90 72 54 42 30 12

a) Hallar la ecuación de regresión de mínimos cuadrados.


b) Calcular el error estándar de estimación.
c) Calcular el coeficiente de correlación múltiple.
d) Estimar x 1 cuando x 2=17 y x 3=50.
3) El precio en miles, la cantidad de habitaciones, y la cantidad de baños de 10
casas.

Precio Cantidad de Baños


x1 Habitaciones x 2 x3
165 3 2
200 3 3
225 4 3
180 2 3
202 4 2
250 4 4
275 3 4
300 5 3
155 2 2
230 4 4

a) Hallar la ecuación de regresión de mínimos cuadrados.


b) Calcular el error estándar de estimación.
c) Calcular el coeficiente de correlación múltiple.
d) Estimar x 1 cuando x 2=5 y x 3=4.

También podría gustarte