Está en la página 1de 28

MODELO DE REGRESIÓN LINEAL

MÚLTIPLE

Dr. Marco Polo Tello Velasco


Modelo de Regresión Lineal Múltiple

Temas a revisar en la Semana 3

▪ Definición del modelo


▪ Estimación por MC de los parámetros del modelo
▪ Propiedades estadísticas de los estimadores
▪ Intervalos de confianza sobre los parámetros del modelo
▪ Pruebas de hipótesis de los parámetros del modelo
▪ Análisis de varianza
▪ Generación de pronósticos
▪ Formas funcionales del modelo
DEFINICIÓN

INICIO
Una extensión natural del
modelo de regresión lineal
Modelo de simple consiste en considerar
Regresión Lineal más de una variable explicativa.
Múltiple
Es decir para explicar una Y, se
incluyen más de una X.
Los modelos de regresión múltiple estudian la relación entre:

• 1 variable de interés Y (variable respuesta o dependiente) y

• 1 conjunto de variables X (explicativas o dependientes: X1, X2, … Xp)

En el modelo de regresión lineal múltiple se supone que la función


de regresión que relaciona la variable dependiente con las
variables independientes es lineal, es decir:

Y = β0 + β1X1 + β2X2 + · · · + βpXp + ε


La regresión múltiple también nos puede servir para entender
la relación funcional entre la variable dependiente y las
variables independientes y estudiar cuáles pueden ser las
causas de la variación de Y .

Dos variables x e y están relacionadas funcionalmente cuando


conocida la primera se puede saber con exactitud el valor de la
segunda. Por ejemplo: la hora del día nos dice con exactitud la
posición de la tierra respecto al sol.
Ejemplo

Supongamos que estamos interesados en encontrar un hábitat adecuado


para la familia de los escarabajos tigre (Cicindela dorsalis dorsalis), que
viven en playas arenosas de la costa atlántica de Norteamérica.
Un posible procedimiento a seguir sería acudir a diferentes playas en las
que habitase la especie y medir en ellas la densidad del escarabajo (Y )
junto con distintos factores como: humedad, temperatura, exposición al
oleaje, tamaño del grano de arena, etc. (X’s).
Un modelo de regresión múltiple nos daría una ecuación para relacionar
la densidad del escarabajo con el resto de variables, de modo que si
acudimos a una nueva playa en la que no hay escarabajos y medimos el
resto de factores podríamos predecir la densidad esperada de escarabajos
al introducir la especie.
Si para este caso planteamos un modelo de regresión lineal simple, sólo
podría explicarnos la densidad de escarabajo en función del tamaño de la
arena y seguramente encontraríamos una relación significativa entre
ambas variables.
Lo mismo si planteamos un modelo de regresión lineal simple que explique
la densidad en función de la temperatura.

La regresión múltiple nos permite controlar este tipo de


situaciones al mismo tiempo, ya que podremos incluir todas las
variables y determinar si, manteniendo las mismas condiciones en
la humedad, el tamaño de arena, la exposición al oleaje realmente
afecta a la densidad de la especie.

Tomado de: Handbook of Biological Statistics. http://udel.edu/~mcdonald/statintro.html


En el modelo de regresión lineal múltiple se supone que la función de
regresión que relaciona la variable dependiente con las variables
independientes es lineal, es decir:
Y = β0 + β1X1 + · · · + βpXp + ε

• β0 es el término independiente, es el valor esperado de Y cuando X1 a


Xp son cero.
• β1, β2, . . . βp son los coeficientes parciales de la regresión
• β1 mide el cambio en Y por cada cambio unitario en X1, manteniendo
X2 X3 … Xp constantes.
• β2 mide el cambio en Y por cada cambio unitario en X2, manteniendo
X1, X3 … Xp constantes.
• βp mide el cambio en Y por cada cambio unitario en Xp, manteniendo
X1, X2 … Xp-1 constantes.

• ε es el error de observación debido a variables no controladas.


Una vez determinado el modelo de regresión lineal múltiple :

1. recopilamos la información muestral que tenemos de Y, X1, X2, … Xn


2. formamos las tablas de datos necesarias.

Asumimos que:
1. las variables explicativas son lineales entre si
2. los errores ε1, ε2…, εn son independientes, tienen distribución
normal de media cero y varianza 𝛔𝟐 .
El objetivo es:
Obtener los valores β0, β1 , β2

para conocer la relación entre Y y las X determinadas.


1. La tabla con la información muestral se forma con las variables
elegidas X:
Y X1 X2
Variables Densidad del Humedad Temperatura
escarabajo

Datos
Datos
Datos

La fórmula para determinar β0 es:

β0
La fórmula para determinar β1 es:

La fórmula para determinar β2 es:


Los datos son

n=10 (número de observaciones por variable)


Sustituyendo en las fórmulas de β1 y β2 :
Sustituyendo en la fórmula de β0 :
β0 = 𝒀
ഥ − β1 𝑿
ഥ 1 – β2 𝑿
ഥ𝟐 + ε

β0 = 𝟑𝟐. 𝟐 − 0.509 * 6.2 – 2.195 * 4.6


β0 = 18.947

Reemplazando en la fórmula de regresión tenemos:


Método de Mínimos Cuadrados

Si lo desarrollamos por el Método de Mínimos Cuadrados,


tenemos las ecuaciones:

෍ 𝑋1 𝑌 = ෍ 𝑋1 𝛽0 + ෍ 𝑋12 𝛽1 + ෍ 𝑋1 𝑋2 𝛽2 (1)

෍ 𝑋2 𝑌 = ෍ 𝑋2 𝛽0 + ෍ 𝑋22 𝛽2 + ෍ 𝑋1 𝑋2 𝛽1 (2)

෍ 𝑌 = 𝑛 ∗ 𝛽0 + ෍ 𝑋1 𝛽1 + ෍ 𝑋2 𝛽2
(3)

De las cuales tomamos la (1) y la (2), para hallar los valores de


β1 y β 2
Reemplazamos en las dos ecuaciones para obtener β1 y β2 y
comprobar que son los mismos que los hallados con la ecuación.

º
COEFICIENTE DE CORRELACIÓN
El Coeficiente de Correlación Múltiple indica la correlación
entre una de las variables independientes y la variable dependiente,
manteniendo la otra u otras variables independientes
estadísticamente constante.
Su fórmula es:

r=
Determinando el Coeficiente de Correlación Múltiple,
Sustituimos los valores:
Con la Regresión Lineal Múltiple, el coeficiente de determinación
presenta el inconveniente de aumentar siempre que aumenta el
número de variables regresoras.
Por ello, se sugiere utilizar el coeficiente de determinación
corregido por el número de grados de libertad, lo que se conoce
como: r ajustada.

A este problema se le conoce comúnmente como :


“sobreestimación del modelo”.
La fórmula de la R cuadrada ajustada es:

R2 a R cuadrado ajustado o coeficiente de determinación ajustado


R2 → R cuadrado o coeficiente de determinación
n → Número de observaciones de la muestra
k → Número de variables independientes
Teniendo en cuenta que 1-R2 es un número constante y que n es
mayor que k, a medida que añadimos variables al modelo, el
cociente entre paréntesis se hace más grande.
Consecuentemente, también el resultado de multiplicar este por
1-R2 vemos que la fórmula está construida para ajustar y
penalizar la inclusión de coeficientes en el modelo.
La R cuadrada ajustada (o coeficiente de determinación
ajustado) se utiliza en la regresión múltiple para ver el grado
de intensidad o efectividad que tienen las variables
independientes en explicar la variable dependiente.

En palabras más simples, la R cuadrada ajustada nos dice


qué porcentaje de variación de la variable dependiente
es explicado colectivamente por todas las variables
independientes.
Como estimador de la varianza del error se puede emplear:

donde:
p= número de variables explicativas.
Sustituyendo los valores tenemos :

𝛔𝟐 = 28.628, por lo tanto 𝛔 = 5.3505


La Tabla ANOVA para el modelo de regresión lineal múltiple con
constante, p variables explicativas y n observaciones
PRUEBAS DE HIPÓTESIS

Suponiendo que se cumple el modelo de regresión lineal múltiple,


estamos interesados en determinar si el modelo es o no explicativo.
H0 : β1 = β2 = . . . = βp =
H1 : βj ≠ 0 para algún j = 1, . . . , p
Si se acepta la hipótesis nula (β1 = β2 = . . . = βp = 0), entonces el
modelo no es explicativo, es decir, ninguna de las variables
explicativas influye en la variable respuesta Y .
Si se rechaza la hipótesis nula, el modelo es explicativo, es decir, al
menos una de las variables explicativas influye en la respuesta Y .
Se emplea el estadístico F
Recordemos los supuestos que deben asumirse para poder realizar una
regresión lineal son:
a) normalidad de la distribución condicional de la variable “y”,
b) linealidad,
c) homogeneidad de varianzas
d) independencia de las observaciones, donde cada
observación de la variable “y “debe ser independiente
de las demás.
Para probar este último supuesto se cuenta con el Estadístico
Durbin-Watson, usado para detectar la presencia de autocorrelación
en los residuales de un análisis de regresión.
Esta prueba verifica la H0 de que los residuos de una regresión son
independientes, en contra de la H1 de que los residuos están
autocorrelacionados.
El estadístico de Durbin-Watson tiene un rango entre 0 y 4: un
valor próximo a 2 indica escasa autocorrelación; un valor entre
2 y 0 indica una autocorrelación positiva mientras que un valor
entre 2 y 4 indica una autocorrelación negativa .

Autocorrelación: proceso aleatorio que describe la correlación


entre valores del proceso en diferentes puntos en tiempo, como
una función de dos tiempos o de diferentes tiempos
Bibliografía:

• Econometría. Damodar Gujarati Ed. Mc Graw Hill


• Análisis Multivariable para las Ciencias Sociales. Lévy y
Varela Ed Pearson
• Análisis multivariante. Hair-Anderson-Tatham-Black. Ed
Prentice Hall.
• Pértega Díaz S., Pita Fernández S. Técnicas de regresión:
Regresión Lineal Múltiple
• Análisis de datos con SPSS 13 Base Pardo y Ruiz. Ed Mc Graw
Hill.
• Análisis Estadístico con SPSS para windows. Estadística
Multivariante. Visauta y Martori. Ed Mc Graw Hill. Segunda
Edición
• Estadística aplicada y econometría. Sara Arancibia C.
Universidad de Chile

También podría gustarte