Está en la página 1de 16

Regresión lineal

múltiple
Modelo de regresión lineal múltiple
• Se
  trata de incluir más variables predictoras en el modelo de regresión lineal
simple; Al agregar nuevas variables junto con un parámetro asociado a cada
una, el modelo de regresión lineal es:

• Donde: =el i-ésimo valor observado bajo las condiciones


• = el i-ésimo valor fijado de la variable predictora
• = error aleatorio
Significado de los parámetros del MRLM

•  = respuesta media esperada cuando =0, siempre que el punto


(0,0,0…,0) esté dentro del rango de valores posibles de

• = cambio de la respuesta media estimada por cada unidad de


incremento en la variable regresora cuando las demás variables
predictoras se mantienen fijas.
Forma matricial del modelo
• Cuando
  se tienen n observaciones para el modelo lineal

• En realidad se tiene un sistema de ecuaciones con k+1 incognitas que


corresponden al intercepto y los k coeficientes. Tal sistema es

Estimación de los parámetros

•  Usando el método de mínimos cuadrados ordinarios, se busca el valor de


que minimice la suma cuadrada de error.


Propiedades de los estimadores
•  El estimador es insesgado, es decir,

• es el mejor estimador lineal insesgado de , tiene mínima varianza entre


todos los estimadores insesgados de
• La matriz de varianzas y covarianzas de está dada por
Prueba de significancia de la regresión
•   el modelo RLM para la observación i
Dado

Se busca establecer si la respuesta no se ve afectada significativamente por las predictoras a


través del modelo o si al menos una afecta significativamente la respuesta.
Hipótesis
vs
Para probar se usa el enfoque de análisis de varianza
 

SCT SCR SCE


n-1 k n-(k+1)
Factores de Sumas Grados de Medias Estadístico
variación cuadradas libertad cuadradas
Regresión SCR K MCR
Error
Error SCE
SCE n-(k+1)
n-(k+1) MCE
MCE
total
total SCT
SCT n-1
n-1

  𝑆𝐶𝐸   𝑆𝐶𝑅   𝑀𝐶𝑅


𝑀𝐶𝐸= 𝑀𝐶𝑅= 𝐹 0=
𝑛 −(𝑘 +1) 𝐾 𝑀𝐶𝐸

 Regla de decisión: Rechazo si , con lo cual se concluye que al menos una de las
predictoras afecta significativamente la respuesta
Coeficiente de determinación

•  Es una medida de bondad de ajuste de los puntos a la ecuación ajustada


que se deriva del ANOVA y se define como
,
• representa el porcentaje de variabilidad total observada en la respuesta
que es explicada por su relación con las variables predictoras.

• es el porcentaje de variabilidad total observada en la respuesta que no es


explicada por el modelo ajustado.
•  grande no implica que la superficie sea útil

• Si se agrega una variable predictora al modelo, el puede sólo aumentar, nunca


disminuir , razón por la cual es preferible usar un estadístico que penalice la
inclusión de variables aleatorias innecesarias.

• Este disminuye si se incluyen variables sin que se logre disminuir SCE


•  Rechazar en la prueba de significancia de la regresión indica que al menos
una variable predictora afecta significativamente la respuesta, de ahí que el
investigador busque identificar cual o cuales de las variables predictoras están
afectando la respuesta.

Para tomar la decisión se puede utilizar

• Prueba de significancia para variables individuales


• Prueba de significancia para subconjuntos de variables
Prueba de significancia para variables
individuales
• Hipótesis:
 

• El estadístico de prueba utilizado en este caso es

Donde es el j-ésimo elemento de la diagonal de

• Regla de decisión: rechazo si


Prueba de significancia para subconjuntos
de variables
•  Para ilustrar el procedimiento, consideremos un MRLM (modelo de
regresión lineal múltiple) con k=4 variables predictoras

• Supongamos que se desea probar la significancia de las predictoras y


simultáneamente, es decir, medir la importancia de las variables en el
modelo inicial, con lo cual las hipótesis serán :
•  

• El estadístico de prueba será:

• Regla de decisión: rechazo si

• *=numero de variables a evaluar.

También podría gustarte