Está en la página 1de 30

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Facultad de Economía y Planificación


Departamento Académico de Estadística e Informática

MÉTODOS ESTADÍSTICOS PARA


LA INVESTIGACIÓN I

Semana XIII: Análisis de Regresión


Lineal Múltiple

Profesores del curso

2021-I
OBJETIVOS

Formular modelos de regresión lineal simple y múltiple. Usando variables


dentro del contexto de su especialidad

Identificar los supuestos del modelo de regresión lineal simple y múltiple

Aplicar criterios para seleccionar y validar el mejor modelo de regresión


lineal múltiple

Realizar estimaciones adecuadas de la variable de interés del campo de su


especialidad en base a resultados obtenidos del análisis de regresión

Métodos Estadísticos para la Investigación I 2021-I


Análisis de Regresión Lineal
Múltiple
Generalidades
INTRODUCCIÓN

 En el análisis multivariado de datos, se analizan dos o más


variables en conjunto.
 Existen diversas técnicas que permiten analizar datos
multivariados con distintos fines como asociativos, explicativos,
predictivos, etc.
 Cuando el objetivo es explicar la dependencia de una variable
cuantitativa Y a partir de otras variables independientes (X1,
X2, …,Xk), entonces la técnica a utilizar es el análisis de
regresión lineal múltiple.

Métodos Estadísticos para la Investigación I 2021-I


LA REGRESIÓN LINEAL MÚLTIPLE
 Tiene como objetivo predecir o estimar una variable
dependiente (Y) mediante más de una variable independiente a
través de un modelo matemático.
 El incluir un mayor número de variables independientes en el
modelo supondría mayor precisión para la predicción de la
variable dependiente.
 El modelo poblacional de la regresión lineal múltiple es el
siguiente:
Yi  0  1 X1,i  2 X 2,i  3 X 3,i  ......  k X k ,i   i

 Siendo la ecuación de regresión poblacional:


Y / X , X 1 2 ,... X k
 0  1 X1,i  2 X 2,i  3 X 3,i  ......  k X k ,i
Métodos Estadísticos para la Investigación I 2021-I
LA REGRESIÓN LINEAL MÚLTIPLE

Ecuación de regresión estimada

ESTIMACIÓN Yˆi  b0  b1 X1,i  b2 X 2,i  b3 X 3,i  ......  bk X k ,i


Con una muestra i  1, 2,..., n
de n
observaciones
multivariadas

La estimación puntual se realiza utilizando la ecuación de regresión estimada.

Métodos Estadísticos para la Investigación I 2021-I


Sistema de Ecuaciones Normales en
su forma matricial:

donde:

Luego, de acuerdo a los procedimientos establecidos se invierte la matriz (𝑋’𝑋) para


hallar el vector 𝑏.
Métodos Estadísticos para la Investigación I 2021-I
LA REGRESIÓN LINEAL MÚLTIPLE
1) Las variables independientes de X son fijas (no aleatoria)
2) La variable dependiente Y es aleatoria
3) Para cada combinación de los valores de X existe una
distribución normal multivariante para la variable Y:


Yi ~ N Y | Xi ,  2 
4) El error tiene distribución normal con media 0 y varianza
SUPUESTOS constante  2 el cual se puede expresar de la siguiente
forma:

 i ~ N 0,  2 
Esta expresión indica que no existe dependencia o
correlación entre las observaciones y tampoco existe
relación de los valores de ɛi con los valores de Yˆi
(Homocedasticidad)
5) No debe existir correlación o combinación lineal entre las
variables indepedientes de X (no debe haber efecto de
Multicolinealidad).
Métodos Estadísticos para la Investigación I 2021-I
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE

 Mide el porcentaje de la variabilidad de la respuesta que es


explicado por las variables predictoras. Su valor va de 0 a 1 y
se calcula mediante la siguiente expresión:

SC  Regresión 
r 
2

SC Total 

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
 Se desea estudiar el efecto de la temperatura ambiente
promedio diario en °F (X1), y la cantidad de aislante utilizado
en un desván medido en pulgadas de grosor (X2) sobre el
consumo mensual de petróleo, en galones, para calefacción de
casas (Y). Para el efecto se ha tomado una muestra aleatoria
de 15 casas cuyos datos medidos se reportan en las cuatro
primeras columnas de la tabla.
Los datos se muestran a continuación:

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
Muestra Y X1 X2
1 275.3 40 3
2 363.8 27 3
3 264.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323 38 3
15 52.47 58 10
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN II (Ejemplo 1)
a) Analice la matriz de correlaciones
Correlación: Y, X1, x2
Y X1
X1 -0.872
x2 -0.398 0.009

Según la matriz de correlaciones, observamos que existe una alta


correlación negativa entre Y e 𝑋1 (-0.872) y una correlación
moderada negativa entre Y e 𝑋2 (-0.398), es casi cero entre 𝑋1 y
𝑋2 y es como debe de ser, no debe existir asociación entre las
variables independientes.

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
b) Presente la ecuación de regresión lineal múltiple estimada
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001

Y = 550.325 – 5.445X1 – 17.04 X2


c) Interprete b1 y b2
b1 = Cuando la temperatura ambiente promedio estimada diaria se
incremente en 1 °F, el consumo mensual promedio de petróleo para
calefacción disminuirá en 5.445 galones, manteniendo constante la cantidad de
aislamiento en el desván (X2).

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
b2 = Cuando la cantidad de aislamiento en el desván se incremente en 1
pulgada de grosor, el consumo mensual promedio estimado de petróleo para
calefacción disminuirá en 17.04 galones, manteniendo constante la
temperatura ambiente promedio diario (X1).

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
d) Calcule el consumo promedio mensual estimado de petróleo para
calefacción cuando la temperatura ambiente es de 50 °F y se usa un
aislamiento en el desván de 10 pulgadas de grosor.
Si 𝑋1= 50 y 𝑋2 = 10, entonces:
Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones

e) Calcule e interprete el coeficiente de determinación


Del reporte de Minitab, 𝑅 2 = 0.91358.
Esto se interpreta como el 91.36% de la variabilidad del consumo mensual de
petróleo, es explicado por las variables 𝑋1 y 𝑋2 , por el modelo y solo el
8.64% se debe al error propio del muestreo y a otras variables que no han
sido consideradas en el modelo.

Métodos Estadísticos para la Investigación I 2021-I


EL ANÁLISIS DE VARIANZA
Fuentes de Gl SC CM Fc
variación
Regresión k=p-1 SC(Reg)

Error n-k-1 SC(Error)

Total n-1 SC(Total)

El cálculo de las sumas de cuadrados se realiza mediante


operaciones matriciales. Para el desarrollo del curso se usarán
reportes Minitab 19 que facilitan su cálculo.

Métodos Estadísticos para la Investigación I 2021-I


PRUEBAS DE HIPÓTESIS

Prueba Global
P1) H 0 : 1   2  ...   k  0
H1 : Al menos un  j es distinto de cero

P2) α=0.05
P3) El estadístico de prueba
CM  Reg 
Fcalc  F k ,nk 1
CME
P4)
Si Fcalc  F1 ,k ,n  k 1 se rechaza H0

P5) Conclusión

Métodos Estadísticos para la Investigación I 2021-I


PRUEBAS DE HIPÓTESIS

Prueba de Efectos Adicionales


P1) H 0 : 1  0 H 0 : 2  0 H 0 : k  0
….
H1 : 1  0 H1 :  2  0 H1 :  k  0

P2) α=0.05
bj
P3) El estadístico de prueba tc j  ~ t n  k 1
sb j

Donde bj es el coeficiente de regresión estimado j y Sbj es su error estándar. Estos


valores se obtienen de un reporte de Minitab
P4) Criterio de decisión:
Si tcj < t(α/2,n-k-1) ó tcj > t(α/2,n-k-1) se rechaza H0
P5) Conclusión

Métodos Estadísticos para la Investigación I 2021-I


SELECCIÓN DE VARIABLES

Paso 1: Realizar el análisis de varianza


Si resulta no significativo, entonces ninguna variable aporta al modelo.
Paso 2: Realizar el análisis de efectos adicionales
De ser significativo el ANVA, evaluar la influencia de cada variable en el modelo
Paso 3: Construir nuevo modelo eliminando la variable no significativa.
Nota: Si hay más de una variable no significativa en el paso anterior, eliminar la que
tiene menor tc en valor absoluto o la que tiene mayor p-valor
Paso 4: Volver al paso 1 hasta que todas las variables sean significativas

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
f) Realice el Análisis de Variancia. (Use α=0.05)
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040
P1) 𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻1 : Existe al menos una 𝛽𝑖 diferente a cero

P2) α=0.05
P3) El estadístico de prueba

𝐶𝑀𝑅𝑒𝑔 107364.458
𝐹𝑐𝑎𝑙𝑐 = ∼ 𝐹 𝑝−1,𝑛−𝑝 𝐹𝑐𝑎𝑙𝑐 = = 63.43; 𝐹 = 3.88
𝐶𝑀𝐸 1692.6013 2,12,0.05

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
P4) Si 𝐹𝑐 > 𝐹𝑡 se rechaza H0

P5) Conclusión
Como 𝐹𝑐 > 𝐹𝑡 entonces, se rechaza la Ho y se acepta la H1. Conclusión: A un
nivel de significación del 5%, podemos afirmar que al menos ya sea
temperatura o aislamiento se relacionan con el consumo de petróleo.

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
g) Evalúe el efecto lineal adicional de las variables Xi
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
P1) 𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0

P2) α=0.05
P3) El estadístico de prueba
𝑏𝑗 −5.4449 −17.04
𝑡𝑐𝑗 = ∼𝑡 12 𝑡= = −10.24 𝑡= = −4.5995
𝑆𝑏𝑗 0.5317316 3.704712

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
P4) Criterio de decisión 𝑡 12,0.975 = 2.179

Si −2.179 ≤ 𝑡𝑐𝑗 ≤ 2.179 no se rechaza H0


Si 𝑡𝑐𝑗 < 2.179 ó 𝑡𝑐𝑗 > 2.179 se rechaza H0
P5) Conclusión (Se hace por cada hipótesis)
Para 𝑋1:
Con un nivel de significación del 5% se rechaza 𝐻𝑜 . Por lo tanto la variable
temperatura (𝑋1) si influye en el modelo de regresión.
Para 𝑋2 :
Con un nivel de significación del 5% se rechaza 𝐻𝑜 . Por lo tanto la variable
cantidad de aislamiento (𝑋2 ) si influye en el modelo de regresión.

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II (Ejemplo 1)
i) Seleccione el mejor conjunto de variables.
P1) ANVA
P1)
𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻1 : Existe al menos una 𝛽𝑖 diferente a cero
P2) 𝛼 = 0.05
P3) 𝐶𝑀𝑅𝑒𝑔
𝐹𝑐𝑎𝑙𝑐 = ∼𝐹 2,12
𝐶𝑀𝐸
107364.458
𝐹𝑐𝑎𝑙𝑐 = = 63.43; 𝐹 2,12,0.95 = 3.88
1692.6013
P4) Como 𝐹𝑐 > 𝐹𝑡 , entonces, se rechaza la 𝐻0 y se acepta la 𝐻1 .

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II
P2) Análisis de efectos adicionales
P1) 𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0

P2) 𝛼 = 0.05

P3) 𝑏1 −5.4449
𝑡= ∼ 𝑡𝐺𝐿(𝐸𝐸 ) 𝑡= = −10.24
𝑆𝑏1 0.5317316
−17.04
𝑡= = −4.5995 𝑡 = 2.179
3.704712 12,0.95

P4) En ambos casos se rechaza 𝐻𝑜 . Por lo tanto las dos variables forman parte del modelo
y proceso de selección termina, por lo tanto, el modelo estimado es:
Y = 550.325 – 5.445X1 – 17.04 X2

Métodos Estadísticos para la Investigación I 2021-I


ESTIMACIÓN Y PREDICCIÓN POR INTERVALO

INTERVALO DE CONFIANZA
Para un valor medio:

  Donde:
 yˆ0  t  S   y X 0  yˆ0  t  S  S ŷ0  S 2 X'0 (X´X)-1 X 0
   
 yˆ0
  
 yˆ0 
    

1 ; n k 1 1 ; n k 1
 2   2 

INTERVALO DE PREDICCIÓN
Para un valor individual:
Donde:
 
 yˆ0  t  S  y0  yˆ0  t  S  S yˆ0  y0  S 2 (1 + X'0 (X´X)-1 X0 )
   
 yˆ0  y0
  
 yˆ0  y0 
    

1 ; n k 1 1 ; n k 1
 2   2 

Métodos Estadísticos para la Investigación I 2021-I


Reporte Minitab de ayuda

Valores pronosticados para nuevas observaciones


Nueva Ajuste
Obs Ajuste SE IC de 95% PI de 95%
1 203.8 12.4 (176.7, 230.9) (110.1, 297.4)

Valores de predictores para nuevas observaciones


Nueva
Obs X1 x2
1 48.0 5.00

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN II
j) Estime al 95% de confianza el consumo mensual medio de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es:Y = 550.325 – 5.445(48) – 17.04(5) = 203.8
Intervalo
IC :(176.7, 230.9)

k) Estime al 95% de confianza el consumo mensual individual de petróleo


cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es:Y = 550.325 – 5.445(48) – 17.04(5) = 203.8.
Intervalo:
IP: (110.1, 297.4)

Métodos Estadísticos para la Investigación I 2021-I


EJERCICIO PROPUESTO
El gerente de una empresa inmobiliaria realiza un estudio de precios en una
muestra de 21 viviendas que posee la urbanización “El Sol”, donde existe un
solo centro comercial. Se consideran en el análisis las siguientes variables:
Y: Precio de la vivienda (en miles de dólares)
X1: Área construida de la vivienda (en metros cuadrados)
X2: Distancia al centro comercial (en metros) y
X3:Antigüedad de la vivienda (en años)

Análisis de regresión: Precio vs. Area, Distancia, Antigüedad

Predictor Coef SECoef T


Constante 75.73 16.77 4.52
Área 0.2849 0.0332 8.58
Distancia 0.0092 0.0134 0.69
Antigüedad -3.377 1.4942 -2.26

Métodos Estadísticos para la Investigación I 2021-I


EJERCICIO PROPUESTO
a) Estime la ecuación de regresión lineal múltiple e interprete el coeficiente
estimado para la variable antigüedad
b) Determine si el modelo es significativo. Use α = 0.05

Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total

a) Calcule e interprete el coeficiente de determinación.


b) Determine el mejor modelo. Use α = 0.05
c) Estime el precio de la vivienda, con una área construida de 90 metros
cuadrados, que tiene una distancia al centro comercial de 50 metros y con
una antigüedad de 5 años.

Métodos Estadísticos para la Investigación I 2021-I

También podría gustarte