Está en la página 1de 25

ESTADÍSTICA APLICADA 2 – CE87

Análisis de Regresión Lineal Múltiple


LOGRO:

Al finalizar la sesión, el estudiante será capaz de:

• Formular modelos de regresión lineal múltiple usando variables dentro del contexto de
su especialidad.

• Evaluar los supuestos del modelo de regresión lineal múltiple.


• Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal múltiple.
• Realizar las estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a los resultados obtenidos del análisis de regresión lineal múltiple.
TEMARIO

• Análisis de Regresión Lineal Múltiple


• Predicciones:
Predicción puntual

Predicción intervalo
Y

X1 Gasto en publicidad X2 Tiempo de atención al


cliente

¿Qué variables influyen en las


ventas?
Año de experiencia del
X3 Precio del producto
X4 vendedor
Introducción

Objetivo: Predecir la variable dependiente (Y) en función de las variables independientes


(X1, X2, X3, …,Xp)

Para relacionar estas variables podemos utilizar un modelo de regresión lineal múltiple.

Variable dependiente:
Y = Ventas del producto

Variables independientes:
X1 = Gasto en publicidad
X2 = Tiempo de atención al cliente
X3 = Años de experiencia del vendedor
El modelo de Regresión Lineal Múltiple
Considerando “p” variables predictoras, el modelo de regresión
múltiple se expresa por:

y   0  1 x1   2 x2   3 x3  ...   p x p  

Donde:
y Es la variable dependiente que se quiere predecir.

 0 , 1 ,...,  p Son parámetros. B0:Coeficiente de intersección y B1


hasta Bp: Son los coeficientes de regresión.
x1 , x2 ,..., x p Son las variables independientes que se miden sin
error.
 Es el error, es una variable aleatoria.
Modelo de Regresión Lineal Múltiple estimado

yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆ p x p


Un coeficiente de regresión estimado, mide el cambio
promedio en la variable dependiente debido a un
incremento de una unidad en la variable predictora,
manteniendo constantes las otras variables predictoras.
Verificación de supuestos
1. Normalidad de los errores (Prueba de Anderson-Darling):
Ho: Los errores tienen una distribución normal
H1: Los errores NO tienen una distribución normal

2. No autocorrelación de los errores (Prueba Durbin-Watson):


No existe autocorrelación de los errores si el estadístico de DW esta entre 1
y 3.
3. No Multicolinealidad entre variables explicativas:
• Método del Valor de Inflación de Varianza (VIF):

o VIF = 1  No hay Multicolinealidad

o 4 ≤ VIF ≤ 10  Sospecha de Multicolinealidad

o VIF > 10  Problema de Multicolinealidad


Pruebas de hipótesis
• Prueba Global • Prueba Individual
H o : 1   2  ...   p  0 H 0 : i  0
H1 : Al menos un  i  0 H1 : i  0

Estadístico de prueba Estadístico de prueba


CMR ˆ1  1 ˆ1  1
F ~ F( p , n  p 1) t  ~ t ( n p )
CME s S b1
S xx
Caso: Ventas Perú, desea modelar las ventas de los productos en función del gasto en publicidad,
tiempo de demora en atender al cliente y la experiencia del vendedor. A un nivel de significación del 5%.
Vendedor Ventas Gasto en publicidad Tiempo de demora en Experiencia
(miles de soles) (miles de soles) atender al cliente (minutos) (años)
1 70.40 1.60 32 2.5
2 79.30 1.39 1.0 1.8
3 75.70 1.45 8.33 1.5
4 79.20 1.50 2.75 2.3
5 74.50 1.54 12.58 1.8
6 75.80 1.55 16.00 2.3
7 78.50 1.59 1.75 1.8
8 76.80 1.59 7.17 1.8
9 77.40 1.71 11.5 2.5
10 85.90 1.76 0.00 1.95
11 84.40 1.85 3.42 3.0
12 83.80 1.89 2.75 2.05
13 86.70 1.90 0.00 2.5
14 79.10 1.93 7.42 2.65
15 85.90 1.93 2.0 3.0

A un nivel de confianza del 95%, si las ventas de un producto es menor a 80 mil soles, cuando se gasta en
publicidad de 1.55 miles de soles, el tiempo que demora el vendedor en atender al cliente es de 16
minutos y el vendedor que atiende tiene 2 años de experiencia, se invertirá mayor presupuesto en
publicidad.
Solución:
• INTERPRETACIÓN:
¿Se invertirá mayor presupuesto en publicidad?
• REPRESENTACIÓN:
• Variables:
• Y: Ventas (miles de soles)
• X1: Gasto en publicidad (miles de soles)
• X2: Tiempo de demora en atender al cliente (minutos)
• X3: Experiencia (años)
• Procedimiento:
• Para responder el problema de investigación se realizará el Análisis de Regresión
Lineal Múltiple.
• Verificación de supuestos.
• Hipótesis a resolver:

H o : 1   2   3  0 H 0 : i  0
H 1 : Al menos  i  0
H1 :  i  0
Nivel de significación: 0.05
• Prueba de normalidad de errores:

Ho: Los errores tienen una distribución normal


H1: Los errores NO tienen una distribución normal

Estadístico Anderson-Darling (AD) = 0.384


Como p-valor = 0.349 > Alfa = 0.05

Decisión: No se Rechaza H0
Conclusión: A un nivel de significación del 5%, no se afirma que los errores no tiene una distribución normal, es
decir, los errores se distribuyen normalmente.
• Autocorrelación de errores:

Estadístico de Durbin-Watson

Estadístico de Durbin-Watson = 2.33670

Como el valor de DW se encuentra entre 1 y 3

Conclusión: se cumple el supuesto: no existe


autocorrelación de errores
Prueba de Multicolinealidad:

Coeficientes

EE del
Término Coef coef. Valor T Valor p VIF
Constante 60.69 4.65 13.06 0.000
X1: Gasto en publicidad 12.91 2.67 4.83 0.000 1.08
X2: Tiempo de demora -0.3855 0.0589 -6.55 0.000 1.08

Para X1 y X2 Los valores del VIF son menores que 4.

A un nivel de significación del 5%, NO existe problema de multicolinealidad de las


variables explicativas.

Se concluye que se cumplen los tres supuestos.


CÁLCULO:

Modelo con el método de paso a paso:


Análisis de regresión: Y: Ventas vs. X1: Gasto en pub, X2: Tiempo de
demora, X3: Experiencia

Selección de términos escalonada

α a entrar = 0.15, α a retirar = 0.15

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 286.76 143.382 44.84 0.000
X1: Gasto en publicidad 1 74.49 74.486 23.29 0.000
X2: Tiempo de demora 1 136.98 136.984 42.84 0.000
Error 12 38.37 3.198
Total 14 325.14
ANÁLISIS:
Validando el modelo seleccionado: Y X1 X2
• Prueba Global:
H o : 1   2  0
H1 : Al menos  i  0
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 286.76 143.382 44.84 0.000
X1: Gasto en publicidad 1 74.49 74.486 23.29 0.000
X2: Tiempo de demora 1 136.98 136.984 42.84 0.000
Error 12 38.37 3.198
Total 14 325.14

Fcal = 44.84

Como P-valor = 0,000 < Alfa = 0,05

Conclusión: Se Rechaza H0
Decisión: A un nivel de significación del 5%, se afirma que al menor un i es diferente de cero, es decir,
existe relación lineal entre las ventas y al menos una de las variables: Gasto en publicidad y Tiempo de
demora.
• Prueba Individuales:

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 286.76 143.382 44.84 0.000
X1: Gasto en publicidad 1 74.49 74.486 23.29 0.000
X2: Tiempo de demora 1 136.98 136.984 42.84 0.000
Error 12 38.37 3.198
Total 14 325.14

• Para X1: Gasto en publicidad Para X2: Tiempo de demora

H o : 1  0 H o : 2  0
H 1 : 1  0 H1 :  2  0
P  valor  0.000 P  valor  0.000
Se Rechaza Ho Se Rechaza Ho

A un nivel de significación del 5%, se afirma que B1 y B2 son diferentes de cero, es decir, el gasto en
publicidad y tiempo de demora si contribuyen al modelo.
Por lo tanto, el modelo es válido.
Presente el modelo estimado e interprete los coeficientes de regresión estimados.

Coeficientes

EE del
Término Coef coef. Valor T Valor p VIF
Constante 60.69 4.65 13.06 0.000
X1: Gasto en publicidad 12.91 2.67 4.83 0.000 1.08
X2: Tiempo de demora -0.3855 0.0589 -6.55 0.000 1.08

Ecuación de regresión lineal múltiple:

Y = 60.69 + 12.91 X1:Gasto en publicidad - 0.3855 * X2:Tiempo de demora

Y = 60.69 + 12.91X1 - 0.3855X2


Modelo de regresión lineal múltiple estimado

yˆ  60.687  12.91x1  0.3855 x2

Interpretación de los coeficientes de regresión estimados:

Por cada 1000 soles adicional que se gasta en publicidad, las


ˆ1  12.91 ventas en promedio se incrementa en 12.91 miles de soles,
manteniendo constante el tiempo de demora en atender al
cliente.

Por cada minuto adicional del tiempo de demora en atender


ˆ2   0.3855 al cliente, las ventas en promedio disminuye en 0.3855 miles
de soles, manteniendo constante el gasto en publicidad.
Determine la variabilidad total de la variable
dependiente explicada a través del modelo.

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
1.78822 88.20% 86.23% 77.22%
A un nivel de confianza del 95%, estimar las ventas de un producto, cuando se gasta en
publicidad de 1.55 miles de soles, el tiempo que demora el vendedor en atender al cliente
es de 16 minutos y el vendedor que atiende tiene 2 años de experiencia.
Predicción para Y: Ventas
Ecuación de regresión

Y: Ventas = 60.69 + 12.91 X1: Gasto en publicidad - 0.3855 X2: Tiempo de demora

Valor de
Variable configuración
X1: Gasto en publicidad 1.55
X2: Tiempo de demora 16

Ajuste EE de ajuste IC de 95% IP de 95%


74.5241 0.708415 (72.9806, 76.0676) (70.3333, 78.7149)

IC(Y)= [70.3333 , 78.7149] miles soles

Al 95% de confianza, las ventas de un producto se encuentra contenido en el intervalo


[70.3333 , 78.7149] miles soles
COMUNICACIÓN / ARGUMENTACIÓN:

De acuerdo a los resultados hallados las ventas de un producto se encuentra


contenido en [70.3333 , 78.7149] miles soles, es menor a los 80 mil soles, por
lo tanto, se deberá invertir mayor presupuesto en publicidad.
Evaluación
Indique V o F según corresponda en los siguientes enunciados:

1. En Regresión lineal múltiple intervienen dos o mas variables independientes. (F)

2. Si el valor del coeficiente de determinación ajustado es alto significa que el (F)


modelo es adecuado para predecir.

3. En regresión lineal múltiple se trabaja con el indicador coeficiente de


determinación ajustado. (V)

4. En la tabla ANOVA, si la prueba global, el p-valor es 0.64, significa que el (F)


modelo sirve para explicar la variable respuesta.

5. La variable dependiente es un factor. (F)


Bibliografía
• Montgomery, D y Runger, G (2006) Probabilidad y
Estadística aplicadas a la Ingeniería. México DF. Ed.
LIMUSA, SA de CV. Grupo Noriega de editores
Material producido por la Universidad Peruana de Ciencias
Aplicadas
Autor: Equipo de profesores CE87
COPYRIGHT ©UPC 2016 - Todos los derechos reservados.

También podría gustarte