Está en la página 1de 9

Práctica de Regresión Múltiple

1. Consulte los datos Wage, donde se reporta información sobre los salarios anuales de una muestra de 100
trabajadores. También se incluyen variables relacionadas con la industria, los años de educación y el género
de cada trabajador. Determine la ecuación de regresión con el salario anual como variable dependiente y los
años de educación, género, años de experiencia laboral, edad en años y si el trabajador es miembro o no
de un sindicato.
a. Escriba la ecuación de regresión. Haga un comentario sobre cada una de las variables.
Sean las variables
Y : Salario anual de los trabajadores miles de dólares
X 1 : Años de educación
X 2 : Genero 1=Mujer 0=Varón
X 3 : Años de experiencia laboral
X 4 : Edad del trabajador
X 5 :Si el trabajador es miembro de un sindicato 1= Sindicalizado; 0= no es sindicalizado
La ecuación de regresión múltiple estimada es:
Y =−14.17+3.33 X 1−11.67 X 2 +0.45 X 3 −5.36 X 5
3.33 : Por cada año de educación el salario aumenta en 3330 $us
−11.67 : Las mujeres en promedio tienen salarios menores a los salarios anuales de los varones en
promedio, 11670 $US menos.
0.45: Por cada de experiencia laboral el salario del trabajador aumenta en 450 $US
−5.36 : Los trabajadores sindicalizados ganan en promedio 5360 $US menos que los trabajadores no
sindicalizados.
salario Coef. Std. Err. t P>|t| [95% Conf. Interval]

educación 3.325114 .5660296 5.87 0.000 2.201403 4.448825


mujer -11.67451 2.79561 -4.18 0.000 -17.2245 -6.124522
experiencia .4479589 .11972 3.74 0.000 .2102846 .6856332
edad 0 (omitted)
sindicalizado -5.355335 3.812782 -1.40 0.163 -12.92466 2.213995
_cons -14.17366 8.720199 -1.63 0.107 -31.48545 3.13812

Para la ecuación de regresión estimada existen variables omitidas por problemas de multicolinealidad. Uno
de los supuestos del modelo de regresión lineal múltiple es que no deben existir relaciones lineales entre las
variables independientes, si ocurre esto, nos conduce a problemas numéricos.
b. Determine e interprete el valor R2.
2
R =0.3656
El modelo propuesto explica el 36.56% de la variabilidad de los salarios.
c. Elabore una matriz de correlación. ¿Qué variables independientes numéricas tienen correlaciones
fuertes o débiles con la variable dependiente? ¿Detecta algunos problemas con la multicolinealidad?
. pwcorr salario educación experiencia edad, sig star(5)

salario educac~n experi~a edad

salario 1.0000

educación 0.4081* 1.0000


0.0000

experiencia 0.0705 -0.4405* 1.0000


0.4856 0.0000

edad 0.1666 -0.2527* 0.9799* 1.0000


0.0975 0.0112 0.0000

Consideramos que hay una relación lineal entre las variables si el coeficiente de correlación de Pearson
2
es mayor en valor absoluto a =0.2.
√n
Observamos que entre la experiencia y la edad existe una relación lineal casi perfecta, esto nos
conduce a problemas numéricos, y debemos eliminar una de las variables.
Eliminamos la variable edad en nuestro modelo de regresión.
d. Realice una prueba global de hipótesis en el conjunto de variables independientes. Interprete sus
resultados. ¿Es razonable continuar el análisis o debería detenerse en este punto?
Modelo: Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 5 X 5
. regress salario educación mujer experiencia sindicalizado

Source SS df MS Number of obs = 100


F(4, 95) = 13.69
Model 10395.0775 4 2598.76938 Prob > F = 0.0000
Residual 18038.1291 95 189.875043 R-squared = 0.3656
Adj R-squared = 0.3389
Total 28433.2066 99 287.204107 Root MSE = 13.78

Hipótesis nula: β 1=β 2=β 3=β 5=0 Ninguna variable puede usarse para explicar la
variación del salario.
Hipótesis alterna: β i ≠ 0 para algún i ; Hay al menos una variable que explica la variación del
salario.
El valor p de la prueba es 0, (valor p pequeño RHo) por lo tanto, rechazamos la hipótesis nula y
aceptamos que hay por lo menos una variable de las seleccionadas que puede explicar la variabilidad
del salario.
e. Realice una prueba de hipótesis con cada una de las variables independientes. ¿Consideraría
eliminar algunas de estas variables? Si es así, ¿cuáles?
Hipótesis nula: β 0=0
Hipótesis alterna: β 0 ≠ 0
El valor p de la prueba 0.107, no rechazamos Ho, por lo tanto, el modelo no tiene constante.
Hipótesis nula: β 1=0
Hipótesis alterna: β 1 ≠ 0
El valor p de la prueba 0.000, si rechazamos Ho, por lo tanto, la variable “años de educación” debe
incluirse en el modelo.
Hipótesis nula: β 2=0
Hipótesis alterna: β 2 ≠ 0
El valor p de la prueba 0.000, si rechazamos Ho, por lo tanto, la variable “género” debe incluirse en el
modelo.
Hipótesis nula: β 3=0
Hipótesis alterna: β 3 ≠ 0
El valor p de la prueba 0.000, si rechazamos Ho, por lo tanto, la variable “experiencia laboral” debe
incluirse en el modelo.
Hipótesis nula: β 5=0
Hipótesis nula: β 5 ≠ 0
El valor p de la prueba 0.163, no rechazamos Ho, por lo tanto, la variable “sindicalizado” no debe
incluirse en el modelo.

salario Coef. Std. Err. t P>|t| [95% Conf. Interval]

educación 3.325114 .5660296 5.87 0.000 2.201403 4.448825


mujer -11.67451 2.79561 -4.18 0.000 -17.2245 -6.124522
experiencia .4479589 .11972 3.74 0.000 .2102846 .6856332
sindicalizado -5.355335 3.812782 -1.40 0.163 -12.92466 2.213995
_cons -14.17366 8.720199 -1.63 0.107 -31.48545 3.13812
Analizando la tabla de los coeficientes eliminamos la variable que indica que el trabajador es
sindicalizado y la constante del modelo, porque el valor p es mayor al 5%.
f. Realice de nuevo el análisis, pero ahora sin las variables independientes que no sean significativas.
. regress salario educación mujer experiencia, noconstant

Source SS df MS Number of obs = 100


F(3, 97) = 180.12
Model 104707.704 3 34902.5682 Prob > F = 0.0000
Residual 18795.7277 97 193.770388 R-squared = 0.8478
Adj R-squared = 0.8431
Total 123503.432 100 1235.03432 Root MSE = 13.92

salario Coef. Std. Err. t P>|t| [95% Conf. Interval]

educación 2.415599 .179849 13.43 0.000 2.058648 2.772549


mujer -11.93966 2.74172 -4.35 0.000 -17.38122 -6.498108
experiencia .2947872 .0897045 3.29 0.001 .1167486 .4728257
Después de eliminar los problemas de multicolinealidad, eliminamos las variables no significativas, el
modelo final es:
2
Y =2.4156 X 1−11.9397 X 2 +0.2948 X 3 ; R =0.8478
Los años de educación tienen efecto sobre el salario del trabajador, por cada año de educación su
salario aumenta en 2415 $US, el género también se incluye en el modelo, si la persona es mujer su
salario reduce en 11940 $US, por cada año de experiencia laboral, el salario aumenta en 295 $US.
g. Elabore un histograma o bien un diagrama de tallo y hojas de los residuos a partir de la ecuación de
regresión final. ¿Es razonable concluir que se cumplió la suposición de normalidad? Trace los residuos
contra los valores ajustados a partir de la ecuación de regresión final, trace los residuos en el eje
vertical y los valores ajustados, en el eje horizontal.
Histograma de los residuos Gráfico de dispersión de puntos
.04

Residuos vs valores pronosticados

60
.03

40
Density

20
residuos
.02

0
.01

-20
-40
0

-40 -20 0 20 40 60 20 30 40 50 60
residuos Salariohat

. swilk residuos

Shapiro-Wilk W test for normal data

Variable Obs W V z Prob>z

residuos 100 0.93116 5.683 3.855 0.00006


No se cumplen dos de los supuestos del modelo de regresión múltiple, los errores no tienen
distribución normal, la varianza de los errores no es la misma, sin embargo, cumplimos el supuesto de
independencia de los errores entre sí.
2. Una compañía, vende productos para techos y recubrimientos de paredes a minoristas en reparación de
casas y a contratistas comerciales. El propietario desea estudiar los efectos de diversas variables sobre el
valor de las tejas americanas vendidas (miles de dólares). El gerente de marketing argumenta que la
compañía debe gastar más dinero en publicidad, en tanto que un investigador de mercado sugiere que se
debe enfocar más en diferenciar su marca y su producto de sus competidores. La compañía dividió a
Estados Unidos en 26 distritos de marketing. En cada distrito reunió información sobre las siguientes
variables: volumen de ventas (en miles de dólares), dólares gastados en publicidad, número de cuentas
activas, número de marcas de competidores y una calificación del potencial del distrito. Realice un análisis
de regresión múltiple para encontrar los mejores factores de predicción de las ventas. Los datos para este
análisis se encuentran en el archivo ventas.
a. Trace un diagrama de dispersión donde se compare el volumen de ventas con cada una de las variables
independientes. Haga un comentario sobre los resultados.

Ventas
(Miles de
dolares)
10
Dólares
5
gastados en
publicidad
(Miles)
0
80
60 Número
de
40 cuentas
20
15
Número
10 de
competidores
5
20
Potencial
10 de
mercado
0
0 200 4000 5 1020 40 60 80 5 10 15

Podemos observar relaciones fuertes con algunas variables por ejemplo el número de competidores
tiene una relación negativa con la venta en miles de dólares a menor número de competidores mayor
número de ventas.
b. Formule una matriz de correlación. ¿Hay algún problema? ¿Hay alguna variable independiente
redundante?
. pwcorr Ventas Publicidad Cuentas competidores Potencial, sig star(5)

Ventas Public~d Cuentas compet~s Potenc~l

Ventas 1.0000

Publicidad 0.1589 1.0000


0.4382

Cuentas 0.7828* 0.1726 1.0000


0.0000 0.3993

competidores -0.8330* -0.0383 -0.3243 1.0000


0.0000 0.8528 0.1060

Potencial 0.4073* -0.0706 0.4682* -0.2021 1.0000


0.0389 0.7319 0.0159 0.3222
La variable independiente redundante seria Potencial puesto que la variable cuentas esta más
relacionada con el número de ventas en miles de dólares.
c. Formule una ecuación de regresión. Realice una prueba global. ¿Se puede concluir que algunas de las
variables independientes son útiles para explicar la variación en la variable dependiente?
Y : Ventas en miles de dólares
X 1 : Dólares gastados en publicidad
X 2 : Número de cuentas
X 3 : Número de competidores
Hipótesis nula: β 1=β 2=β 3=0 Ninguna variable puede usarse para explicar la variación de
las ventas.
Hipótesis alterna: β i ≠ 0 para algún i ; Hay al menos una variable que explica la variación de
las ventas.
La ecuación de regresión múltiple estimada es:
Y =179.8443+ 1.677243 X 1+ 3.369392 X 2−21.21651 X 3
. regress Ventas Cuentas competidores

Source SS df MS Number of obs = 26


F(2, 23) = 918.27
Model 176503.756 2 88251.8781 Prob > F = 0.0000
Residual 2210.44216 23 96.106181 R-squared = 0.9876
Adj R-squared = 0.9866
Total 178714.198 25 7148.56794 Root MSE = 9.8034
Para la ecuación de regresión estimada existen variables omitidas por problemas de multicolinealidad. Uno
de los supuestos del modelo de regresión lineal múltiple es que no deben existir relaciones lineales entre las
variables independientes, si ocurre esto, nos conduce a problemas numéricos. Por lo tanto, no tomamos en
cuenta la variable potencial
Podemos concluir que si puesto que el valor F es de 0.000 por lo tanto concluimos que al menos una de las
variables es significativa.
d. Realice una prueba con cada una de las variables independientes. ¿Hay alguna que se deba eliminar?

Ventas Coefficient Std. err. t P>|t| [95% conf. interval]

Publicidad 1.677243 1.052093 1.59 0.125 -.504665 3.859151


Cuentas 3.369392 .1432307 23.52 0.000 3.07235 3.666435
competidores -21.21651 .7772988 -27.30 0.000 -22.82853 -19.60449
_cons 179.8443 12.62133 14.25 0.000 153.6693 206.0193

Analizando la tabla de los coeficientes eliminamos la variable dólares gastados en publicidad porque el
valor p es mayor al 5%. Y para el análisis no tomamos en cuenta la variable potencial por problemas
de multicolinealidad con la variable cuentas por lo tanto tomamos en cuenta esta variable porque tenía
mayor porcentaje de relación con las ventas.
e. Refine la ecuación de regresión de modo que las variables restantes sean significativas.
. regress Ventas Cuentas competidores

Source SS df MS Number of obs = 26


F(2, 23) = 918.27
Model 176503.756 2 88251.8781 Prob > F = 0.0000
Residual 2210.44216 23 96.106181 R-squared = 0.9876
Adj R-squared = 0.9866
Total 178714.198 25 7148.56794 Root MSE = 9.8034

Ventas Coefficient Std. err. t P>|t| [95% conf. interval]

Cuentas 3.408077 .1458137 23.37 0.000 3.106439 3.709716


competidores -21.19296 .8027788 -26.40 0.000 -22.85364 -19.53229
_cons 186.694 12.25869 15.23 0.000 161.335 212.053

Después de eliminar los problemas de multicolinealidad, eliminamos las variables no significativas, el


modelo final es:
Y : Ventas en miles de dólares
X 1 : Dólares gastados en publicidad
X 2 : Número de cuentas
X 3 : Número de competidores

Y =186.69+ 3.48 X 2−21.19296 X 3


En el modelo podemos encontrar que por cada número de cuentas adicional las ventas se
incrementarán en 3480 dólares mientras que por cada de competidor adicional las ventas se reducirán
en 21192.96 dólares.

Percent
40

30

20

10
Calcule una nueva variable de los residuos: e i= y i− ^yi . Elabore un histograma de los residuos y

0
f.
realice una prueba de normalidad. ¿Hay algún problema?

-20 -10 0 10 20
Residuo

Prueba de Normalidad:
H0: La distribución del residuo es normal
H1: La distribución del residuo no es normal.
. swilk Residuo

Shapiro–Wilk W test for normal data

Variable Obs W V z Prob>z

Residuo 26 0.98938 0.304 -2.441 0.99268

No hay ningún problema, por lo tanto, vemos que los residuos tienen una distribución normal.
g. Mediante un gráfico de dispersión de puntos entre los valores ajustados ^
y i (Eje X) y los residuos e i
-10

-20
20

10

(Eje Y), analice la varianza de los residuos. ¿Hay algún problema? Analizar también la independencia
0

de los residuos.

0 100 200 300 400


Predicción

Residuo Fitted values

Hay un problema ya que la varianza de los errores no es igual, pero los errores sin son independientes.
3. Consulte los datos del Century National Bank. Utilice el saldo de cuentas de cheques como variable
dependiente y, como variables independientes, el número de transacciones en cajeros automáticos, el
número de otros servicios empleados, si el individuo tiene tarjeta de crédito y si se paga interés en la cuenta
en particular; indique en un reporte qué variables parecen relacionarse con el saldo de la cuenta y si
explican bien la variación de los saldos de las cuentas. ¿Se deben emplear todas las variables propuestas en
el análisis, o se pueden eliminar algunas? Escriba una ecuación de regresión final, e interprete los
coeficientes de la ecuación.
Variables
x1: Saldo en cuenta
x2: Número de operaciones en cajero automático en el mes
x3: Número de otros servicios bancarios utilizados
x4: Tiene tarjeta de crédito (1= sí, 0 = no)
x5: Recibe intereses sobre la cuenta (1 = sí, 0 = no)
x6: Ciudad donde se abrió la cuenta
60 cuentas
Source SS df MS Number of obs = 60
F(5, 54) = 12.51
Model
La ecuación 9288886.03
de regresión múltiple estimada5 es:1857777.21 Prob > F = 0.0000
Residual 8019656.9 54 148512.165 R-squared = 0.5367
Y =419.7132+80.61497 X 1 Adj R-squared = 0.4938
80.61497 : Por cada
Total operación en cajero
17308542.9 59 automático el saldo
293365.134 de cuenta
Root MSE se incrementa
= en 80.61 dólares.
385.37
Variables que pueden influir:

Saldo Coefficient Std. err. t P>|t| [95% conf. interval]

operaciones 80.61497 12.04626 6.69 0.000 56.46367 104.7663


servicios 54.49969 27.42356 1.99 0.052 -.4812403 109.4806
Tarjeta 67.56977 105.2219 0.64 0.523 -143.3874 278.527
Interes 143.2077 116.0661 1.23 0.223 -89.49086 375.9062
Cuidad -5.31528 46.96306 -0.11 0.910 -99.47055 88.83999
_cons 419.7132 183.1389 2.29 0.026 52.54193 786.8845

Con un valor R2 DE 0.5367%

Saldo operac~s servic~s

Saldo 1.0000

operaciones 0.6936* 1.0000


0.0000

servicios 0.3550* 0.2265 1.0000


0.0054 0.0818

No existen problemas de multicolinealidad entre variables y confirmamos que ambas variables numéricas están
relacionadas con Saldo en cuentas de cheques.

Hipótesis nula: β 1=0 Ninguna variable puede usarse para explicar la variación del salario.
Hipótesis alterna: β i ≠ 0 para algún i ; Hay al menos una variable que explica la variación del salario.
El valor p de la prueba es 0, (valor p pequeño RHo) por lo tanto, rechazamos la hipótesis nula y aceptamos que hay
por lo menos una variable de las seleccionadas que puede explicar la variabilidad del saldo en cuentas.
Source SS df MS Number of obs = 60
F(5, 54) = 12.51
Model 9288886.03 5 1857777.21 Prob > F = 0.0000
Residual 8019656.9 54 148512.165 R-squared = 0.5367
Adj R-squared = 0.4938
Total 17308542.9 59 293365.134 Root MSE = 385.37

Saldo Coefficient Std. err. t P>|t| [95% conf. interval]

operaciones 80.61497 12.04626 6.69 0.000 56.46367 104.7663


servicios 54.49969 27.42356 1.99 0.052 -.4812403 109.4806
Tarjeta 67.56977 105.2219 0.64 0.523 -143.3874 278.527
Interes 143.2077 116.0661 1.23 0.223 -89.49086 375.9062
Cuidad -5.31528 46.96306 -0.11 0.910 -99.47055 88.83999
_cons 419.7132 183.1389 2.29 0.026 52.54193 786.8845

Analizando la tabla de los coeficientes eliminamos la variable que indica que el trabajador es sindicalizado y la
constante del modelo, porque el valor p es mayor al 5%.
Hipótesis nula: β 0=0
Hipótesis alterna: β 0 ≠ 0
El valor p de la prueba 0.026, rechazamos Ho, por lo tanto, el modelo tiene constante.
Hipótesis nula: β 1=0
Hipótesis alterna: β 1 ≠ 0
El valor p de la prueba 0.000, rechazamos Ho, por lo tanto, la variable operaciones debe incluirse en el
modelo.
Hipótesis nula: β 2=0
Hipótesis alterna: β 2 ≠ 0
El valor p de la prueba 0.052, no rechazamos Ho, por lo tanto, la variable “Servicios” no debe incluirse
en el modelo.
Hipótesis nula: β 3=0
Hipótesis alterna: β 3 ≠ 0
El valor p de la prueba 0.523, no rechazamos Ho, por lo tanto, la variable “Tarjeta” no debe incluirse
en el modelo.
Hipótesis nula: β 4 =0
Hipótesis alterna: β 4 ≠ 0
El valor p de la prueba 0.223, no rechazamos Ho, por lo tanto, la variable “interés” no debe incluirse
en el modelo.
Hipótesis nula: β 5=0
Hipótesis nula: β 5 ≠ 0
El valor p de la prueba 0.910 no rechazamos Ho, por lo tanto, la variable “Cuidad” no debe incluirse
en el modelo.
Realice de nuevo el análisis, pero ahora sin las variables independientes que no sean significativas.
. regress Saldo operaciones

Source SS df MS Number of obs = 60


F(1, 58) = 53.76
Model 8326038.45 1 8326038.45 Prob > F = 0.0000
Residual 8982504.49 58 154870.767 R-squared = 0.4810
Adj R-squared = 0.4721
Total 17308542.9 59 293365.134 Root MSE = 393.54

Saldo Coefficient Std. err. t P>|t| [95% conf. interval]

operaciones 87.45508 11.92753 7.33 0.000 63.57953 111.3306


_cons 644.6793 132.9443 4.85 0.000 378.5625 910.7962

Después de eliminar los problemas de multicolinealidad, eliminamos las variables no significativas, el


modelo final es:
2
Y =644.6793+87.45508 X 1 R =0.4810
Por cada operación en cajero automático el saldo de cuenta se incrementa en 87.455 dólares.
-1000
Percent

1000

residuo

-500
500
25

20

15

10

0
-1000 -500 0 500 1000 0 500 1000 1500 2000 2500
Histograma del residuo saldo en cuenta de cheques

Shapiro–Wilk W test for normal data

Variable Obs W V z Prob>z

residuo 60 0.98888 0.605 -1.084 0.86090

Podríamos ver que la varianza de los errores es aproximadamente igual, pero los errores no parecen ser
independientes, con una distribución normal.

También podría gustarte