Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Consulte los datos Wage, donde se reporta información sobre los salarios anuales de una muestra de 100
trabajadores. También se incluyen variables relacionadas con la industria, los años de educación y el género
de cada trabajador. Determine la ecuación de regresión con el salario anual como variable dependiente y los
años de educación, género, años de experiencia laboral, edad en años y si el trabajador es miembro o no
de un sindicato.
a. Escriba la ecuación de regresión. Haga un comentario sobre cada una de las variables.
Sean las variables
Y : Salario anual de los trabajadores miles de dólares
X 1 : Años de educación
X 2 : Genero 1=Mujer 0=Varón
X 3 : Años de experiencia laboral
X 4 : Edad del trabajador
X 5 :Si el trabajador es miembro de un sindicato 1= Sindicalizado; 0= no es sindicalizado
La ecuación de regresión múltiple estimada es:
Y =−14.17+3.33 X 1−11.67 X 2 +0.45 X 3 −5.36 X 5
3.33 : Por cada año de educación el salario aumenta en 3330 $us
−11.67 : Las mujeres en promedio tienen salarios menores a los salarios anuales de los varones en
promedio, 11670 $US menos.
0.45: Por cada de experiencia laboral el salario del trabajador aumenta en 450 $US
−5.36 : Los trabajadores sindicalizados ganan en promedio 5360 $US menos que los trabajadores no
sindicalizados.
salario Coef. Std. Err. t P>|t| [95% Conf. Interval]
Para la ecuación de regresión estimada existen variables omitidas por problemas de multicolinealidad. Uno
de los supuestos del modelo de regresión lineal múltiple es que no deben existir relaciones lineales entre las
variables independientes, si ocurre esto, nos conduce a problemas numéricos.
b. Determine e interprete el valor R2.
2
R =0.3656
El modelo propuesto explica el 36.56% de la variabilidad de los salarios.
c. Elabore una matriz de correlación. ¿Qué variables independientes numéricas tienen correlaciones
fuertes o débiles con la variable dependiente? ¿Detecta algunos problemas con la multicolinealidad?
. pwcorr salario educación experiencia edad, sig star(5)
salario 1.0000
Consideramos que hay una relación lineal entre las variables si el coeficiente de correlación de Pearson
2
es mayor en valor absoluto a =0.2.
√n
Observamos que entre la experiencia y la edad existe una relación lineal casi perfecta, esto nos
conduce a problemas numéricos, y debemos eliminar una de las variables.
Eliminamos la variable edad en nuestro modelo de regresión.
d. Realice una prueba global de hipótesis en el conjunto de variables independientes. Interprete sus
resultados. ¿Es razonable continuar el análisis o debería detenerse en este punto?
Modelo: Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 5 X 5
. regress salario educación mujer experiencia sindicalizado
Hipótesis nula: β 1=β 2=β 3=β 5=0 Ninguna variable puede usarse para explicar la
variación del salario.
Hipótesis alterna: β i ≠ 0 para algún i ; Hay al menos una variable que explica la variación del
salario.
El valor p de la prueba es 0, (valor p pequeño RHo) por lo tanto, rechazamos la hipótesis nula y
aceptamos que hay por lo menos una variable de las seleccionadas que puede explicar la variabilidad
del salario.
e. Realice una prueba de hipótesis con cada una de las variables independientes. ¿Consideraría
eliminar algunas de estas variables? Si es así, ¿cuáles?
Hipótesis nula: β 0=0
Hipótesis alterna: β 0 ≠ 0
El valor p de la prueba 0.107, no rechazamos Ho, por lo tanto, el modelo no tiene constante.
Hipótesis nula: β 1=0
Hipótesis alterna: β 1 ≠ 0
El valor p de la prueba 0.000, si rechazamos Ho, por lo tanto, la variable “años de educación” debe
incluirse en el modelo.
Hipótesis nula: β 2=0
Hipótesis alterna: β 2 ≠ 0
El valor p de la prueba 0.000, si rechazamos Ho, por lo tanto, la variable “género” debe incluirse en el
modelo.
Hipótesis nula: β 3=0
Hipótesis alterna: β 3 ≠ 0
El valor p de la prueba 0.000, si rechazamos Ho, por lo tanto, la variable “experiencia laboral” debe
incluirse en el modelo.
Hipótesis nula: β 5=0
Hipótesis nula: β 5 ≠ 0
El valor p de la prueba 0.163, no rechazamos Ho, por lo tanto, la variable “sindicalizado” no debe
incluirse en el modelo.
60
.03
40
Density
20
residuos
.02
0
.01
-20
-40
0
-40 -20 0 20 40 60 20 30 40 50 60
residuos Salariohat
. swilk residuos
Ventas
(Miles de
dolares)
10
Dólares
5
gastados en
publicidad
(Miles)
0
80
60 Número
de
40 cuentas
20
15
Número
10 de
competidores
5
20
Potencial
10 de
mercado
0
0 200 4000 5 1020 40 60 80 5 10 15
Podemos observar relaciones fuertes con algunas variables por ejemplo el número de competidores
tiene una relación negativa con la venta en miles de dólares a menor número de competidores mayor
número de ventas.
b. Formule una matriz de correlación. ¿Hay algún problema? ¿Hay alguna variable independiente
redundante?
. pwcorr Ventas Publicidad Cuentas competidores Potencial, sig star(5)
Ventas 1.0000
Analizando la tabla de los coeficientes eliminamos la variable dólares gastados en publicidad porque el
valor p es mayor al 5%. Y para el análisis no tomamos en cuenta la variable potencial por problemas
de multicolinealidad con la variable cuentas por lo tanto tomamos en cuenta esta variable porque tenía
mayor porcentaje de relación con las ventas.
e. Refine la ecuación de regresión de modo que las variables restantes sean significativas.
. regress Ventas Cuentas competidores
Percent
40
30
20
10
Calcule una nueva variable de los residuos: e i= y i− ^yi . Elabore un histograma de los residuos y
0
f.
realice una prueba de normalidad. ¿Hay algún problema?
-20 -10 0 10 20
Residuo
Prueba de Normalidad:
H0: La distribución del residuo es normal
H1: La distribución del residuo no es normal.
. swilk Residuo
No hay ningún problema, por lo tanto, vemos que los residuos tienen una distribución normal.
g. Mediante un gráfico de dispersión de puntos entre los valores ajustados ^
y i (Eje X) y los residuos e i
-10
-20
20
10
(Eje Y), analice la varianza de los residuos. ¿Hay algún problema? Analizar también la independencia
0
de los residuos.
Hay un problema ya que la varianza de los errores no es igual, pero los errores sin son independientes.
3. Consulte los datos del Century National Bank. Utilice el saldo de cuentas de cheques como variable
dependiente y, como variables independientes, el número de transacciones en cajeros automáticos, el
número de otros servicios empleados, si el individuo tiene tarjeta de crédito y si se paga interés en la cuenta
en particular; indique en un reporte qué variables parecen relacionarse con el saldo de la cuenta y si
explican bien la variación de los saldos de las cuentas. ¿Se deben emplear todas las variables propuestas en
el análisis, o se pueden eliminar algunas? Escriba una ecuación de regresión final, e interprete los
coeficientes de la ecuación.
Variables
x1: Saldo en cuenta
x2: Número de operaciones en cajero automático en el mes
x3: Número de otros servicios bancarios utilizados
x4: Tiene tarjeta de crédito (1= sí, 0 = no)
x5: Recibe intereses sobre la cuenta (1 = sí, 0 = no)
x6: Ciudad donde se abrió la cuenta
60 cuentas
Source SS df MS Number of obs = 60
F(5, 54) = 12.51
Model
La ecuación 9288886.03
de regresión múltiple estimada5 es:1857777.21 Prob > F = 0.0000
Residual 8019656.9 54 148512.165 R-squared = 0.5367
Y =419.7132+80.61497 X 1 Adj R-squared = 0.4938
80.61497 : Por cada
Total operación en cajero
17308542.9 59 automático el saldo
293365.134 de cuenta
Root MSE se incrementa
= en 80.61 dólares.
385.37
Variables que pueden influir:
Saldo 1.0000
No existen problemas de multicolinealidad entre variables y confirmamos que ambas variables numéricas están
relacionadas con Saldo en cuentas de cheques.
Hipótesis nula: β 1=0 Ninguna variable puede usarse para explicar la variación del salario.
Hipótesis alterna: β i ≠ 0 para algún i ; Hay al menos una variable que explica la variación del salario.
El valor p de la prueba es 0, (valor p pequeño RHo) por lo tanto, rechazamos la hipótesis nula y aceptamos que hay
por lo menos una variable de las seleccionadas que puede explicar la variabilidad del saldo en cuentas.
Source SS df MS Number of obs = 60
F(5, 54) = 12.51
Model 9288886.03 5 1857777.21 Prob > F = 0.0000
Residual 8019656.9 54 148512.165 R-squared = 0.5367
Adj R-squared = 0.4938
Total 17308542.9 59 293365.134 Root MSE = 385.37
Analizando la tabla de los coeficientes eliminamos la variable que indica que el trabajador es sindicalizado y la
constante del modelo, porque el valor p es mayor al 5%.
Hipótesis nula: β 0=0
Hipótesis alterna: β 0 ≠ 0
El valor p de la prueba 0.026, rechazamos Ho, por lo tanto, el modelo tiene constante.
Hipótesis nula: β 1=0
Hipótesis alterna: β 1 ≠ 0
El valor p de la prueba 0.000, rechazamos Ho, por lo tanto, la variable operaciones debe incluirse en el
modelo.
Hipótesis nula: β 2=0
Hipótesis alterna: β 2 ≠ 0
El valor p de la prueba 0.052, no rechazamos Ho, por lo tanto, la variable “Servicios” no debe incluirse
en el modelo.
Hipótesis nula: β 3=0
Hipótesis alterna: β 3 ≠ 0
El valor p de la prueba 0.523, no rechazamos Ho, por lo tanto, la variable “Tarjeta” no debe incluirse
en el modelo.
Hipótesis nula: β 4 =0
Hipótesis alterna: β 4 ≠ 0
El valor p de la prueba 0.223, no rechazamos Ho, por lo tanto, la variable “interés” no debe incluirse
en el modelo.
Hipótesis nula: β 5=0
Hipótesis nula: β 5 ≠ 0
El valor p de la prueba 0.910 no rechazamos Ho, por lo tanto, la variable “Cuidad” no debe incluirse
en el modelo.
Realice de nuevo el análisis, pero ahora sin las variables independientes que no sean significativas.
. regress Saldo operaciones
1000
residuo
-500
500
25
20
15
10
0
-1000 -500 0 500 1000 0 500 1000 1500 2000 2500
Histograma del residuo saldo en cuenta de cheques
Podríamos ver que la varianza de los errores es aproximadamente igual, pero los errores no parecen ser
independientes, con una distribución normal.