Inferencia en El Modelo de Regresión

INFERENCIA EN EL MODELO DE REGRESIÓN DOS VARIABLES
CUANTITATIVAS.
a. Escribe el modelo de regresión lineal que explique el salario actual en
función del inicial.
Salida R:
Call:
lm(formula = salario ~ salini, data = empleados)
Residuals:
Min 1Q Median 3Q Max
-35424 -4031 -1154 2584 49293
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.928e+03 8.887e+02 2.17 0.0305 *
salini 1.909e+00 4.741e-02 40.28 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 8115 on 472 degrees of freedom
Multiple R-squared: 0.7746, Adjusted R-squared: 0.7741
F-statistic: 1622 on 1 and 472 DF, p-value: < 2.2e-16
Modelo de regresión lineal es : Y = 1.928e+03 + 1.909e+00X + E
b. Con los datos muestrales haz un análisis gráfico para ver si tiene sentido el
modelo.
[ GRÁFICO ]
80000 100000 120000
s a la rio
60000
40000
20000
1 00 0 0 20 0 00 3 00 00 4 00 0 0 50 0 00 6 0 000 7 000 0 8 00 00
s a li n i
c. Si crees que tiene sentido, estima el modelo con los datos muestrales.
Para la estimación, se ha escogido el caso Nº 1 (ID=253), que corresponde a una mujer con un
salario inicial de 10.200 dólares (X) y un salario actual de 17.100 dólares (Y).
Y = 1.928e+03 + 1.909e+00 (x10.200)
d. Escribe la hipótesis del contraste del ajuste del modelo.
H0: R2 poblacional= 0 ; No hay regresión, parte de la variancia de Y que puede explicarse

mediante X a través del modelo es 0%
H1: Si hay regresión, parte de la varianza de Y puede ser explicada por X
Observando el P valor de X(<2e-16 ***), rechazamos H0, y decimos que parte de la varianza de
Y puede ser explicada por X significativamente.
Por otro lado la Adjusted R-squared (0.7741 ), nos indique que el 77% de la varianza de Y
puede ser explicada por X.
e. Obtén el intervalo de confianza al 99% para los parámetros del modelo
Salida R:
Estimate 0.5 % 99.5 %
(Intercept) 1928.20576 -370.174051 4226.585565
salini 1.90945 1.786835 2.032065
Límite superior del intercepto es -370.17 y el líimite superior es de 4226.58. Para el salario
inicial, el límite inferior es de 1.79 y el superior es de 2.03
f. Escribe la hipótesis de ausencia de pendiente en el modelo, y resuélvelo
H0: No hay pendiente
H1: Hay pendiente
Salida R:
Hypothesis:
salini = 0
Model 1: restricted model
Model 2: salario ~ salini
Note: Coefficient covariance matrix supplied.
Res.Df Df F Pr(>F)
1 473
2 472 1 389.24 < 2.2e-16 ***
La prueba da a conocer un valor p < 0.001 (2.2e-16), por lo que se rechaza H0 y se concluye
que existe una pendiente para la variable salario.
g. Busca un modelo que tenga sentido
EDAD (X)
SALARIO (Y)
Call:
lm(formula = salario ~ Edad, data = empleados)

Residuals:
Min 1Q Median 3Q Max
-18958 -10174 -5775 2696 103200
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 42211.09 2615.24 16.14 < 2e-16 ***
Edad -204.13 65.42 -3.12 0.00192 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 16920 on 472 degrees of freedom
Multiple R-squared: 0.02021, Adjusted R-squared: 0.01813
F-statistic: 9.736 on 1 and 472 DF, p-value: 0.001918
*Atendiendo al p valor podemos decir que X explica significativamente la varianza de Y. Sin

embargo, observando el R2 ajustado, este modelo sólo explicaría el 1%.
Modelo:
Salario (Y estimada)= Intercepto ( 42211.09)+ -204.1*edad(x)+e
• Aunque pueda no tener mucho sentido, el gráfico si muestra cierta regresión negativa:
Gráfico:
120000
20000 40000 60000 80000
s a la rio
0 10 20 30 40 50 60
E dad
Estimaremos el modelo de acuerdo a un caso de los datos muestrales:
Salario (Y estimada)= Intercepto ( 42211.09)+ -204.1*edad(x)+e
Se ha escogido el caso Nº 1 (ID=253), que corresponde a una mujer con una edad de 53 años y
un salario actual de 17100 dólares.
El cálculo quedaría de este modo:
(salario estimado) 31393,79= 42211.09+ (-204.1*53)
Hipótesis de la ausencia de pendiente en el modelo.
H0: No hay pendiente
H1: Hay pendiente
Linear hypothesis test
Hypothesis:
Edad = 0
Model 1: restricted model
Model 2: salario ~ Edad
Res.Df RSS Df Sum of Sq F Pr(>F)
1 473 1.3792e+11
2 472 1.3513e+11 1 2787270984 9.7358 0.001918 **
Atendiendo al P valor, rechazamos H0, y concluimos que si hay pendiente.
3. Contrastes para variables cualitativas:

1. Contraste de independencia: estudia la independencia entre el estado civil y la
residencia.
H0: hay independencia entre el estado civil y la residencia.
H1: no hay independencia.

Frequency table:
Residencia
ESTADO campo ciudad suburbio otros
Casado 5 27 16 2
Soltero 58 185 101 6
Pearson's Chi-squared test
data: .Table
X-squared = 2.5009, df = 3, p-value = 0.4751
Atendiendo al P valor (0.4751), mayor que 0.05, y a X-squared que tiene un valor muestral de
2.5009 (valor no muy lejano de 0 ) no se rechaza H0, y se concluye que hay independencia
entre las dos variables.
2. Contraste de homogeneidad: estudia si la variable estado civil es la misma para todos
los niveles de estatura.
H0: si la variable estado civil tienen una distribución homogénea en los distintos niveles de
estatura.
H1: no tienen una distribución homogénea

Frequency table:
niv_estatura
estado baja normal alta
C 0 38 12
S 1 280 69
Row percentages:
niv_estatura
estado baja normal alta Total Count
C 0.0 76 24.0 100 50
S 0.3 80 19.7 100 350
data: .Table
Atendiendo a X-squared = 0.62773 (cercana a 0) y a un p valor de 0.73 no podemos rechazar H0

y por lo tanto conluimos que la variable estado civil tiene una distribución homogenea.
3. Contraste de ajuste: estudia si puede creerse que la variable estado civil mantiene
estas proporciones: 30% solteros y un 60% casados.
counts:
estado
C S
50 350
percentages:
estado
C S
12.5 87.5
Chi-squared test for given probabilities
data: .Table
X-squared = 528.13, df = 1, p-value < 2.2e-16
Atendiendo al p valor (menor que 0.05) y a la x-squared (528.13, muy alejada de 0) que nos
arroja el test para las posibilidades dadas podemos rechazar esta hipótesis. NOTA (al meter
esos porcentajes, como no suman 1 r commander te lanza el siguiente aviso “AVISO:
Probabilidades escaladas para sumar 1.”)
4. Contrasta hipótesis como las anteriores que tengan sentido en el archivo de datos
“trabajo.rda”.
Contraste de independencia: estudia la independencia entre minoría étnica y sexo.
H0: hay independencia
H1: no hay independencia.

Frequency table:
minoría
sexo minoría_étnica no minoría
hombre 64 194
mujer 40 176
data: .Table
Atendiendo al p valor (mayor que 0.05) y a x-squared (2,71, no muy alejada de 0) no podemos
rechazar h0 y concluimos que hay independencia entre las variables.
Al solo poder establecer esta relación entre variables cualitativas en ese conjunto de datos, los
resultados del contraste de homogeneidad, darian unos resultados similares.
-Contraste de ajuste: estudia si puede creerse que la variable sexo mantiene estas proporciones
20% mujeres 80% hombres:
counts:
sexo
hombre mujer
258 216
percentages:
sexo
hombre mujer
54.43 45.57
Chi-squared test for given probabilities
data: .Table
X-squared = 193.69, df = 1, p-value < 2.2e-16
Atendiendo a lo arrojado, x-squared de 193.69 (muy alejada de 0) y un p valor menor que 0.05
podemos descartar la hipótesis planteada.

Inferencia en El Modelo de Regresión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inferencia en El Modelo de Regresión

Cargado por

Copyright:

Formatos disponibles

INFERENCIA EN EL MODELO DE REGRESIÓN DOS VARIABLES

lm(formula = salario ~ salini, data = empleados)

Min 1Q Median 3Q Max

-35424 -4031 -1154 2584 49293

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.928e+03 8.887e+02 2.17 0.0305 *

salini 1.909e+00 4.741e-02 40.28 <2e-16 ***

Residual standard error: 8115 on 472 degrees of freedom

Multiple R-squared: 0.7746, Adjusted R-squared: 0.7741

F-statistic: 1622 on 1 and 472 DF, p-value: < 2.2e-16

Modelo de regresión lineal es : Y = 1.928e+03 + 1.909e+00X + E

Y = 1.928e+03 + 1.909e+00 (x10.200)

d. Escribe la hipótesis del contraste del ajuste del modelo.

H0: R2 poblacional= 0 ; No hay regresión, parte de la variancia de Y que puede explicarse

H1: Si hay regresión, parte de la varianza de Y puede ser explicada por X

e. Obtén el intervalo de confianza al 99% para los parámetros del modelo

(Intercept) 1928.20576 -370.174051 4226.585565

salini 1.90945 1.786835 2.032065

f. Escribe la hipótesis de ausencia de pendiente en el modelo, y resuélvelo

H0: No hay pendiente

H1: Hay pendiente

Model 1: restricted model

Model 2: salario ~ salini

Note: Coefficient covariance matrix supplied.

2 472 1 389.24 < 2.2e-16 ***

g. Busca un modelo que tenga sentido

lm(formula = salario ~ Edad, data = empleados)

Min 1Q Median 3Q Max

-18958 -10174 -5775 2696 103200

Estimate Std. Error t value Pr(>|t|)

(Intercept) 42211.09 2615.24 16.14 < 2e-16 ***

Edad -204.13 65.42 -3.12 0.00192 **

Residual standard error: 16920 on 472 degrees of freedom

Multiple R-squared: 0.02021, Adjusted R-squared: 0.01813

F-statistic: 9.736 on 1 and 472 DF, p-value: 0.001918

*Atendiendo al p valor podemos decir que X explica significativamente la varianza de Y. Sin

Salario (Y estimada)= Intercepto ( 42211.09)+ -204.1*edad(x)+e

Estimaremos el modelo de acuerdo a un caso de los datos muestrales:

Salario (Y estimada)= Intercepto ( 42211.09)+ -204.1*edad(x)+e

El cálculo quedaría de este modo:

(salario estimado) 31393,79= 42211.09+ (-204.1*53)

Hipótesis de la ausencia de pendiente en el modelo.

H0: No hay pendiente

H1: Hay pendiente

Linear hypothesis test

Model 1: restricted model

Model 2: salario ~ Edad

Res.Df RSS Df Sum of Sq F Pr(>F)

2 472 1.3513e+11 1 2787270984 9.7358 0.001918 **

Atendiendo al P valor, rechazamos H0, y concluimos que si hay pendiente.

3. Contrastes para variables cualitativas:

H0: hay independencia entre el estado civil y la residencia.

H1: no hay independencia.

Pearson's Chi-squared test

H1: no tienen una distribución homogénea

Pearson's Chi-squared test

Atendiendo a X-squared = 0.62773 (cercana a 0) y a un p valor de 0.73 no podemos rechazar H0

Chi-squared test for given probabilities

Contraste de independencia: estudia la independencia entre minoría étnica y sexo.

H0: hay independencia

H1: no hay independencia.

Pearson's Chi-squared test

Chi-squared test for given probabilities