Está en la página 1de 9

INFERENCIA EN EL MODELO DE REGRESIÓN DOS VARIABLES

CUANTITATIVAS.
a. Escribe el modelo de regresión lineal que explique el salario actual en
función del inicial.

Salida R:

Call:

lm(formula = salario ~ salini, data = empleados)

Residuals:

Min 1Q Median 3Q Max

-35424 -4031 -1154 2584 49293

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.928e+03 8.887e+02 2.17 0.0305 *

salini 1.909e+00 4.741e-02 40.28 <2e-16 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8115 on 472 degrees of freedom

Multiple R-squared: 0.7746, Adjusted R-squared: 0.7741

F-statistic: 1622 on 1 and 472 DF, p-value: < 2.2e-16

Modelo de regresión lineal es : Y = 1.928e+03 + 1.909e+00X + E

b. Con los datos muestrales haz un análisis gráfico para ver si tiene sentido el
modelo.

[ GRÁFICO ]
80000 100000 120000
s a la rio

60000
40000
20000

1 00 0 0 20 0 00 3 00 00 4 00 0 0 50 0 00 6 0 000 7 000 0 8 00 00

s a li n i

c. Si crees que tiene sentido, estima el modelo con los datos muestrales.

Para la estimación, se ha escogido el caso Nº 1 (ID=253), que corresponde a una mujer con un
salario inicial de 10.200 dólares (X) y un salario actual de 17.100 dólares (Y).

Y = 1.928e+03 + 1.909e+00 (x10.200)

d. Escribe la hipótesis del contraste del ajuste del modelo.

H0: R2 poblacional= 0 ; No hay regresión, parte de la variancia de Y que puede explicarse


mediante X a través del modelo es 0%

H1: Si hay regresión, parte de la varianza de Y puede ser explicada por X

Observando el P valor de X(<2e-16 ***), rechazamos H0, y decimos que parte de la varianza de
Y puede ser explicada por X significativamente.

Por otro lado la Adjusted R-squared (0.7741 ), nos indique que el 77% de la varianza de Y
puede ser explicada por X.

e. Obtén el intervalo de confianza al 99% para los parámetros del modelo

Salida R:
Estimate 0.5 % 99.5 %

(Intercept) 1928.20576 -370.174051 4226.585565

salini 1.90945 1.786835 2.032065

Límite superior del intercepto es -370.17 y el líimite superior es de 4226.58. Para el salario
inicial, el límite inferior es de 1.79 y el superior es de 2.03

f. Escribe la hipótesis de ausencia de pendiente en el modelo, y resuélvelo

H0: No hay pendiente

H1: Hay pendiente

Salida R:

Hypothesis:

salini = 0

Model 1: restricted model

Model 2: salario ~ salini

Note: Coefficient covariance matrix supplied.

Res.Df Df F Pr(>F)

1 473

2 472 1 389.24 < 2.2e-16 ***

La prueba da a conocer un valor p < 0.001 (2.2e-16), por lo que se rechaza H0 y se concluye
que existe una pendiente para la variable salario.

g. Busca un modelo que tenga sentido

EDAD (X)

SALARIO (Y)

Call:

lm(formula = salario ~ Edad, data = empleados)


Residuals:

Min 1Q Median 3Q Max

-18958 -10174 -5775 2696 103200

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 42211.09 2615.24 16.14 < 2e-16 ***

Edad -204.13 65.42 -3.12 0.00192 **

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16920 on 472 degrees of freedom

Multiple R-squared: 0.02021, Adjusted R-squared: 0.01813

F-statistic: 9.736 on 1 and 472 DF, p-value: 0.001918

*Atendiendo al p valor podemos decir que X explica significativamente la varianza de Y. Sin


embargo, observando el R2 ajustado, este modelo sólo explicaría el 1%.

Modelo:

Salario (Y estimada)= Intercepto ( 42211.09)+ -204.1*edad(x)+e

• Aunque pueda no tener mucho sentido, el gráfico si muestra cierta regresión negativa:

Gráfico:
120000
20000 40000 60000 80000
s a la rio

0 10 20 30 40 50 60

E dad

Estimaremos el modelo de acuerdo a un caso de los datos muestrales:

Salario (Y estimada)= Intercepto ( 42211.09)+ -204.1*edad(x)+e

Se ha escogido el caso Nº 1 (ID=253), que corresponde a una mujer con una edad de 53 años y
un salario actual de 17100 dólares.

El cálculo quedaría de este modo:

(salario estimado) 31393,79= 42211.09+ (-204.1*53)

Hipótesis de la ausencia de pendiente en el modelo.

H0: No hay pendiente

H1: Hay pendiente

Linear hypothesis test

Hypothesis:
Edad = 0

Model 1: restricted model

Model 2: salario ~ Edad

Res.Df RSS Df Sum of Sq F Pr(>F)

1 473 1.3792e+11

2 472 1.3513e+11 1 2787270984 9.7358 0.001918 **

Atendiendo al P valor, rechazamos H0, y concluimos que si hay pendiente.

3. Contrastes para variables cualitativas:


1. Contraste de independencia: estudia la independencia entre el estado civil y la
residencia.

H0: hay independencia entre el estado civil y la residencia.

H1: no hay independencia.


Frequency table:
Residencia
ESTADO campo ciudad suburbio otros
Casado 5 27 16 2
Soltero 58 185 101 6

Pearson's Chi-squared test

data: .Table
X-squared = 2.5009, df = 3, p-value = 0.4751

Atendiendo al P valor (0.4751), mayor que 0.05, y a X-squared que tiene un valor muestral de
2.5009 (valor no muy lejano de 0 ) no se rechaza H0, y se concluye que hay independencia
entre las dos variables.
2. Contraste de homogeneidad: estudia si la variable estado civil es la misma para todos
los niveles de estatura.

H0: si la variable estado civil tienen una distribución homogénea en los distintos niveles de
estatura.

H1: no tienen una distribución homogénea


Frequency table:
niv_estatura
estado baja normal alta
C 0 38 12
S 1 280 69

Row percentages:
niv_estatura
estado baja normal alta Total Count
C 0.0 76 24.0 100 50
S 0.3 80 19.7 100 350

Pearson's Chi-squared test

data: .Table
X-squared = 0.62773, df = 2, p-value = 0.7306

Atendiendo a X-squared = 0.62773 (cercana a 0) y a un p valor de 0.73 no podemos rechazar H0


y por lo tanto conluimos que la variable estado civil tiene una distribución homogenea.

3. Contraste de ajuste: estudia si puede creerse que la variable estado civil mantiene
estas proporciones: 30% solteros y un 60% casados.
counts:
estado
C S
50 350

percentages:
estado
C S
12.5 87.5

Chi-squared test for given probabilities

data: .Table
X-squared = 528.13, df = 1, p-value < 2.2e-16

Atendiendo al p valor (menor que 0.05) y a la x-squared (528.13, muy alejada de 0) que nos
arroja el test para las posibilidades dadas podemos rechazar esta hipótesis. NOTA (al meter
esos porcentajes, como no suman 1 r commander te lanza el siguiente aviso “AVISO:
Probabilidades escaladas para sumar 1.”)

4. Contrasta hipótesis como las anteriores que tengan sentido en el archivo de datos
“trabajo.rda”.

Contraste de independencia: estudia la independencia entre minoría étnica y sexo.

H0: hay independencia

H1: no hay independencia.


Frequency table:
minoría
sexo minoría_étnica no minoría
hombre 64 194
mujer 40 176

Pearson's Chi-squared test

data: .Table
X-squared = 2.7139, df = 1, p-value = 0.09948

Atendiendo al p valor (mayor que 0.05) y a x-squared (2,71, no muy alejada de 0) no podemos
rechazar h0 y concluimos que hay independencia entre las variables.

Al solo poder establecer esta relación entre variables cualitativas en ese conjunto de datos, los
resultados del contraste de homogeneidad, darian unos resultados similares.
-Contraste de ajuste: estudia si puede creerse que la variable sexo mantiene estas proporciones
20% mujeres 80% hombres:

counts:
sexo
hombre mujer
258 216

percentages:
sexo
hombre mujer
54.43 45.57

Chi-squared test for given probabilities

data: .Table
X-squared = 193.69, df = 1, p-value < 2.2e-16

Atendiendo a lo arrojado, x-squared de 193.69 (muy alejada de 0) y un p valor menor que 0.05
podemos descartar la hipótesis planteada.

También podría gustarte