Está en la página 1de 16

Trabajo Práctico 7

Modelo Lineal
Ejercicios Resueltos
Estadística I - CP/LA

FCE - UNCuyo

Curso 2023

IMPORTANTE
• En la resolución de los ejercicios de este documento se han utilizado Definiciones y Propiedades
presentadas en las Notas de Clase.
• Estas Definiciones y Propiedades NO se detallan en este documento. Es responsabilidad del
estudiante conocerlas.

1
Estadística I - CP/LA
Ejercicio 7.2
El director de la oficina de personal de una firma constructora desea saber si el puntaje obtenido a través de
un test para evaluar la destreza en determinado tipo de trabajo, dentro de la empresa, puede ser pronosticada
teniendo en cuenta la edad de los empleados que ya tienen cierta experiencia en ese tipo de trabajo. La
tabla de abajo da la información de una muestra aleatoria de 15 empleados. (Adaptación del libro Business
Statistics de Daniel et al. 1989, p. 577).
destreza 15 15 21 28 30 35 40 35 30 45 50 60 45 60 50
edad 21 15 22 24 25 25 26 34 25 38 44 51 39 54 55
a. Observe bajo un gráfico de dispersión si la destreza depende en forma lineal de la edad de los empleados.
b. Obtenga la recta de regresión lineal. Interprete el valor estimado de los coeficientes de la recta en
términos del problema.Y además, sobre el gráfico de dispersión que realizó antes represente gráficamente
la recta de regresión ajustada.
c. En este problema en particular, ¿tiene sentido ajustar un modelo lineal con ordenada al origen
significativamente distinta de cero? Planteé las hipótesis estadísticas que le permitan dar respuesta a
este interrogante y concluya al respecto utilizando un nivel de significación del 10 %.
d. El director de la oficina de personal sospecha que conforme aumenta la edad del empleado, aumenta
significativamente el puntaje obtenido evaluando la destreza en esa tarea en particular. Pruebe esta
sospecha con un nivel de significación de 1% y concluya al respecto.
e. Considerando el modelo completo ajustado, es decir, con ordenada al origen y pendiente (Ajuste 1).
Si el empleado tiene 35 años, ¿qué puntaje esperado de destreza tendrá en ese trabajo en particular?
Y si el empleado tiene 58 años, ¿se puede estimar el puntaje esperado de destreza que tendrá en ese
trabajo en particular? Justifique su respuesta.

a. Gráfico de dispersión en R.

destreza = c(15,15,21,28,30,35,40,35,30,45,50,60,45,60,50)
edad = c(21,15,22,24,25,25,26,34,25,38,44,51,39,54,55)
plot(edad, destreza, xlab="Edad", ylab="Destreza",
main="Gráfico de dispersión de la destreza en función de la edad")

Gráfico de dispersión de la destreza en función de la edad


60
50
Destreza

40
30
20

20 30 40 50

Edad

De acuerdo con el gráfico de dispersión obtenido, parece razonable considerar una relación lineal
entre la destreza y la edad de los empleados.

2
Estadística I - CP/LA

b.
Modelo de regresión estimado.

Ajuste1 = lm(destreza~edad)
summary(Ajuste1)

Call:
lm(formula = destreza ~ edad)

Residuals:
Min 1Q Median 3Q Max
-9.930 -3.222 1.258 2.223 10.219

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7514 4.1225 0.667 0.516
edad 1.0396 0.1162 8.946 6.45e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.625 on 13 degrees of freedom


Multiple R-squared: 0.8603, Adjusted R-squared: 0.8495
F-statistic: 80.03 on 1 and 13 DF, p-value: 6.447e-07

La recta de regresión estimada es:

E(Y
b (xi )) = 2.7513661 + 1.0396175 · xi
o
E(Y
b ) = 2.7513661 + 1.0396175 · xi
o
µ
b(xi ) = 2.7513661 + 1.0396175 · xi

Interpretación:
• βb1 : Por cada año que aumente la edad, se espera un aumento de 1.0396175 de la destreza.
• βb0 : No tiene interpretación en el contexto de este problema.

########################################################
## Gráfico de dispersión y recta de regresión estimada
########################################################
plot(edad, destreza, col="blue",
xlab="Edad", ylab="Destreza"
main="Gráfico de dispersión de la destreza en función de la edad")
abline(Ajuste1,lwd=2, col="red")

3
Estadística I - CP/LA

Gráfico de dispersión de la destreza en función de la edad

60
50
Destreza

40
30
20

20 30 40 50

Edad

c.
Hipótesis planteadas:

H0 : β 0 = 0 vs. H1 : β0 6= 0

Bajo H0 verdadera, el estadístico de prueba:

b0 − 0
B
T0 = ∼ t(n−2)
s(B
c0 )

Así el test resulta:



c0 − 0
β
τ : Rechazar H0 ⇔ |t0 | = > t1− α2 ,(n−2)
s(βc0 )

O bien, en términos del p − valor,

τ : Rechazar H0 ⇔ p − valor < α = 0.1

donde

p − valor = 2 · P (T0 >| t0 |) = 0.516191 > α

Luego, no hay suficiente evidencia muestral como para rechazar H0 a un nivel de significación del
10%.

4
Estadística I - CP/LA

d.
Hipótesis planteadas:

H0 : β 1 = 0 vs.H1 : β1 > 0

Bajo H0 verdadera, el estadístico de prueba:

c1 − 0
B
T1 = ∼ t(n−2)
s(B
c1 )

Así el test resulta:


c1 − 0
β
τ : Rechazar H0 ⇔ t1 = > t1−α,(n−2)
s(βc1 )

O bien, en términos del p − valor,

τ : Rechazar H0 ⇔ p − valor < α = 0.1

donde
!  
c1 − 0
β 1.0396175 − 0
p − valor = P (T1 > t1 ) = P T1 > =P T1 > = P (T1 > 8.9458007)
s(βc1 ) 0.1162129
= 1 − pt(8.945801, df = 13) = 3.2236305 × 10−7 < α

Cuyo cálculo en R es:


## p-valor
1 - pt(1.039617 / 0.1162129, df = 13)

[1] 3.223646e-07

Luego, hay suficiente evidencia muestral como para rechazar H0 a un nivel de significación del 1%.
Lo que significa que el valor esperado de la destreza aumenta significativamente cuando aumenta la
edad en un año.

e.
Si el empleado tiene 35 años, se espera que la destreza sea de 39.1379781.
En R:
########################
## Opción 1
########################
predict(Ajuste1, newdata = data.frame(edad= c(35)))

1
39.13798
########################
## Opción 2
########################
as.numeric(Ajuste1$coefficients[1] + Ajuste1$coefficients[2] * 35)

[1] 39.13798

5
Estadística I - CP/LA

Si el empleado tiene 58 años, no se puede estimar la destreza esperada del trabajador, ya que el
modelo puede estimar solamente sobre el rango medido de x, es decir desde xmin hasta xmax . No
puede asegurarse cuál es la relación que puedan tener las variables fuera de este rango.

6
Estadística I - CP/LA

Ejercicio 7.3
Considere la situación planteada en el problema anterior y tenga en cuenta el mismo conjunto de valores
observados.
a. Ajuste un modelo lineal sin ordenada (Ajuste 2) al origen y evalúe la bondad del modelo ajustado.
Una medida que nos puede ayudar a evaluar el ajuste realizado es el coeficiente de determinación, R2 , a
la expresión,
Pn  2
i=1 Ê(Y i ) − Ȳ
R2 = Pn 2 ; 0 ≤ R2 ≤ 1
i=1 Yi − Ȳ
y r2 a un valor estimado de R2 . El coeficiente de determinación es la proporción de la varianza total de
la variable explicada por la regresión. El coeficiente de determinación, también llamado R cuadrado,
refleja la bondad del ajuste de un modelo a la variable que pretender explicar. Escriba e interprete el
resultado del coeficiente de determinación para cada uno de los modelos ajustados.
b. Evalúe los supuestos de ambos modelos ajustados (Ajuste 1 y 2) y concluya el respecto.
c. Bajo el modelo seleccionado evalúe si por cada año que aumenta la edad, puede aceptarse un aumento
en el puntaje medio de la destreza superior a una unidad. Planteé las hipótesis estadísticas que le
permitan hacer esta evaluación y pruébelas utilizando el método del estadístico de prueba. Asuma un
nivel de significación del 5% y concluya al respecto.

a.
########################
## Opción 1
########################
Ajuste2 = lm(destreza ~ edad - 1)
summary(Ajuste2)

Call:
lm(formula = destreza ~ edad - 1)

Residuals:
Min 1Q Median 3Q Max
-11.171 -2.249 1.307 2.466 11.083

Coefficients:
Estimate Std. Error t value Pr(>|t|)
edad 1.11221 0.04012 27.72 1.24e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.512 on 14 degrees of freedom


Multiple R-squared: 0.9821, Adjusted R-squared: 0.9808
F-statistic: 768.5 on 1 and 14 DF, p-value: 1.239e-13

7
Estadística I - CP/LA

########################
## Opción 2
########################
Ajuste2 = lm(destreza ~ 0+edad)
summary(Ajuste2)

Call:
lm(formula = destreza ~ 0 + edad)

Residuals:
Min 1Q Median 3Q Max
-11.171 -2.249 1.307 2.466 11.083

Coefficients:
Estimate Std. Error t value Pr(>|t|)
edad 1.11221 0.04012 27.72 1.24e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.512 on 14 degrees of freedom


Multiple R-squared: 0.9821, Adjusted R-squared: 0.9808
F-statistic: 768.5 on 1 and 14 DF, p-value: 1.239e-13

b (xi )) = 1.112206 · xi .
La recta de regresión estimada, considerando el Ajuste 2 es: E(Y

Una opción para evaluar la bondad de ajuste de este modelo es a través de las hipótesis:

H0 : β 1 = 0 vs. H1 : β1 6= 0

El test es resulta:

τ : Rechazar H0 ⇔ p − valor < α = 0.05

donde
!  
c1 − 0
β 1.112206 − 0
p − valor = 2 · P (T1 > |t1 |) = 2 · P T1 > =2·P T1 >
s(βc1 ) 0.0401193
= 2 · P (T1 > 27.7224852) = 2 ∗ (1 − pt(27.72249, df = 14)) = 1.2390089 × 10−13 < α

Luego, se rechaza H0 . Lo que indica que la relación lineal ajustada es adecuada.

Otro indicador de la bondad de ajuste de este modelo es el coeficiente de determinación, cuyo valor
observado, para el modelo sin ordenada al origen resulta r2 = 0.9821095. Esto quiere decir que el
98.21% de la variabilidad del puntaje en la destreza es explicada por la edad del empleado.

Para el caso del Ajuste 1 (modelo con ordenada al origen y pendiente), el coeficiente de determinación
es r2 = 0.8602562. Esto quiere decir que el 86.03 % de la variabilidad del puntaje en la destreza es
explicada por la edad del empleado.

8
Estadística I - CP/LA

b.
Análisis de los supuestos del Ajuste 1
Supuesto de normalidad.

qqnorm(residuals(Ajuste1), pch=19, col="blue",


xlab="Cuantiles poblacionales", ylab="Cuantiles muestrales",
main="Gráfico cuantil-cuantil para los residuos")
qqline(residuals(Ajuste1), lwd=2, col="red")

Gráfico cuantil−cuantil para los residuos


10
5
Cuantiles muestrales

0
−5
−10

−1 0 1

Cuantiles poblacionales

Análisis de la media de los residuos y homocedasticidad.

plot(fitted.values(Ajuste1), residuals(Ajuste1),
xlab = "Valores medios estimados de la destreza", ylab = "Residuos",
main = "Residuos en función de los\n valores medios estimados de la destreza")

Residuos en función de los


valores medios estimados de la destreza
10
5
Residuos

0
−5
−10

20 30 40 50 60

Valores medios estimados de la destreza

9
Estadística I - CP/LA

Supuesto de homocedasticidad.

plot(destreza, residuals(Ajuste1)ˆ2, pch=19, col="green", ylim=c(0,100),


xlab = "Destreza", ylab = "Cuadrado de los residuos",
main = "Cuadrado de los residuos en función\n de los valores de la destreza")

Cuadrado de los residuos en función


de los valores de la destreza

100
80
Cuadrado de los residuos

60
40
20
0

20 30 40 50 60

Destreza

Análisis de los supuestos del Ajuste 2


Supuesto de normalidad.

qqnorm(residuals(Ajuste2), pch=19, col="blue",


xlab="Cuantiles poblacionales", ylab="Cuantiles muestrales",
main="Gráfico cuantil-cuantil para los residuos")
qqline(residuals(Ajuste2), lwd=2, col="red")

Gráfico cuantil−cuantil para los residuos


10
5
Cuantiles muestrales

0
−5
−10

−1 0 1

Cuantiles poblacionales

10
Estadística I - CP/LA

Análisis de la media de los residuos y homocedasticidad.

plot(fitted.values(Ajuste2), residuals(Ajuste2),
xlab = "Valores medios estimados de la destreza", ylab = "Residuos",
main = "Residuos en función de los\n valores medios estimados de la destreza")

Residuos en función de los


valores medios estimados de la destreza

10
5
Residuos

0
−5
−10

20 30 40 50 60

Valores medios estimados de la destreza

Supuesto de homocedasticidad.

plot(destreza, residuals(Ajuste2)ˆ2, pch=19, col="green", ylim=c(0,100),


xlab = "Destreza", ylab = "Cuadrado de los residuos",
main = "Cuadrado de los residuos en función\n de los valores de la destreza")

Cuadrado de los residuos en función


de los valores de la destreza
100
80
Cuadrado de los residuos

60
40
20
0

20 30 40 50 60

Destreza

Del análisis de los gráficos para evaluar los supuestos, se observan comportamientos similares en
ambos modelos, siendo el ajuste del modelo Ajuste 2 un poco mejor que el del modelo Ajuste 1.
En términos generales, se puede concluir que ambos modelos cumplen con los supuestos.

11
Estadística I - CP/LA

c.
Por lo expuesto en los incisos anteriores, el modelo seleccionado es el Ajuste 2
Hipótesis planteadas:

H0 : β 1 = 1 vs. H1 : β1 > 1

Bajo H0 verdadera, el estadístico de prueba:

c1 − 1
B
T1 = ∼ t(n−1)
s(B
c1 )

Así el test resulta:


c1 − 1
β
τ : Rechazar H0 ⇔ t1 = > t1−α,(n−1)
s(βc1 )

Calculamos t1 y el cuantil t1−α,(n−1)

c1 − 1
β 1.112206 − 1
t1 = = = 2.7968097
s(β1 )
c 0.0401193
t1−α,(n−1) = t0.95,(14) = qt(0.95, df = 14) = 1.7613101

Luego, hay suficiente evidencia muestral como para rechazar H0 a un nivel de significación del 5%.
Lo que significa que el valor esperado de la destreza aumenta en más de una unidad cuando aumenta
la edad en un año.

12
Estadística I - CP/LA

Ejercicio 7.8
El director de una empresa piensa que la demanda de un producto que él comercializa depende únicamente
del precio de venta al público (en miles de dólares). Para estudiar la demanda de este producto pretende
estimar el siguiente modelo:

Y (xi ) = β0 + β1 xi + ε(xi ) para i = 1, 2, .., n

Año 2010 2011 2012 2013 2014 2015 2016 2017 2018
Cantidad vendida 10 12 13 14 15 17 21 22 20
Precio 19 18 15 15 14 14 13 12 13
a. En base al modelo planteado en el enunciado, exprese qué supuestos deben considerarse en el modelo
planteado. Además, escriba el modelo de regresión estimado e interprete las estimaciones de los
parámetros en el contexto del problema.
b. Halle un intervalo de confianza del 90% para estimar la ordenada al origen. Interprete en el contexto
del problema.
c. ¿Cuál es el mínimo nivel de significación bajo el cual rechazamos la hipótesis de que el ajuste a un
modelo lineal es adecuado? Justifique su respuesta y planteé las hipótesis que le permiten obtener este
nivel de significación mínimo.
d. ¿Se puede aceptar que por cada unidad que aumente el precio del producto, la media de la demanda
disminuya en más de una unidad? Plantee las hipótesis adecuadas y concluya a partir del p-valor con
un nivel de significación del 1 %.
e. Analice gráficamente los supuestos del modelo ajustado y exprese una conclusión al respecto.

## Datos Ejercicio 7.8


cantidad = c(10, 12, 13, 14, 15, 17, 21, 22, 20)
precio = c(19, 18, 15, 15, 14, 14, 13, 12, 13)

a.

Modelo de regresión estimado:


Call:
lm(formula = cantidad ~ precio)

Residuals:
Min 1Q Median 3Q Max
-2.6326 -1.6326 0.9796 1.3265 2.0612

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.4286 4.2765 9.454 3.09e-05 ***
precio -1.6531 0.2862 -5.775 0.000681 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.889 on 7 degrees of freedom


Multiple R-squared: 0.8265, Adjusted R-squared: 0.8017
F-statistic: 33.35 on 1 and 7 DF, p-value: 0.0006806

b (xi )) = 40.4285714 + (−1.6530612) · xi .


La recta de regresión estimada es: E(Y

13
Estadística I - CP/LA

Interpretación:
• Para un precio de 0, se estima un valor medio de la cantidad vendida del producto de 40.43
• Por cada mil dólares que aumente el precio del producto, se espera una reducción de 1.65 en la
cantidad vendida.

Supuestos del Modelo lineal


Los supuestos sobre los errores εi , i = 1, 2, . . . , n son:
• Independencia: ε1 , ε2 , . . . , εn son variables aleatorias independientes.
• Normalidad: Cada variable εi , i = 1, 2, . . . , n tiene distribución normal, εi ∼ N (0, σ 2 ).
• Homoscedasticidad: var(ε1 ) = var(ε2 ) = . . . = var(εn ) = σ 2 .

b.
El intervalo aleatoria del 90% de confianza para β0 es:
c0 − t0.95,(n−2) · s(B
(B c0 + t0.95,(n−2) · s(B
c0 ) , B c0 ))

El intervalo observado del 90% de confianza para β0 resulta

c0 − t0.95,(7) · s(B
(β c0 ) , c0 + t0.95,(7) · s(B
β c0 ))
(40.4285714 − 1.8945786 · 4.2765208 , 40.4285714 + 1.8945786 · 4.2765208
(32.3263667 , 48.5307761)

Para obtener el intervalo de confianza observado en R


########################
## Opción 1
########################
confint(object = ajuste8, parm="(Intercept)", level=0.90)

5 % 95 %
(Intercept) 32.32637 48.53078
########################
## Opción 2
########################
lim.inf <- 40.4286 - qt(0.95, 7) * 4.2765
lim.sup <- 40.4286 + qt(0.95, 7) * 4.2765
IC <- c(lim.inf, lim.sup)
IC
[1] 32.32643 48.53077

Interpretación Con un 90% de confianza se estima que la media de la cantidad vendida del producto
se encuentra entre 32.3264346 y 48.5307654 cuando el precio es 0.

c.
Hipótesis planteadas:

H0 : β 1 = 0 vs. H1 : β1 6= 0

14
Estadística I - CP/LA

Bajo H0 verdadera, el estadístico de prueba:

c1 − 0
B
T1 = ∼ t(n−2)
s(B
c1 )

Como el p-valor de esta prueba es p − valor = 6.8058836 × 10−4 , éste sería el mínimo nivel de
significación bajo el cual rechazaríamos H0 .

d.
Hipótesis planteadas:

H0 : β1 = −1 vs. H1 : β1 < −1

Bajo H0 verdadera, el estadístico de prueba:

c1 − (−1)
B
T1 = ∼ t(n−2)
s(B
c1 )

Así el test es:

τ : Rechazar H0 ⇔ p − valor < α = 0.01

donde
!  
c1 − (−1)
β −1.6530612 − (−1)
p − valor = P (T1 < t1 ) = P T1 < =P T1 <
s(B
c1 ) 0.2862344
= P (T1 < −2.2815607) = pt(−2.281561, df = 7) = 0.0282531 > 0.01

Luego, no hay suficiente evidencia muestral para rechazar H0 a un nivel de significación del 1%. En
consecuencia, el valor esperado de la cantidad vendida del producto NO disminuye en más de una
unidad por cada mil dólares que aumenta el precio del mismo.

e.
Supuesto de normalidad

qqnorm(residuals(ajuste8), xlab="Cuantiles poblacionales", ylab="Cuantiles muestrales",


pch=19, col="blue",main="Gráfico cuantil-cuantil para los residuos")
qqline(residuals(ajuste8), lwd=2, col="red")
Gráfico cuantil−cuantil para los residuos
2
1
Cuantiles muestrales

0
−1
−2

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Cuantiles poblacionales

15
Estadística I - CP/LA

Análisis de la media de los residuos y homocedasticidad.

plot(fitted.values(ajuste8), residuals(ajuste8), ylab = "Residuos",


xlab = "Valores medios estimados de la cantidad de productos vendidos",
main = "Residuos en función de los valores medios\n
estimados de la cantidad de productos vendidos")

Residuos en función de los valores medios


estimados de la cantidad de productos vendidos
2
1
Residuos

0
−1
−2

10 12 14 16 18 20

Valores medios estimados de la cantidad de productos vendidos

Supuesto de homocedasticidad.

plot(cantidad, residuals(ajuste8)ˆ2, pch=19, col="green", ylim=c(0,15),


xlab = "Destreza", ylab = "Cuadrado de los residuos",
main = "Cuadrado de los residuos en función\n de los valores de la destreza")

Cuadrado de los residuos en función


de la cantidad de productos vendidos
5
4
Cuadrado de los residuos

3
2
1
0

10 12 14 16 18 20 22

Cantidad de productos vendidos

El análisis gráfico de la media de los residuos y el supuesto de homocedasticidad es adecuado. En


cuanto al supuesto de normalidad, sería conveniente realizar un test para validar dicho supuesto ya
que el análisis del gráfico cuantil cuantil no es suficiente en este caso.

16

También podría gustarte