Está en la página 1de 13

Universidad de Concepción

Facultad de Ciencias Físicas y Matemáticas


Departamento de Estadística

Estadistica y Probabilidades (523250)


Repaso N ◦ 2
Segundo Semestre 2022

Profesores: Guillermo Ferreira C. ; Jean Paul Navarrete C.


1. En la Tabla 1 muestra las cantidades de producción de maíz, Y, resultantes del
uso de varias cantidades de fertilizante, X, producidas en una granja en cada
uno de los 10 años desde 1971 a 1970

Año Yi Xi
1971 40 6
1972 44 10
1973 46 12
1974 48 14
1975 52 16
1976 58 18
1977 60 22
1978 68 24
1979 74 26
1980 80 32

a) Gráfica los datos, e interprete.


Solución:

1
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística
Cantidad de Prod. de Maíz

80
60
40

5 10 15 20 25 30

Cantidad de Fertilizante

b) Encuentre la recta de regresión estimada, con la siguiente información;


10
X 10
X 10
X
Yi = 570, Xi Yi = 11216, Yi2 = 34124
i=1 i=1 i=1
X10 X10
Xi = 180, Xi2 = 3816
i=1 i=1
Solución::
Recuerde que las estimaciones para la recta de regresión son:
Pn
( i=1 Xi Yi ) − nX̄ Ȳ Sxy
βb1 = P n =
( i=1 Xi2 ) − nX̄ 2 Sxx

βb0 = Ȳ − βb1 X̄,


P10 P10
Xi Yi
de la información se tiene que X̄ = i=1
10 = 18, Ȳ = i=1
10 = 57, entonces
11216 − 10(18)(57)
βb1 = = 1,66
3816 − 10(18)2

βb0 = 57 − 1,65(18) = 27,12

2
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

Por lo tanto la recta de regresión es dada por:

Yb = βb0 + βb1 X = 27,12 + 1,66X.

La linea roja en el siguiente gráfico representa la recta de regresión ajustada.


Cantidad de Prod. de Maíz

80
60
40

5 10 15 20 25 30

Cantidad de Fertilizante

c) Encuentre la cantidades de producción de maíz cuando se utiliza 18 tone-


ladas de fertilizantes.
d ) Evalúe la calidad del ajuste de la recta que se ha estimado.
Solución:
Recuerde que el coeficiente de correlación lineal de Pearson es dado por
( ni=1 xi yi ) − nx̄ȳ
P
ρ = p Pn 2
(( i=1 xi ) − nx̄2 ) (( ni=1 yi2 ) − nȳ 2 )
P

11216 − 10(18)(57)
= p = 0,9854183
(3816 − 10(18)2 (34124 − 10(57)2 )
Por lo tanto, es el coeficiente de determinación es:

R2 = ρ2 = 0,98541832 = 0,9710492

3
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

2. Realizar un gráfico de dispersión de la Tabla 2 y determine por inspección si


existe una relación lineal entre Yi y Xi . Dada la información siguiente, determine
la recta de regresión y evalúe la calidad del ajuste de la recta que se ha estimado.

n Yi Xi
1 20 2
2 28 3
3 40 5
4 45 4
5 37 3
6 52 5
7 54 7
8 43 6
9 65 7
10 56 8

Solución:
60
Y

40
20

2 3 4 5 6 7 8

4
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

Df Sum Sq Mean Sq F value Pr(>F)


X 1 1272.1 1272 27.07 0.000819 ***
Residuals 8 375.9 47
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Call:
lm(formula = Y ~ X)

Residuals:
Min 1Q Median 3Q Max
-6.944 -5.403 -2.944 6.431 9.111

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.278 6.110 2.337 0.047644 *
X 5.944 1.142 5.203 0.000819 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.855 on 8 degrees of freedom


Multiple R-squared: 0.7719,Adjusted R-squared: 0.7434
F-statistic: 27.07 on 1 and 8 DF, p-value: 0.0008191

3. La siguiente Tabla representa el peso, X, en unidades de 1000 lb, y Y, el con-


sumo de combustible en galones por 100 millas, para seis marcas diferentes de
automóviles:

X 3.4 4.1 2.6 2.0 1.9 3.4


Y 5.5 6.5 3.6 2.9 3.1 4.9

a) Realizar un gráfico de dispersión de los datos


Solución:

5
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

6.0
Y

4.5
3.0

2.0 2.5 3.0 3.5 4.0

b) Encuentre la recta de regresión estimada.


Solución:
Desde la Tabla se obtiene la siguiente información:

6
X 6
X 6
X
Yi = 26,5 Xi Yi = 83,06 Yi2 = 127,49
i=1 i=1 i=1
X6 X 6
Xi = 17,4 Xi2 = 54,3 X̄ = 2,9 Ȳ = 4,42
i=1 i=1

Las estimaciones son:


Pn
( i=1 Xi Yi ) − nX̄ Ȳ 83,06 − 6(2,9)(4,42)
βb1 = P n = = 1,60 (1)
( i=1 Xi2 ) − nX̄ 2 54,3 − 6(2,9)2
βb0 = Ȳ − βb1 X̄ = 4,42 − 1,60(2,9) = −0,22, (2)

Por lo tanto la recta de regresión es dada por:

Yb = βb0 + βb1 X = −0,22 + 1,60X.

6
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

La linea roja en el siguiente gráfico representa la recta de regresión ajustada.


6.0
Y

4.5
3.0

2.0 2.5 3.0 3.5 4.0

c) Obtenga la tabla de análisis de varianza y pruebe la hipótesis asociada.


Solución:
Observe que la ANOVA puede ser resumida en:

Cuadro 1: ANOVA para probar la significancia de la regresión simple


Fuente de Suma de Grados de Cuadrados
Variación cuadrados libertad medios F
Pn 2
Regresión SCE = i=1 (by − y) = β1 Sxy 1 M SE
Pn 2 i
b
M SE
Error SCR = i=1 u bi = SCT − β1 Sxy
b n−2 M SR M SR
Pn
Total SCT = i=1 (yi − y)2 n−1

Pn Sxy es obtenida desde las ecuaciones (1). En particular, Sxy =


donde
( i=1 Xi Yi ) − nX̄ Ȳ = 6,152. Por lo tanto

SCE = 1,60(6,152) = 9,8432


Xn
SCT = yi2 − ny 2 = 127,49 − 6(4,42)2 = 10,27
i=1
SCR = 10,27 − 9,8432 = 0,4268

7
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

SCE 9,8432
El estadístico de prueba es F = SCR 1
= 0,4268
1
= 92,25. Este valor se compara
4 4
con el valor de table de f0,95 (1, 4) = Como F > f0,95 (1, 4) se rechaza H0 ,
de donde se concluye que β1 es diferente de cero.
d ) Si una automóvil pesa 5.5 / 1000 lb ¿cuál sería su consumo de combustible
Chapter 6estimada?.
6.2 MULTIPLE LINEAR REGRESSION MODEL 6
e) Con una medida adecuada: ¿Qué puede decir acerca de la calidad del ajus-
te?. y ¿Qué proporción de la variabilidad total es explicada por el modelo?
6.2 Multiple
Solución:linear regression model
El R-cuadrado de la regresión, a veces llamado coeficiente de determinación,
se define como
Exercise 6.2 2 Multiple linear regression model 0,4268
R = SCE /SCT = 1 − SCR / SCT = 1 − = 0,9584421
10,27
The following measurements have been obtained in a study:
4. En un estudio se han obtenido las siguientes medidas:

No. 1 2 3 4 5 6 7 8 9 10 11 12 13
y 1.45 1.93 0.81 0.61 1.55 0.95 0.45 1.14 0.74 0.98 1.41 0.81 0.89
x1 0.58 0.86 0.29 0.20 0.56 0.28 0.08 0.41 0.22 0.35 0.59 0.22 0.26
x2 0.71 0.13 0.79 0.20 0.56 0.92 0.01 0.60 0.70 0.73 0.13 0.96 0.27

No. 14 15 16 17 18 19 20 21 22 23 24 25
y 0.68 1.39 1.53 0.91 1.49 1.38 1.73 1.11 1.68 0.66 0.69 1.98
x1 0.12 0.65 0.70 0.30 0.70 0.39 0.72 0.45 0.81 0.04 0.20 0.95
x2 0.21 0.88 0.30 0.15 0.09 0.17 0.25 0.30 0.32 0.82 0.98 0.00

It is expected that the response variable y can be described by the independent


Se espera
variables x1 andque
x2 .la This
variable
imply that the Yparameters
respuesta pueda serofdescrita por lasmodel
the following variables in-
should be estimatedXand
dependientes X2 . Esto implica que los parámetros del siguiente modelo
1 y tested
deben ser estimados y probados
Yi = b0 + b1 x1 + b2 x2 + # i , # i ⇠ N (0, s2 ).
Yi = β0 + β1 X1 + β2 X2 + εi , εi ∼ N (0, σ 2 ).
a) Calculate
a) Calculethelasparameter estimates
estimaciones de los( b̂parámetros
0 , b̂ 1 , b̂ 2 , and(βbŝ02,),βbin addition
1, β
b2 , σ find theencuen-
b2 ), además
usual
tre95%
los confidence
intervalos deintervals for bhabituales
confianza 0 , b 1 , and bdel 2 . 95 % para β0 , β1 , β2 .
You can copy the following lines to R to load the data:
8
D <- data.frame(
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

> fit <- lm(y ~ x1 + x2, data=D)


> summary(fit)

Call:
lm(formula = y ~ x1 + x2, data = D)

Residuals:
Min 1Q Median 3Q Max
-0.15493 -0.07801 -0.02004 0.04999 0.30112

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.433547 0.065983 6.571 1.31e-06 ***
x1 1.652993 0.095245 17.355 2.53e-14 ***
x2 0.003945 0.074854 0.053 0.958
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1127 on 22 degrees of freedom


Multiple R-squared: 0.9399,Adjusted R-squared: 0.9344
Los intervalos de confianza para las estimaciones son obtenidas de la si-
guiente manera;
βbj ± t(n−k−1;1−α/2) σ
bb .
βj

Utilizando α = 5 % se tiene que t(22;0,975) = 2,07, por lo tanto;

βb0 = 0,433547 ± 2,07(0,065983) = (0,2967; 0,5704)


βb1 , = 1,652993 ± 2,07(0,095245) = (1,4555; 1,8505)
βb2 , = 0,003945 ± 2,07(0,074854) = (−0,1513; 0,1592)

que puede decir sobre el intervalos de confianza para βb2 ?.


b) Complete la tabla ANOVA y realice la hipótesis

H0 : β1 = β2 = 0 vs H1 : βj 6= 0. para al menos una j

9
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

Analysis of Variance Table

Model 1: y ~ 1
Model 2: y ~ x1 + x2

Df Sum of Sq F Pr(>F)
Regression 2 4.3709 172.01 3.699e-14 ***
Error
Total 24 4.6504
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
c) Aún utilizando el nivel de confianza α = 0,05, reduzca el modelo si corres-
ponde.
Call:
lm(formula = y ~ x1, data = D)

Residuals:
Min 1Q Median 3Q Max
-0.15633 -0.07633 -0.02145 0.05157 0.29994

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.43609 0.04399 9.913 9.02e-10 ***
x1 1.65121 0.08707 18.963 1.54e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1102 on 23 degrees of freedom


Multiple R-squared: 0.9399,Adjusted R-squared: 0.9373
F-statistic: 359.6 on 1 and 23 DF, p-value: 1.538e-15
d ) Realizar un análisis residual para comprobar que se cumplen los supuestos
del modelo. Responda de acuerdo a la Figura 1

10
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

Normal Q−Q Plot


0.3

0.3
Sample Quantiles

Residuals
0.1

0.1
−0.1

−2 0 1 2
−0.1 0.5 1.5

Theoretical Quantiles Fitted.values

5. En el artículo “Estructura comunitaria de los macroinvertebrados como un in-


dicador de la contaminación de minas ácidas”, publicado en el Journal of Envi-
ronmental Pollution, se presenta un índice numérico de la diversidad de especies
que al tener un valor elevado indica un sistema acuático no contaminado; mien-
tras que un índice bajo indicaría un sistema acuático contaminado. Se eligieron
2 estaciones de muestreo independientes para este estudio, una que se locali-
za corriente abajo del punto de descarga ácida de la mina y la otra ubicada
corriente arriba. Para 12 muestras mensuales reunidas en la estación corriente
abajo el índice de diversidad de especies tuvo un valor medio de X̄ = 3,11 y
una desviación estándar de SX = 0,771; mientras que 10 muestras reunidas
mensualmente en la estación corriente arriba tuvieron un valor medio del índice
Ȳ = 2,04 y una desviación estándar de SY = 0,448. Calculemos un intervalo de
confianza del 90 % para la diferencia entre las medias de la población de los dos
sitios, suponiendo que las poblaciones se distribuyen de forma aproximadamente
normal y que tienen varianzas iguales.
Solución: Suponga que X1 , . . . , X12 es una muestra aleatoria que representa los

11
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

índices de diversidad de especies en la estación corriente abajo, sea Y1 , . . . , Y10


otra muestra aleatoria que representa los índices de diversidad de especies en la
estación corriente arriba. Suponga además que
2
y Yj ∼ N µY , σY2 .
 
Xi ∼ N µX , σX
De la información muestral se tiene X̄ = 3,11, SX = 0,771, n = 12, Ȳ = 2,04,
SY = 0,448, y m = 10. Un intervalo de confianza al 90 % para µX − µY es
r
1 1
3,11 − 2,04 ± t0,95 (20)Sp + ,
12 10
2
11SX +9SY2
donde Sp2 = 20 = 0,417, luego Sp = 0,646 y t0,95 (20) = 1,725. Por lo
tanto,
1,07 ± 0,477 ⇔ (0,593, 1,547).
El hecho de que ambos límites de confianza sean positivos indica que, en pro-
medio, el índice para la estación que se localiza corriente abajo del punto de
descarga es mayor que el índice para la estación que se localiza corriente arriba.
6. El Departamento de zoología de Virginia Tech llevó a cabo un estudio para
estimar la diferencia en la cantidad de ortofósforo químico medido en dos esta-
ciones diferentes del río James. El ortofósforo se mide en miligramos por litro.
Se reunieron 15 muestras de la estación 1 y 12 muestras de la estación 2. Las
15 muestras de la estación 1 tuvieron un contenido promedio de ortofósforo de
3.84 miligramos por litro y una desviación estándar de 3.07 miligramos por litro;
en tanto que las 12 muestras de la estación 2 tuvieron un contenido promedio
de 1.49 miligramos por litro y una desviación estándar de 0.80 miligramos por
litro. Calcule un intervalo de confianza de 95 % para la diferencia en el conteni-
do promedio verdadero de ortofósforo en estas dos estaciones. Suponga que las
observaciones provienen de poblaciones normales con varianzas diferentes.
Solución: Suponga que X1 , . . . , X15 es una muestra aleatoria que representa
la cantidad de ortofósforo químico medido en la estación 1; sea Y1 , . . . , Y12 otra
muestra aleatoria que representa la cantidad de ortofósforo químico medido en
la estación 2. Suponga además que
2
y Yj ∼ N µY , σY2 .
 
Xi ∼ N µX , σX

12
Universidad de Concepción
Facultad de Ciencias Físicas y Matemáticas
Departamento de Estadística

De la información muestral se tiene X̄ = 3,84, SX = 3,07, n = 15, Ȳ = 1,49,


SY = 0,80 m = 12. Un I.C. al 95 % para µX − µY es
r
2
SX SY2
3,84 − 1,49 ± t0,975 (ν) + .
15 12
Ahora, como ν = 16,3 ≈ 16 y t0,975 (16) = 2,120 , se tiene que un I.C. al 95 %
para µX − µY es
r
3,072 0,82
2,35 ± 2,120 + ⇔ (0,6, 4,1).
15 12

13

También podría gustarte