Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ejercicio 7.17
Véase el modelo cuadrático de regresión del problema 7.16. Determinar los factores
de inflación de varianza y comentar la multicolinealidad en ese modelo.
Solución:
Ejercicio 7.16:
Un artículo en la revista Journal of Pharmaceuthical Sciences (80,971-977,1991)
presenta datos sobre la solubilidad observada, en fracción molar, de un soluto a
temperatura constante, junto con X1=Solubilidad parcial de la dispersión,
X2=Solubilidad parcial dipolar y X3=Solubilidad parcial de Hansen por puentes de
hidrógeno. La respuesta Y es el logaritmo negativo de la solubilidad en fracción mol.
Nro de Obs Y X1 X2 X3
1 0.222 7.3 0 0
2 0.395 8.7 0 0.3
3 0.422 8.8 0.7 1
4 0.437 8.1 4 0.2
5 0.428 9 0.5 1
6 0.467 8.7 1.5 2.8
7 0.444 9.3 2.1 1
8 0.378 7.6 5.1 3.4
9 0.494 10 0 0.3
10 0.456 8.4 3.7 4.1
11 0.452 9.3 3.6 2
12 0.112 7.7 2.8 7.1
13 0.432 9.8 4.2 2
14 0.101 7.3 2.5 6.8
15 0.232 8.5 2 6.6
16 0.306 9.5 2.5 5
17 0.0923 7.4 2.8 7.8
18 0.116 7.8 2.8 7.7
19 0.0764 7.7 3 8
20 0.439 10.3 1.7 4.2
21 0.0944 7.8 3.3 8.5
22 0.117 7.1 3.9 6.6
23 0.0726 7.7 4.3 9.5
24 0.0412 7.4 6 10.9
25 0.251 7.3 2 5.2
26 0.00002 7.6 7.8 20.7
1
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
Observamos que no hay una tendencia lineal entre las variables regresoras X1
y X2.
2
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
Observamos que no hay una tendencia lineal entre las variables regresoras X1
y X3.
3
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
Se puede apreciar que existe una tendencia lineal entre las variables X2 y X3.
4
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
5
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
modelo<-lm( Y1~X1+X2+X3+I(X1^2)+I(X2^2)+I(X3^2)+I(X1*X2)+I(X1*X3)+I(X2
*X3), data=datos)
summary(modelo)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.769364 1.286976 -1.375 0.1881
X1 0.420799 0.294173 1.430 0.1718
X2 0.222453 0.130742 1.701 0.1082
X3 -0.127995 0.070245 -1.822 0.0872
I(X1^2) -0.019325 0.016797 -1.150 0.2668
I(X2^2) -0.007449 0.012048 -0.618 0.5451
I(X3^2) 0.000824 0.001441 0.572 0.5754
I(X1 * X2) -0.019876 0.012037 -1.651 0.1182
I(X1 * X3) 0.009151 0.007621 1.201 0.2473
I(X2 * X3) 0.002576 0.007039 0.366 0.7192
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Donde la ecuación de regresión cuadrática con tres variables, tomando en cuenta las
estimaciones de los coeficientes de regresión para cada variable, viene determinada
de la siguiente forma:
Y1 = -1.77 + 0.421 X1 + 0.222 X2 - 0.1280 X3 - 0.0193 X1*X1 -
0.0074 X2*X2 + 0.00082 X3*X3 - 0.0199 X1*X2 + 0.00915 X1*X3
+ 0.00258 X2*X3
6
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
DIAGNÓSTICO DE MULTICOLINEALIDAD
1. Análisis de la matriz de correlación
Datos
X1 X2 X3
7.3 0 0
8.7 0 0.3
8.8 0.7 1
8.1 4 0.2
9 0.5 1
8.7 1.5 2.8
9.3 2.1 1
7.6 5.1 3.4
10 0 0.3
8.4 3.7 4.1
9.3 3.6 2
7.7 2.8 7.1
9.8 4.2 2
7.3 2.5 6.8
8.5 2 6.6
9.5 2.5 5
7.4 2.8 7.8
7.8 2.8 7.7
7.7 3 8
10.3 1.7 4.2
7.8 3.3 8.5
7.1 3.9 6.6
7.7 4.3 9.5
7.4 6 10.9
7.3 2 5.2
7.6 7.8 20.7
7
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
attach(datos)
X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
datos_centrados<-data.frame(X1.C=X1.C,X2.C=X2.C,X3.C=X3.C)
datos_centrados
8
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
BDC<-read.csv("DatosCentrados.csv",sep=";",dec=",",header=TRUE)
BDC
9
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
cor(BDC)
10
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
A<-cor(BDC)
eigen(A)$values
Donde:
Eigenvalores Índices de condición
4.482966407 K1 1.00
0.208114562 K2 21.54
0.902426372 K3 4.97
0.572746008 K4 7.83
0.452583858 K5 9.91
0.289069561 K6 15.51
0.166530540 K7 26.92
0.045090412 K8 99.42
0.007441225 K9 602.45
𝝀𝒎𝒂𝒙
k= = 602.45
𝝀𝒎𝒊𝒏
library(carData)
library(car)
vif(modelo)
X1 521.01297
X2 401.58833
X3 688.02220
I(X1^2) 501.50614
I(X2^2) 173.60055
I(X3^2) 99.67708
I(X1 * X2) 204.43081
I(X1 * X3) 456.00750
I(X2 * X3) 349.97018
11
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
attach(datos)
X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
modelo3<-lm( Y1~X1.C+X2.C+X3.C+I(X1.C^2)+I(X2.C^2)+I(X3.C^2)+I(X1.C*X3
.C)+I(X2.C*X3.C)+I(X1.C*X2.C), data=datos)
summary(modelo3)
Call:
lm(formula = Y1 ~ X1.C + X2.C + X3.C + I(X1.C^2) + I(X2.C^2) +
I(X3.C^2) + I(X1.C * X3.C) + I(X2.C * X3.C) + I(X1.C * X2.C),
data = datos)
Residuals:
Min 1Q Median 3Q Max
-0.063213 -0.037282 -0.001113 0.016738 0.122539
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.288271 0.027445 10.504 1.38e-08 ***
X1.C 0.090619 0.022540 4.020 0.000989 ***
X2.C 0.028686 0.017213 1.667 0.115062
X3.C -0.036309 0.008663 -4.191 0.000691 ***
I(X1.C^2) -0.019325 0.016797 -1.150 0.266847
I(X2.C^2) -0.007449 0.012048 -0.618 0.545111
I(X3.C^2) 0.000824 0.001441 0.572 0.575427
I(X1.C * X3.C) 0.009151 0.007621 1.201 0.247313
I(X2.C * X3.C) 0.002576 0.007039 0.366 0.719179
I(X1.C * X2.C) -0.019876 0.012037 -1.651 0.118183
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
12
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
vif(modelo3)
CUADRO RESUMEN
Factores de Inflacion de varianza (VIF) para los datos
de la solubilidad en fracción mol
Datos Centrados Datos sin centrar
X1 3,06 X1 521,01
X2 6,96 X2 401,59
X3 10,46 X3 688,02
X1^2 1,63 X1^2 501,51
X2^2 28,007 X2^2 173,6
X3^2 30,27 X3^2 99,68
X1*X2 2,45 X1*X2 204,43
X1*X3 3,66 X1*X3 456,01
X2*X3 85,29 X2*X3 349,57
13
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
ANEXO
Mirella Farfán
7 de junio de 2018
Ejercicio 7.17
Definir la carpeta de trabajo
setwd("G:/2018-1/A.Regresion/Exposición Regresión/7.17/R-studio")
datos<-read.csv("base de datos 7.17.csv",sep=";",dec=".",header=TRUE)
datos
## Y1 X1 X2 X3
## 1 0.22200 7.3 0.0 0.0
## 2 0.39500 8.7 0.0 0.3
## 3 0.42200 8.8 0.7 1.0
## 4 0.43700 8.1 4.0 0.2
## 5 0.42800 9.0 0.5 1.0
## 6 0.46700 8.7 1.5 2.8
## 7 0.44400 9.3 2.1 1.0
## 8 0.37800 7.6 5.1 3.4
## 9 0.49400 10.0 0.0 0.3
## 10 0.45600 8.4 3.7 4.1
## 11 0.45200 9.3 3.6 2.0
## 12 0.11200 7.7 2.8 7.1
## 13 0.43200 9.8 4.2 2.0
## 14 0.10100 7.3 2.5 6.8
## 15 0.23200 8.5 2.0 6.6
## 16 0.30600 9.5 2.5 5.0
## 17 0.09230 7.4 2.8 7.8
## 18 0.11600 7.8 2.8 7.7
## 19 0.07640 7.7 3.0 8.0
## 20 0.43900 10.3 1.7 4.2
## 21 0.09440 7.8 3.3 8.5
## 22 0.11700 7.1 3.9 6.6
## 23 0.07260 7.7 4.3 9.5
## 24 0.04120 7.4 6.0 10.9
## 25 0.25100 7.3 2.0 5.2
## 26 0.00002 7.6 7.8 20.7
head(datos)
## Y1 X1 X2 X3
## 1 0.222 7.3 0.0 0.0
14
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
Diagrama de dispersion
plot(da
tos$X1,
datos$x
3,main=
"Gráfic
o de di
spersió
n SPD v
s SPHH"
15
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
16
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
r=cor(datos,use = "pairwise.complete.obs")
corrplot.mixed(r,lower="ellipse",upper="number")
##Matriz de correlaciones
library(psych)
names(datos)
pairs.panels(datos[c(1,2,3,4)])
17
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
pairs.panels(datos[c(2,3,4)])
18
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
modelo<-lm( Y1~X1+X2+X3+I(X1^2)+I(X2^2)+I(X3^2)+I(X1*X2)+I(X1*X3)+I(X2
*X3), data=datos)
summary(modelo)
##
## Call:
## lm(formula = Y1 ~ X1 + X2 + X3 + I(X1^2) + I(X2^2) + I(X3^2) +
## I(X1 * X2) + I(X1 * X3) + I(X2 * X3), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.063213 -0.037282 -0.001113 0.016738 0.122539
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.769364 1.286976 -1.375 0.1881
## X1 0.420799 0.294173 1.430 0.1718
## X2 0.222453 0.130742 1.701 0.1082
## X3 -0.127995 0.070245 -1.822 0.0872 .
## I(X1^2) -0.019325 0.016797 -1.150 0.2668
## I(X2^2) -0.007449 0.012048 -0.618 0.5451
## I(X3^2) 0.000824 0.001441 0.572 0.5754
## I(X1 * X2) -0.019876 0.012037 -1.651 0.1182
## I(X1 * X3) 0.009151 0.007621 1.201 0.2473
## I(X2 * X3) 0.002576 0.007039 0.366 0.7192
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06092 on 16 degrees of freedom
## Multiple R-squared: 0.9169, Adjusted R-squared: 0.8702
## F-statistic: 19.63 on 9 and 16 DF, p-value: 5.051e-07
DIAGNÓSTICO DE MULTICOLINEALIDAD
1. Análisis de la matriz de correlación
datos
## Y1 X1 X2 X3
## 1 0.22200 7.3 0.0 0.0
## 2 0.39500 8.7 0.0 0.3
## 3 0.42200 8.8 0.7 1.0
## 4 0.43700 8.1 4.0 0.2
## 5 0.42800 9.0 0.5 1.0
## 6 0.46700 8.7 1.5 2.8
## 7 0.44400 9.3 2.1 1.0
## 8 0.37800 7.6 5.1 3.4
## 9 0.49400 10.0 0.0 0.3
## 10 0.45600 8.4 3.7 4.1
## 11 0.45200 9.3 3.6 2.0
## 12 0.11200 7.7 2.8 7.1
## 13 0.43200 9.8 4.2 2.0
## 14 0.10100 7.3 2.5 6.8
19
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
attach(datos)
X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
datos_centrados<-data.frame(X1.C=X1.C,X2.C=X2.C,X3.C=X3.C)
datos_centrados
BDC<-read.csv("DatosCentrados.csv",sep=";",dec=",",header=TRUE)
BDC
## x1.x3 x2.x3
## 1 5.16273669 14.29076923
## 2 -1.86610947 13.45076923
## 3 -2.00457101 8.61807692
## 4 1.03735207 -5.88461539
## 5 -2.82534024 9.43884615
## 6 -0.89495562 2.99500000
## 7 -4.05649408 2.87269231
## 8 1.21235207 -3.91884615
## 9 -8.11110947 13.45076923
## 10 -0.08880177 -0.90346154
## 11 -3.06803254 -2.48307692
## 12 -1.22072485 0.00000000
## 13 -4.61995562 -4.34538462
## 14 -1.71572485 -0.50884615
## 15 0.28196746 -1.19692308
## 16 -0.12341716 0.03115385
## 17 -2.45764793 0.00000000
## 18 -1.32803254 0.00000000
## 19 -1.77110947 0.57923077
## 20 -1.79726331 0.99423077
## 21 -1.73726331 1.69807692
## 22 -1.81264793 1.64576923
## 23 -2.68841716 6.59423077
## 24 -5.28341716 18.54769231
## 25 -0.09726331 -0.07692308
## 26 -11.09726331 77.98076923
cor(BDC)
## x1 x2 x3 x1.2 x2.2
x3.2
## x1 1.0000000 -0.3717451 -0.4925686 0.55135481 -0.1057576 -0.15
072238
## x2 -0.3717451 1.0000000 0.7243160 -0.16160822 0.3531541 0.51
645076
## x3 -0.4925686 0.7243160 1.0000000 -0.16675104 0.4533189 0.64
912551
## x1.2 0.5513548 -0.1616082 -0.1667510 1.00000000 -0.0148154 -0.09
563865
## x2.2 -0.1057576 0.3531541 0.4533189 -0.01481540 1.0000000 0.89
386802
## x3.2 -0.1507224 0.5164508 0.6491255 -0.09563865 0.8938680 1.00
000000
## x1.x2 -0.1866154 -0.1808636 -0.2998630 -0.23153081 -0.5264122 -0.41
488796
## x1.x3 -0.2429896 -0.3784059 -0.4763393 -0.25202757 -0.5694622 -0.63
160107
## x2.x3 -0.1430171 0.3697501 0.6168755 -0.04863154 0.9435441 0.95
864281
## x1.x2 x1.x3 x2.x3
## x1 -0.1866154 -0.2429896 -0.14301707
22
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
library(carData)
library(car)
##
## Attaching package: 'car'
vif(modelo)
attach(datos)
attach(datos)
23
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
modelo3<-lm( Y1~X1.C+X2.C+X3.C+I(X1.C^2)+I(X2.C^2)+I(X3.C^2)+I(X1.C*X3
.C)+I(X2.C*X3.C)+I(X1.C*X2.C), data=datos)
summary(modelo3)
##
## Call:
## lm(formula = Y1 ~ X1.C + X2.C + X3.C + I(X1.C^2) + I(X2.C^2) +
## I(X3.C^2) + I(X1.C * X3.C) + I(X2.C * X3.C) + I(X1.C * X2.C),
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.063213 -0.037282 -0.001113 0.016738 0.122539
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.288271 0.027445 10.504 1.38e-08 ***
## X1.C 0.090619 0.022540 4.020 0.000989 ***
## X2.C 0.028686 0.017213 1.667 0.115062
## X3.C -0.036309 0.008663 -4.191 0.000691 ***
## I(X1.C^2) -0.019325 0.016797 -1.150 0.266847
## I(X2.C^2) -0.007449 0.012048 -0.618 0.545111
## I(X3.C^2) 0.000824 0.001441 0.572 0.575427
## I(X1.C * X3.C) 0.009151 0.007621 1.201 0.247313
## I(X2.C * X3.C) 0.002576 0.007039 0.366 0.719179
## I(X1.C * X2.C) -0.019876 0.012037 -1.651 0.118183
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06092 on 16 degrees of freedom
## Multiple R-squared: 0.9169, Adjusted R-squared: 0.8702
## F-statistic: 19.63 on 9 and 16 DF, p-value: 5.051e-07
vif(modelo3)
24
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0,0609233 91,69% 87,02% 0,00%
Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante 0,2883 0,0274 10,50 0,000
X1 0,0906 0,0225 4,02 0,001 3,06
X2 0,0287 0,0172 1,67 0,115 6,96
X3 -0,03631 0,00866 -4,19 0,001 10,46
25
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA
Ecuación de regresión
Resid
Obs Y1 Ajuste Resid est.
1 0,2220 0,2727 -0,0507 -2,02 R
10 0,4560 0,3485 0,1075 2,05 R
25 0,2510 0,1285 0,1225 2,23 R
26 0,0000 -0,0246 0,0246 2,80 R
Residuo grande
26