Está en la página 1de 27

Universidad Nacional Mayor de San Marcos

Facultad de Ciencias Matemáticas


E.P. de Estadística

CURSO: ANÁLISIS DE REGRESIÓN.


CICLO/AULA/TURNO: 2018-I /204/Noche
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

Ejercicio 7.17
Véase el modelo cuadrático de regresión del problema 7.16. Determinar los factores
de inflación de varianza y comentar la multicolinealidad en ese modelo.

Solución:
Ejercicio 7.16:
Un artículo en la revista Journal of Pharmaceuthical Sciences (80,971-977,1991)
presenta datos sobre la solubilidad observada, en fracción molar, de un soluto a
temperatura constante, junto con X1=Solubilidad parcial de la dispersión,
X2=Solubilidad parcial dipolar y X3=Solubilidad parcial de Hansen por puentes de
hidrógeno. La respuesta Y es el logaritmo negativo de la solubilidad en fracción mol.
Nro de Obs Y X1 X2 X3
1 0.222 7.3 0 0
2 0.395 8.7 0 0.3
3 0.422 8.8 0.7 1
4 0.437 8.1 4 0.2
5 0.428 9 0.5 1
6 0.467 8.7 1.5 2.8
7 0.444 9.3 2.1 1
8 0.378 7.6 5.1 3.4
9 0.494 10 0 0.3
10 0.456 8.4 3.7 4.1
11 0.452 9.3 3.6 2
12 0.112 7.7 2.8 7.1
13 0.432 9.8 4.2 2
14 0.101 7.3 2.5 6.8
15 0.232 8.5 2 6.6
16 0.306 9.5 2.5 5
17 0.0923 7.4 2.8 7.8
18 0.116 7.8 2.8 7.7
19 0.0764 7.7 3 8
20 0.439 10.3 1.7 4.2
21 0.0944 7.8 3.3 8.5
22 0.117 7.1 3.9 6.6
23 0.0726 7.7 4.3 9.5
24 0.0412 7.4 6 10.9
25 0.251 7.3 2 5.2
26 0.00002 7.6 7.8 20.7

1
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

1. Antes de realizar el ajuste del modelo de regresión, analizaremos las variables


independientes X1, X2 y X3 mediante diagramas de dispersión para poder
detectar una posible tendencia entre las variables regresoras.

 Diagrama de dispersión entre la Solubilidad Parcial de la Dispersión (X1) y


Solubilidad Parcial Bipolar (X2).

Observamos que no hay una tendencia lineal entre las variables regresoras X1
y X2.

2
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

 Diagrama de dispersión entre la Solubilidad Parcial de la Dispersión (X1) y


Solubilidad parcial de Hansen por puentes de hidrógeno (X3).

Observamos que no hay una tendencia lineal entre las variables regresoras X1
y X3.

3
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

 Diagrama de dispersión entre la Solubilidad Parcial Bipolar (X2) y


Solubilidad parcial de Hansen por puentes de hidrógeno (X3).

Se puede apreciar que existe una tendencia lineal entre las variables X2 y X3.

4
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

2. Después de analizar los gráficos de dispersión, corroboraremos esa tendencia


verificando las correlaciones que existen entre las variables independientes.

Se confirma lo visto en los diagramas de dispersión, es decir, que existe una


dependencia lineal entre las variables X2 y X3 con un coeficiente de correlación
de 0.72.

Otra forma de ver la correlación entre las variables regresoras es mediante el


siguiente cuadro:

5
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

3. Utilizaremos el software R-Studio y Minitab para la obtención y análisis del


modelo cuadrático de regresión, las estimaciones de los coeficientes y los
factores de inflación de varianza (VIF) de la solubilidad en fracción mol.

Ajuste del modelo cuadrático con tres variables regresoras

modelo<-lm( Y1~X1+X2+X3+I(X1^2)+I(X2^2)+I(X3^2)+I(X1*X2)+I(X1*X3)+I(X2
*X3), data=datos)
summary(modelo)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.769364 1.286976 -1.375 0.1881
X1 0.420799 0.294173 1.430 0.1718
X2 0.222453 0.130742 1.701 0.1082
X3 -0.127995 0.070245 -1.822 0.0872
I(X1^2) -0.019325 0.016797 -1.150 0.2668
I(X2^2) -0.007449 0.012048 -0.618 0.5451
I(X3^2) 0.000824 0.001441 0.572 0.5754
I(X1 * X2) -0.019876 0.012037 -1.651 0.1182
I(X1 * X3) 0.009151 0.007621 1.201 0.2473
I(X2 * X3) 0.002576 0.007039 0.366 0.7192
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.06092 on 16 degrees of freedom


Multiple R-squared: 0.9169, Adjusted R-squared: 0.8702
F-statistic: 19.63 on 9 and 16 DF, p-value: 5.051e-07

Donde la ecuación de regresión cuadrática con tres variables, tomando en cuenta las
estimaciones de los coeficientes de regresión para cada variable, viene determinada
de la siguiente forma:
Y1 = -1.77 + 0.421 X1 + 0.222 X2 - 0.1280 X3 - 0.0193 X1*X1 -
0.0074 X2*X2 + 0.00082 X3*X3 - 0.0199 X1*X2 + 0.00915 X1*X3
+ 0.00258 X2*X3

6
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

DIAGNÓSTICO DE MULTICOLINEALIDAD
1. Análisis de la matriz de correlación

Datos

X1 X2 X3
7.3 0 0
8.7 0 0.3
8.8 0.7 1
8.1 4 0.2
9 0.5 1
8.7 1.5 2.8
9.3 2.1 1
7.6 5.1 3.4
10 0 0.3
8.4 3.7 4.1
9.3 3.6 2
7.7 2.8 7.1
9.8 4.2 2
7.3 2.5 6.8
8.5 2 6.6
9.5 2.5 5
7.4 2.8 7.8
7.8 2.8 7.7
7.7 3 8
10.3 1.7 4.2
7.8 3.3 8.5
7.1 3.9 6.6
7.7 4.3 9.5
7.4 6 10.9
7.3 2 5.2
7.6 7.8 20.7

7
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

attach(datos)
X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
datos_centrados<-data.frame(X1.C=X1.C,X2.C=X2.C,X3.C=X3.C)
datos_centrados

X1.C X2.C X3.C


-1.0115 -2.8000 -5.1038
0.3885 -2.8000 -4.8038
0.4885 -2.1000 -4.1038
-0.2115 1.2000 -4.9038
0.6885 -2.3000 -4.1038
0.3885 -1.3000 -2.3038
0.9885 -0.7000 -4.1038
-0.7115 2.3000 -1.7038
1.6885 -2.8000 -4.8038
0.0885 0.9000 -1.0038
0.9885 0.8000 -3.1038
-0.6115 0.0000 1.9962
1.4885 1.4000 -3.1038
-1.0115 -0.3000 1.6962
0.1885 -0.8000 1.4962
1.1885 -0.3000 -0.1038
-0.9115 0.0000 2.6962
-0.5115 0.0000 2.5962
-0.6115 0.2000 2.8962
1.9885 -1.1000 -0.9038
-0.5115 0.5000 3.3962
-1.2115 1.1000 1.4962
-0.6115 1.5000 4.3962
-0.9115 3.2000 5.7962
-1.0115 -0.8000 0.0962
-0.7115 5.0000 15.5962

8
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

BDC<-read.csv("DatosCentrados.csv",sep=";",dec=",",header=TRUE)
BDC

X1.C X2.C X3.C x1*x2.C x1*x3.C x2*x3.C x1^2.C x2^2.C x3^2.C


-1.0115 -2.8000 -5.1038 2.8323 5.1627 14.2908 1.0232 7.8400 26.0492
0.3885 -2.8000 -4.8038 -1.0877 -1.8661 13.4508 0.1509 7.8400 23.0769
0.4885 -2.1000 -4.1038 -1.0258 -2.0046 8.6181 0.2386 4.4100 16.8416
-0.2115 1.2000 -4.9038 -0.2538 1.0374 -5.8846 0.0447 1.4400 24.0477
0.6885 -2.3000 -4.1038 -1.5835 -2.8253 9.4388 0.4740 5.2900 16.8416
0.3885 -1.3000 -2.3038 -0.5050 -0.8950 2.9950 0.1509 1.6900 5.3077
0.9885 -0.7000 -4.1038 -0.6919 -4.0565 2.8727 0.9771 0.4900 16.8416
-0.7115 2.3000 -1.7038 -1.6365 1.2124 -3.9188 0.5063 5.2900 2.9031
1.6885 -2.8000 -4.8038 -4.7277 -8.1111 13.4508 2.8509 7.8400 23.0769
0.0885 0.9000 -1.0038 0.0796 -0.0888 -0.9035 0.0078 0.8100 1.0077
0.9885 0.8000 -3.1038 0.7908 -3.0680 -2.4831 0.9771 0.6400 9.6339
-0.6115 0.0000 1.9962 0.0000 -1.2207 0.0000 0.3740 0.0000 3.9846
1.4885 1.4000 -3.1038 2.0838 -4.6200 -4.3454 2.2155 1.9600 9.6339
-1.0115 -0.3000 1.6962 0.3035 -1.7157 -0.5088 1.0232 0.0900 2.8769
0.1885 -0.8000 1.4962 -0.1508 0.2820 -1.1969 0.0355 0.6400 2.2385
1.1885 -0.3000 -0.1038 -0.3565 -0.1234 0.0312 1.4124 0.0900 0.0108
-0.9115 0.0000 2.6962 0.0000 -2.4576 0.0000 0.8309 0.0000 7.2692
-0.5115 0.0000 2.5962 0.0000 -1.3280 0.0000 0.2617 0.0000 6.7400
-0.6115 0.2000 2.8962 -0.1223 -1.7711 0.5792 0.3740 0.0400 8.3877
1.9885 -1.1000 -0.9038 -2.1873 -1.7973 0.9942 3.9540 1.2100 0.8169
-0.5115 0.5000 3.3962 -0.2558 -1.7373 1.6981 0.2617 0.2500 11.5339
-1.2115 1.1000 1.4962 -1.3327 -1.8126 1.6458 1.4678 1.2100 2.2385
-0.6115 1.5000 4.3962 -0.9173 -2.6884 6.5942 0.3740 2.2500 19.3262
-0.9115 3.2000 5.7962 -2.9169 -5.2834 18.5477 0.8309 10.2400 33.5954
-1.0115 -0.8000 0.0962 0.8092 -0.0973 -0.0769 1.0232 0.6400 0.0092
-0.7115 5.0000 15.5962 -3.5577 -11.0973 77.9808 0.5063 25.0000 243.2400

9
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

cor(BDC)

x1 x2 x3 x1.2 x2.2 x3.2 x1.x2 x1.x3 x2.x3


x1 1.000 -0.372 -0.493 0.551 -0.106 -0.151 -0.187 -0.243 -0.143
x2 -0.372 1.000 0.724 -0.162 0.353 0.516 -0.181 -0.378 0.370
x3 -0.493 0.724 1.000 -0.167 0.453 0.649 -0.300 -0.476 0.617
x1.2 0.551 -0.162 -0.167 1.000 -0.015 -0.096 -0.232 -0.252 -0.049
x2.2 -0.106 0.353 0.453 -0.015 1.000 0.894 -0.526 -0.569 0.944
x3.2 -0.151 0.516 0.649 -0.096 0.894 1.000 -0.415 -0.632 0.959
x1.x2 -0.187 -0.181 -0.300 -0.232 -0.526 -0.415 1.000 0.667 -0.495
x1.x3 -0.243 -0.378 -0.476 -0.252 -0.569 -0.632 0.667 1.000 -0.636
x2.x3 -0.143 0.370 0.617 -0.049 0.944 0.959 -0.495 -0.636 1.000

2. Análisis de los autovalores de la matriz de correlación

 Obtenemos los valores propios de la matriz de correlación


𝝀𝒎𝒂𝒙
 Definimos el número de condición: k =
𝝀𝒎𝒊𝒏

 Si el número de condición k < 100, entonces no hay problema grave de


multicolinealidad.

Si el número de condición se encuentra entre: 100 < k < 1000, implica


multicolinealidad moderada-fuerte.

Si k > 1000, es indicio de una fuerte multicolinealidad.

10
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

A<-cor(BDC)
eigen(A)$values

[1] 4.482966407 2.081145617 0.902426372 0.572746008 0.452583858


[6] 0.289069561 0.166530540 0.045090412 0.007441225

Donde:
Eigenvalores Índices de condición
4.482966407 K1 1.00
0.208114562 K2 21.54
0.902426372 K3 4.97
0.572746008 K4 7.83
0.452583858 K5 9.91
0.289069561 K6 15.51
0.166530540 K7 26.92
0.045090412 K8 99.42
0.007441225 K9 602.45

𝝀𝒎𝒂𝒙
k= = 602.45
𝝀𝒎𝒊𝒏

3. Factores de inflación de varianza (VIF)

library(carData)
library(car)

vif(modelo)

X1 521.01297
X2 401.58833
X3 688.02220
I(X1^2) 501.50614
I(X2^2) 173.60055
I(X3^2) 99.67708
I(X1 * X2) 204.43081
I(X1 * X3) 456.00750
I(X2 * X3) 349.97018

11
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

UNA FORMA DE CORREGIR LA MULTICOLINEALIDAD


Ajuste del modelo cuadrático centrando las variables

attach(datos)

X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
modelo3<-lm( Y1~X1.C+X2.C+X3.C+I(X1.C^2)+I(X2.C^2)+I(X3.C^2)+I(X1.C*X3
.C)+I(X2.C*X3.C)+I(X1.C*X2.C), data=datos)
summary(modelo3)

Call:
lm(formula = Y1 ~ X1.C + X2.C + X3.C + I(X1.C^2) + I(X2.C^2) +
I(X3.C^2) + I(X1.C * X3.C) + I(X2.C * X3.C) + I(X1.C * X2.C),
data = datos)

Residuals:
Min 1Q Median 3Q Max
-0.063213 -0.037282 -0.001113 0.016738 0.122539

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.288271 0.027445 10.504 1.38e-08 ***
X1.C 0.090619 0.022540 4.020 0.000989 ***
X2.C 0.028686 0.017213 1.667 0.115062
X3.C -0.036309 0.008663 -4.191 0.000691 ***
I(X1.C^2) -0.019325 0.016797 -1.150 0.266847
I(X2.C^2) -0.007449 0.012048 -0.618 0.545111
I(X3.C^2) 0.000824 0.001441 0.572 0.575427
I(X1.C * X3.C) 0.009151 0.007621 1.201 0.247313
I(X2.C * X3.C) 0.002576 0.007039 0.366 0.719179
I(X1.C * X2.C) -0.019876 0.012037 -1.651 0.118183
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.06092 on 16 degrees of freedom


Multiple R-squared: 0.9169, Adjusted R-squared: 0.8702
F-statistic: 19.63 on 9 and 16 DF, p-value: 5.051e-07

12
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

Calculando el VIF del modelo centrado

vif(modelo3)

X1.C X2.C X3.C I(X1.C^2) I(X2.C^2)


3.058861 6.961039 10.464114 1.630000 28.007107
I(X3.C^2) I(X1.C * X3.C) I(X2.C * X3.C) I(X1.C * X2.C)
30.269890 3.659962 85.294795 2.449857

CUADRO RESUMEN
Factores de Inflacion de varianza (VIF) para los datos
de la solubilidad en fracción mol
Datos Centrados Datos sin centrar
X1 3,06 X1 521,01
X2 6,96 X2 401,59
X3 10,46 X3 688,02
X1^2 1,63 X1^2 501,51
X2^2 28,007 X2^2 173,6
X3^2 30,27 X3^2 99,68
X1*X2 2,45 X1*X2 204,43
X1*X3 3,66 X1*X3 456,01
X2*X3 85,29 X2*X3 349,57

13
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

ANEXO

Modelos polinomiales de regresión R-Studio


José Alamo

Mirella Farfán

7 de junio de 2018

Ejercicio 7.17
Definir la carpeta de trabajo

setwd("G:/2018-1/A.Regresion/Exposición Regresión/7.17/R-studio")
datos<-read.csv("base de datos 7.17.csv",sep=";",dec=".",header=TRUE)
datos

## Y1 X1 X2 X3
## 1 0.22200 7.3 0.0 0.0
## 2 0.39500 8.7 0.0 0.3
## 3 0.42200 8.8 0.7 1.0
## 4 0.43700 8.1 4.0 0.2
## 5 0.42800 9.0 0.5 1.0
## 6 0.46700 8.7 1.5 2.8
## 7 0.44400 9.3 2.1 1.0
## 8 0.37800 7.6 5.1 3.4
## 9 0.49400 10.0 0.0 0.3
## 10 0.45600 8.4 3.7 4.1
## 11 0.45200 9.3 3.6 2.0
## 12 0.11200 7.7 2.8 7.1
## 13 0.43200 9.8 4.2 2.0
## 14 0.10100 7.3 2.5 6.8
## 15 0.23200 8.5 2.0 6.6
## 16 0.30600 9.5 2.5 5.0
## 17 0.09230 7.4 2.8 7.8
## 18 0.11600 7.8 2.8 7.7
## 19 0.07640 7.7 3.0 8.0
## 20 0.43900 10.3 1.7 4.2
## 21 0.09440 7.8 3.3 8.5
## 22 0.11700 7.1 3.9 6.6
## 23 0.07260 7.7 4.3 9.5
## 24 0.04120 7.4 6.0 10.9
## 25 0.25100 7.3 2.0 5.2
## 26 0.00002 7.6 7.8 20.7

head(datos)

## Y1 X1 X2 X3
## 1 0.222 7.3 0.0 0.0
14
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## 2 0.395 8.7 0.0 0.3


## 3 0.422 8.8 0.7 1.0
## 4 0.437 8.1 4.0 0.2
## 5 0.428 9.0 0.5 1.0
## 6 0.467 8.7 1.5 2.8

Diagrama de dispersion

plot(datos$X1,datos$x2,main="Gráfico de dispersión SPD vs SPB", xlab =


"SPD", ylab = "SPB")

plot(da
tos$X1,
datos$x
3,main=
"Gráfic
o de di
spersió
n SPD v
s SPHH"
15
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

, xlab = "SPD", ylab = "SPHH")

plot(datos$X2,datos$x3,main="Gráfico de dispersión SPB vs SPHH", xlab


= "SPB", ylab = "SPHH")

##Correlaciones entre los regresores


library(corrplot)

16
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## corrplot 0.84 loaded

r=cor(datos,use = "pairwise.complete.obs")
corrplot.mixed(r,lower="ellipse",upper="number")

##Matriz de correlaciones
library(psych)
names(datos)

## [1] "Y1" "X1" "X2" "X3"

pairs.panels(datos[c(1,2,3,4)])

17
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

pairs.panels(datos[c(2,3,4)])

Ajuste del modelo cuadrático con tres variables regresoras

18
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

modelo<-lm( Y1~X1+X2+X3+I(X1^2)+I(X2^2)+I(X3^2)+I(X1*X2)+I(X1*X3)+I(X2
*X3), data=datos)
summary(modelo)

##
## Call:
## lm(formula = Y1 ~ X1 + X2 + X3 + I(X1^2) + I(X2^2) + I(X3^2) +
## I(X1 * X2) + I(X1 * X3) + I(X2 * X3), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.063213 -0.037282 -0.001113 0.016738 0.122539
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.769364 1.286976 -1.375 0.1881
## X1 0.420799 0.294173 1.430 0.1718
## X2 0.222453 0.130742 1.701 0.1082
## X3 -0.127995 0.070245 -1.822 0.0872 .
## I(X1^2) -0.019325 0.016797 -1.150 0.2668
## I(X2^2) -0.007449 0.012048 -0.618 0.5451
## I(X3^2) 0.000824 0.001441 0.572 0.5754
## I(X1 * X2) -0.019876 0.012037 -1.651 0.1182
## I(X1 * X3) 0.009151 0.007621 1.201 0.2473
## I(X2 * X3) 0.002576 0.007039 0.366 0.7192
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06092 on 16 degrees of freedom
## Multiple R-squared: 0.9169, Adjusted R-squared: 0.8702
## F-statistic: 19.63 on 9 and 16 DF, p-value: 5.051e-07

DIAGNÓSTICO DE MULTICOLINEALIDAD
1. Análisis de la matriz de correlación
datos

## Y1 X1 X2 X3
## 1 0.22200 7.3 0.0 0.0
## 2 0.39500 8.7 0.0 0.3
## 3 0.42200 8.8 0.7 1.0
## 4 0.43700 8.1 4.0 0.2
## 5 0.42800 9.0 0.5 1.0
## 6 0.46700 8.7 1.5 2.8
## 7 0.44400 9.3 2.1 1.0
## 8 0.37800 7.6 5.1 3.4
## 9 0.49400 10.0 0.0 0.3
## 10 0.45600 8.4 3.7 4.1
## 11 0.45200 9.3 3.6 2.0
## 12 0.11200 7.7 2.8 7.1
## 13 0.43200 9.8 4.2 2.0
## 14 0.10100 7.3 2.5 6.8
19
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## 15 0.23200 8.5 2.0 6.6


## 16 0.30600 9.5 2.5 5.0
## 17 0.09230 7.4 2.8 7.8
## 18 0.11600 7.8 2.8 7.7
## 19 0.07640 7.7 3.0 8.0
## 20 0.43900 10.3 1.7 4.2
## 21 0.09440 7.8 3.3 8.5
## 22 0.11700 7.1 3.9 6.6
## 23 0.07260 7.7 4.3 9.5
## 24 0.04120 7.4 6.0 10.9
## 25 0.25100 7.3 2.0 5.2
## 26 0.00002 7.6 7.8 20.7

attach(datos)
X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
datos_centrados<-data.frame(X1.C=X1.C,X2.C=X2.C,X3.C=X3.C)
datos_centrados

## X1.C X2.C X3.C


## 1 -1.01153846 -2.8 -5.10384615
## 2 0.38846154 -2.8 -4.80384615
## 3 0.48846154 -2.1 -4.10384615
## 4 -0.21153846 1.2 -4.90384615
## 5 0.68846154 -2.3 -4.10384615
## 6 0.38846154 -1.3 -2.30384615
## 7 0.98846154 -0.7 -4.10384615
## 8 -0.71153846 2.3 -1.70384615
## 9 1.68846154 -2.8 -4.80384615
## 10 0.08846154 0.9 -1.00384615
## 11 0.98846154 0.8 -3.10384615
## 12 -0.61153846 0.0 1.99615385
## 13 1.48846154 1.4 -3.10384615
## 14 -1.01153846 -0.3 1.69615385
## 15 0.18846154 -0.8 1.49615385
## 16 1.18846154 -0.3 -0.10384615
## 17 -0.91153846 0.0 2.69615385
## 18 -0.51153846 0.0 2.59615385
## 19 -0.61153846 0.2 2.89615385
## 20 1.98846154 -1.1 -0.90384615
## 21 -0.51153846 0.5 3.39615385
## 22 -1.21153846 1.1 1.49615385
## 23 -0.61153846 1.5 4.39615385
## 24 -0.91153846 3.2 5.79615385
## 25 -1.01153846 -0.8 0.09615385
## 26 -0.71153846 5.0 15.59615385

BDC<-read.csv("DatosCentrados.csv",sep=";",dec=",",header=TRUE)
BDC

## x1 x2 x3 x1.2 x2.2 x3.2


x1.x2
20
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## 1 -1.01153846 -2.8 -5.10384615 1.023210059 7.84 2.604925e+01 2.8


3230769
## 2 0.38846154 -2.8 -4.80384615 0.150902367 7.84 2.307694e+01 -1.0
8769231
## 3 0.48846154 -2.1 -4.10384615 0.238594675 4.41 1.684155e+01 -1.0
2576923
## 4 -0.21153846 1.2 -4.90384615 0.044748521 1.44 2.404771e+01 -0.2
5384615
## 5 0.68846154 -2.3 -4.10384615 0.473979290 5.29 1.684155e+01 -1.5
8346154
## 6 0.38846154 -1.3 -2.30384615 0.150902367 1.69 5.307707e+00 -0.5
0500000
## 7 0.98846154 -0.7 -4.10384615 0.977056213 0.49 1.684155e+01 -0.6
9192308
## 8 -0.71153846 2.3 -1.70384615 0.506286982 5.29 2.903092e+00 -1.6
3653846
## 9 1.68846154 -2.8 -4.80384615 2.850902367 7.84 2.307694e+01 -4.7
2769231
## 10 0.08846154 0.9 -1.00384615 0.007825444 0.81 1.007707e+00 0.0
7961538
## 11 0.98846154 0.8 -3.10384615 0.977056213 0.64 9.633861e+00 0.7
9076923
## 12 -0.61153846 0.0 1.99615385 0.373979290 0.00 3.984630e+00 0.0
0000000
## 13 1.48846154 1.4 -3.10384615 2.215517751 1.96 9.633861e+00 2.0
8384615
## 14 -1.01153846 -0.3 1.69615385 1.023210059 0.09 2.876938e+00 0.3
0346154
## 15 0.18846154 -0.8 1.49615385 0.035517751 0.64 2.238476e+00 -0.1
5076923
## 16 1.18846154 -0.3 -0.10384615 1.412440828 0.09 1.078402e-02 -0.3
5653846
## 17 -0.91153846 0.0 2.69615385 0.830902367 0.00 7.269246e+00 0.0
0000000
## 18 -0.51153846 0.0 2.59615385 0.261671598 0.00 6.740015e+00 0.0
0000000
## 19 -0.61153846 0.2 2.89615385 0.373979290 0.04 8.387707e+00 -0.1
2230769
## 20 1.98846154 -1.1 -0.90384615 3.953979290 1.21 8.169379e-01 -2.1
8730769
## 21 -0.51153846 0.5 3.39615385 0.261671598 0.25 1.153386e+01 -0.2
5576923
## 22 -1.21153846 1.1 1.49615385 1.467825444 1.21 2.238476e+00 -1.3
3269231
## 23 -0.61153846 1.5 4.39615385 0.373979290 2.25 1.932617e+01 -0.9
1730769
## 24 -0.91153846 3.2 5.79615385 0.830902367 10.24 3.359540e+01 -2.9
1692308
## 25 -1.01153846 -0.8 0.09615385 1.023210059 0.64 9.245562e-03 0.8
0923077
## 26 -0.71153846 5.0 15.59615385 0.506286982 25.00 2.432400e+02 -3.5
5769231
21
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## x1.x3 x2.x3
## 1 5.16273669 14.29076923
## 2 -1.86610947 13.45076923
## 3 -2.00457101 8.61807692
## 4 1.03735207 -5.88461539
## 5 -2.82534024 9.43884615
## 6 -0.89495562 2.99500000
## 7 -4.05649408 2.87269231
## 8 1.21235207 -3.91884615
## 9 -8.11110947 13.45076923
## 10 -0.08880177 -0.90346154
## 11 -3.06803254 -2.48307692
## 12 -1.22072485 0.00000000
## 13 -4.61995562 -4.34538462
## 14 -1.71572485 -0.50884615
## 15 0.28196746 -1.19692308
## 16 -0.12341716 0.03115385
## 17 -2.45764793 0.00000000
## 18 -1.32803254 0.00000000
## 19 -1.77110947 0.57923077
## 20 -1.79726331 0.99423077
## 21 -1.73726331 1.69807692
## 22 -1.81264793 1.64576923
## 23 -2.68841716 6.59423077
## 24 -5.28341716 18.54769231
## 25 -0.09726331 -0.07692308
## 26 -11.09726331 77.98076923

cor(BDC)

## x1 x2 x3 x1.2 x2.2
x3.2
## x1 1.0000000 -0.3717451 -0.4925686 0.55135481 -0.1057576 -0.15
072238
## x2 -0.3717451 1.0000000 0.7243160 -0.16160822 0.3531541 0.51
645076
## x3 -0.4925686 0.7243160 1.0000000 -0.16675104 0.4533189 0.64
912551
## x1.2 0.5513548 -0.1616082 -0.1667510 1.00000000 -0.0148154 -0.09
563865
## x2.2 -0.1057576 0.3531541 0.4533189 -0.01481540 1.0000000 0.89
386802
## x3.2 -0.1507224 0.5164508 0.6491255 -0.09563865 0.8938680 1.00
000000
## x1.x2 -0.1866154 -0.1808636 -0.2998630 -0.23153081 -0.5264122 -0.41
488796
## x1.x3 -0.2429896 -0.3784059 -0.4763393 -0.25202757 -0.5694622 -0.63
160107
## x2.x3 -0.1430171 0.3697501 0.6168755 -0.04863154 0.9435441 0.95
864281
## x1.x2 x1.x3 x2.x3
## x1 -0.1866154 -0.2429896 -0.14301707

22
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## x2 -0.1808636 -0.3784059 0.36975010


## x3 -0.2998630 -0.4763393 0.61687552
## x1.2 -0.2315308 -0.2520276 -0.04863154
## x2.2 -0.5264122 -0.5694622 0.94354405
## x3.2 -0.4148880 -0.6316011 0.95864281
## x1.x2 1.0000000 0.6670822 -0.49527221
## x1.x3 0.6670822 1.0000000 -0.63612682
## x2.x3 -0.4952722 -0.6361268 1.00000000

2. Análisis de los autovalores de la matriz de correlación


A<-cor(BDC)
eigen(A)$values

## [1] 4.482966407 2.081145617 0.902426372 0.572746008 0.452583858 0.2


89069561
## [7] 0.166530540 0.045090412 0.007441225

3. Factores de inflación de varianza (VIF)

library(carData)
library(car)

##
## Attaching package: 'car'

## The following object is masked from 'package:psych':


##
## logit

vif(modelo)

## X1 X2 X3 I(X1^2) I(X2^2) I(X3^2)


## 521.01297 401.58833 688.02220 501.50614 173.60055 99.67708
## I(X1 * X2) I(X1 * X3) I(X2 * X3)
## 204.43081 456.00750 349.97018

UNA FORMA DE CORREGIR LA MULTICOLINEALIDAD


Ajuste del modelo cuadrático centrando las variables

attach(datos)

## The following objects are masked from datos (pos = 5):


##
## X1, X2, X3, Y1

attach(datos)

## The following objects are masked from datos (pos = 3):


##
## X1, X2, X3, Y1

23
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

## The following objects are masked from datos (pos = 6):


##
## X1, X2, X3, Y1

X1.C<-X1-mean(X1)
X2.C<-X2-mean(X2)
X3.C<-X3-mean(X3)
modelo3<-lm( Y1~X1.C+X2.C+X3.C+I(X1.C^2)+I(X2.C^2)+I(X3.C^2)+I(X1.C*X3
.C)+I(X2.C*X3.C)+I(X1.C*X2.C), data=datos)
summary(modelo3)

##
## Call:
## lm(formula = Y1 ~ X1.C + X2.C + X3.C + I(X1.C^2) + I(X2.C^2) +
## I(X3.C^2) + I(X1.C * X3.C) + I(X2.C * X3.C) + I(X1.C * X2.C),
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.063213 -0.037282 -0.001113 0.016738 0.122539
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.288271 0.027445 10.504 1.38e-08 ***
## X1.C 0.090619 0.022540 4.020 0.000989 ***
## X2.C 0.028686 0.017213 1.667 0.115062
## X3.C -0.036309 0.008663 -4.191 0.000691 ***
## I(X1.C^2) -0.019325 0.016797 -1.150 0.266847
## I(X2.C^2) -0.007449 0.012048 -0.618 0.545111
## I(X3.C^2) 0.000824 0.001441 0.572 0.575427
## I(X1.C * X3.C) 0.009151 0.007621 1.201 0.247313
## I(X2.C * X3.C) 0.002576 0.007039 0.366 0.719179
## I(X1.C * X2.C) -0.019876 0.012037 -1.651 0.118183
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06092 on 16 degrees of freedom
## Multiple R-squared: 0.9169, Adjusted R-squared: 0.8702
## F-statistic: 19.63 on 9 and 16 DF, p-value: 5.051e-07

Calculando el VIF del modelo centrado

vif(modelo3)

## X1.C X2.C X3.C I(X1.C^2) I(


X2.C^2)
## 3.058861 6.961039 10.464114 1.630000 28
.007107
## I(X3.C^2) I(X1.C * X3.C) I(X2.C * X3.C) I(X1.C * X2.C)
## 30.269890 3.659962 85.294795 2.449857

24
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

Modelos polinomiales de regresión - Minitab

Análisis de regresión: Y1 vs. X1; X2; X3

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 9 0,655671 0,072852 19,63 0,000
X1 1 0,059991 0,059991 16,16 0,001
X2 1 0,010308 0,010308 2,78 0,115
X3 1 0,065200 0,065200 17,57 0,001
X1*X1 1 0,004913 0,004913 1,32 0,267
X2*X2 1 0,001419 0,001419 0,38 0,545
X3*X3 1 0,001213 0,001213 0,33 0,575
X1*X2 1 0,010120 0,010120 2,73 0,118
X1*X3 1 0,005352 0,005352 1,44 0,247
X2*X3 1 0,000497 0,000497 0,13 0,719
Error 16 0,059386 0,003712
Total 25 0,715057

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0,0609233 91,69% 87,02% 0,00%

Coeficientes

EE del
Término Coef coef. Valor T Valor p VIF
Constante 0,2883 0,0274 10,50 0,000
X1 0,0906 0,0225 4,02 0,001 3,06
X2 0,0287 0,0172 1,67 0,115 6,96
X3 -0,03631 0,00866 -4,19 0,001 10,46

25
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FCM-ESCUELA PROFESIONAL DE ESTADÍSTICA

X1*X1 -0,0193 0,0168 -1,15 0,267 1,63


X2*X2 -0,0074 0,0120 -0,62 0,545 28,01
X3*X3 0,00082 0,00144 0,57 0,575 30,27
X1*X2 -0,0199 0,0120 -1,65 0,118 2,45
X1*X3 0,00915 0,00762 1,20 0,247 3,66
X2*X3 0,00258 0,00704 0,37 0,719 85,29

Ecuación de regresión

Y1 = 0,2883 + 0,0906 X1 + 0,0287 X2 - 0,03631 X3 - 0,0193 X1*X1 - 0,0074 X2*X2


+ 0,00082 X3*X3 - 0,0199 X1*X2 + 0,00915 X1*X3 + 0,00258 X2*X3

Ajustes y diagnósticos para observaciones poco comunes

Resid
Obs Y1 Ajuste Resid est.
1 0,2220 0,2727 -0,0507 -2,02 R
10 0,4560 0,3485 0,1075 2,05 R
25 0,2510 0,1285 0,1225 2,23 R
26 0,0000 -0,0246 0,0246 2,80 R

Residuo grande

26

También podría gustarte