Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los datos:
En la descripción general de la data contenida en el repositorio,
señala que “todos los datos numéricos se normalizaron en el rango
decimal 0.00-1.00 utilizando un método de agrupación de intervalos
iguales sin supervisión. Los atributos conservan su distribución y
sesgo”; asimismo señala que la “normalización conserva
proporciones aproximadas de valores dentro de un atributo (por
ejemplo, el doble del valor para el doble de la población dentro de la
precisión disponible, excepto los valores extremos (todos los valores
más de 3 SD por encima de la media se normalizan a 1,00; todos los
valores más de 3 SD por debajo la media se normaliza a 0.00)).”
Para esto, primero ubicamos aquellas variables que contengan datos NA, si
representan mas del 10% de las instancias observadas, no la
consideraremos.
Estadística descriptiva
Los criterios utilizados para seleccionar las variables antes de llevarlos a R
studio, son bajo el supuesto que los crímenes violentos tienen relación con
la pobreza, grado de estudio, ocupación, medio de obtención de ingresos,
característica racial, densidad poblacional. La variable predictiva es
discreta continua, por lo que el problema es de regresión.
install.packages("pastecs")
library(pastecs)
library(e1071)
res = stat.desc(crimi)
round(res, 4)
sum=summary(crimi)
skew=apply(crimi,2,skewness,na.rm=T)
Se observa que el rango es 1 para todas las variables, la escala se presenta en una sola unidad; confirmando la información
mencionada en el repositorio, la data se encuentra normalizada.
Idealmente se espera que el sesgo este entre 1 y -1. Las variables en su mayoría tienen un sesgo por encima de 1, incluso la
variable población y territorio esta sobre 5.
CI.mean
agrupacion Variable tipo nbr.val Min. Max. nbr.na Median Mean . 1st Qu. 3rd Qu. SE.mean rango var std.dev coef.var skewness
0.95
0.000 0.016
population numeric 1994 0.0000 1.0000 0.0200 0.0576 0.0056 0.0100 0.0500 0.0028 1.0000 0.1269 2.2035 5.0563406
0 1
0.000 0.012
Datos LandArea numeric 1994 0.0000 1.0000 0.0400 0.0652 0.0048 0.0200 0.0700 0.0025 1.0000 0.1095 1.6780 5.6990672
0 0
poblacionale
0.000 0.041
s PopDens numeric 1994 0.0000 1.0000 0.1700 0.2329 0.0089 0.1000 0.2800 0.0045 1.0000 0.2031 0.8722 1.9451659
0 2
0.000 0.053
PctForeignBorn numeric 1994 0.0000 1.0000 0.1300 0.2156 0.0102 0.0600 0.2800 0.0052 1.0000 0.2311 1.0723 1.754321
0 4
0.000 0.064
racepctblack numeric 1994 0.0000 1.0000 0.0600 0.1796 0.0111 0.0200 0.2300 0.0057 1.0000 0.2534 1.4109 1.8605376
0 2
0.000 0.059
Población racePctWhite numeric 1994 0.0000 1.0000 0.8500 0.7537 0.0107 0.6300 0.9400 0.0055 1.0000 0.2440 0.3238 -1.2985329
0 6
por origen
0.000 0.043
racial racePctAsian numeric 1994 0.0000 1.0000 0.0700 0.1537 0.0092 0.0400 0.1700 0.0047 1.0000 0.2089 1.3592 2.6004776
0 6
0.000 0.054
racePctHisp numeric 1994 0.0000 1.0000 0.0400 0.1440 0.0102 0.0100 0.1600 0.0052 1.0000 0.2325 1.6143 2.412143
0 1
0.000 0.024
agePct12t21 numeric 1994 0.0000 1.0000 0.4000 0.4242 0.0068 0.3400 0.4700 0.0035 1.0000 0.1552 0.3658 1.5745362
0 1
0.000 0.020
agePct12t29 numeric 1994 0.0000 1.0000 0.4800 0.4939 0.0063 0.4100 0.5400 0.0032 1.0000 0.1436 0.2907 1.3049166
Grupos 0 6
etarios 0.000 0.027
agePct16t24 numeric 1994 0.0000 1.0000 0.2900 0.3363 0.0073 0.2500 0.3600 0.0037 1.0000 0.1665 0.4952 2.3706404
0 7
0.000 0.032
agePct65up numeric 1994 0.0000 1.0000 0.4200 0.4232 0.0079 0.3000 0.5300 0.0040 1.0000 0.1792 0.4234 0.4621038
0 1
datos 0.000 0.197
pctUrban numeric 1994 0.0000 1.0000 1.0000 0.6963 0.0195 0.0000 1.0000 0.0100 1.0000 0.4448 0.6388 -0.8843025
vivienda 0 9
householdsize numeric 1994 0.0000 1.0000 0.000 0.4400 0.4634 0.0072 0.3500 0.5400 0.0037 1.0000 0.026 0.1637 0.3533 0.9798245
CI.mean
agrupacion Variable tipo nbr.val Min. Max. nbr.na Median Mean . 1st Qu. 3rd Qu. SE.mean rango var std.dev coef.var skewness
0.95
0 8
0.000 0.033
pctWWage numeric 1994 0.0000 1.0000 0.5600 0.5582 0.0080 0.4400 0.6900 0.0041 1.0000 0.1829 0.3277 -0.373174
0 5
0.000 0.041
pctWFarmSelf numeric 1994 0.0000 1.0000 0.2300 0.2916 0.0090 0.1600 0.3700 0.0046 1.0000 0.2041 0.7000 1.5354725
0 7
0.000 0.031
pctWInvInc numeric 1994 0.0000 1.0000 0.4800 0.4957 0.0078 0.3700 0.6200 0.0040 1.0000 0.1781 0.3592 0.2412242
0 7
0.000 0.030
pctWSocSec numeric 1994 0.0000 1.0000 0.4750 0.4711 0.0076 0.3500 0.5800 0.0039 1.0000 0.1736 0.3685 0.1102526
0 1
0.000 0.049
pctWPubAsst numeric 1994 0.0000 1.0000 0.2600 0.3178 0.0098 0.1425 0.4400 0.0050 1.0000 0.2221 0.6990 1.096013
0 3
0.000 0.028
pctWRetire numeric 1994 0.0000 1.0000 0.4700 0.4792 0.0074 0.3600 0.5800 0.0038 1.0000 0.1676 0.3496 0.4513799
0 1
0.000 0.036
perCapInc numeric 1994 0.0000 1.0000 0.3000 0.3503 0.0084 0.2200 0.4300 0.0043 1.0000 0.1911 0.5456 1.3540397
0 5
0.000 0.034
whitePerCap numeric 1994 0.0000 1.0000 0.3200 0.3680 0.0082 0.2400 0.4400 0.0042 1.0000 0.1868 0.5076 1.3839608
0 9
0.000 0.029
blackPerCap numeric 1994 0.0000 1.0000 0.2500 0.2911 0.0075 0.1725 0.3800 0.0038 1.0000 0.1716 0.5895 1.3459464
0 4
0.000 0.027
indianPerCap numeric 1994 0.0000 1.0000 0.1700 0.2035 0.0072 0.1100 0.2500 0.0037 1.0000 0.1648 0.8097 2.0771638
0 2
0.000 0.038
AsianPerCap numeric 1994 0.0000 1.0000 0.2800 0.3224 0.0086 0.1900 0.4000 0.0044 1.0000 0.1954 0.6062 1.2913186
0 2
0.000 0.036
OtherPerCap numeric 1994 0.0000 1.0000 0.2500 0.2846 0.0084 0.1700 0.3600 0.0043 1.0000 0.1911 0.6714 1.4031531
0 5
0.000 0.033
HispPerCap numeric 1994 0.0000 1.0000 0.3450 0.3863 0.0080 0.2600 0.4800 0.0041 1.0000 0.1831 0.4740 1.1822894
0 5
0.000 0.052
PctPopUnderPov numeric 1994 0.0000 1.0000 0.2500 0.3030 0.0100 0.1100 0.4500 0.0051 1.0000 0.2285 0.7540 0.9223249
0 2
0.000 0.042
PctWOFullPlumb numeric 1994 0.0000 1.0000 0.1900 0.2431 0.0091 0.1000 0.3300 0.0046 1.0000 0.2063 0.8487 1.5705433
0 6
0.000 0.045
PctLess9thGrade numeric 1994 0.0000 1.0000 0.2700 0.3158 0.0094 0.1600 0.4200 0.0048 1.0000 0.2134 0.6756 1.232229
Educación 0 5
PctNotHSGrad numeric 1994 0.0000 1.0000 0.000 0.3600 0.3833 0.0089 0.2300 0.5100 0.0045 1.0000 0.041 0.2025 0.5283 0.5827616
CI.mean
agrupacion Variable tipo nbr.val Min. Max. nbr.na Median Mean . 1st Qu. 3rd Qu. SE.mean rango var std.dev coef.var skewness
0.95
0 0
0.000 0.043
PctBSorMore numeric 1994 0.0000 1.0000 0.3100 0.3617 0.0092 0.2100 0.4600 0.0047 1.0000 0.2092 0.5784 1.1390663
0 8
0.000 0.040
PctUnemployed numeric 1994 0.0000 1.0000 0.3200 0.3635 0.0089 0.2200 0.4800 0.0045 1.0000 0.2022 0.5561 0.9329714
Indicador de 0 9
empleo 0.000 0.030
PctEmploy numeric 1994 0.0000 1.0000 0.5100 0.5011 0.0076 0.3800 0.6275 0.0039 1.0000 0.1740 0.3473 -0.254345
0 3
0.000 0.041
PctEmplManu numeric 1994 0.0000 1.0000 0.3700 0.3964 0.0089 0.2500 0.5200 0.0045 1.0000 0.2024 0.5106 0.6512525
0 0
Grupos de 0.000 0.030
PctEmplProfServ numeric 1994 0.0000 1.0000 0.4100 0.4406 0.0077 0.3200 0.5300 0.0039 1.0000 0.1755 0.3982 0.9218863
ocupación 0 8
0.000 0.034
PctOccupMgmtProf numeric 1994 0.0000 1.0000 0.4000 0.4413 0.0082 0.3100 0.5400 0.0042 1.0000 0.1863 0.4221 0.892287
0 7
0.000 0.051
PctSpeakEnglOnly numeric 1994 0.0000 1.0000 0.8700 0.7859 0.0100 0.7300 0.9400 0.0051 1.0000 0.2269 0.2887 -1.9404551
Grupos por 0 5
lengua 0.000 0.048
PctNotSpeakEnglWell numeric 1994 0.0000 1.0000 0.0600 0.1506 0.0096 0.0300 0.1600 0.0049 1.0000 0.2197 1.4591 2.5997927
0 3
0.000 0.028
MedRentPctHousInc numeric 1994 0.0000 1.0000 0.4800 0.4901 0.0074 0.3700 0.5900 0.0038 1.0000 0.1695 0.3458 0.464206
0 7
costo de 0.000 0.010
NumInShelters numeric 1994 0.0000 1.0000 0.0000 0.0294 0.0045 0.0000 0.0100 0.0023 1.0000 0.1026 3.4855 6.729456
vivienda 0 5
0.000 0.010
NumStreet numeric 1994 0.0000 1.0000 0.0000 0.0228 0.0044 0.0000 0.0000 0.0022 1.0000 0.1004 4.4077 7.0090067
0 1
0.000 0.052
transporte PctUsePubTrans numeric 1994 0.0000 1.0000 0.0700 0.1617 0.0101 0.0200 0.1900 0.0051 1.0000 0.2291 1.4167 2.2221107
0 5
Variable de 0.000 0.054
ViolentCrimesPerPop numeric 1994 0.0000 1.0000 0.1500 0.2380 0.0102 0.0700 0.3300 0.0052 1.0000 0.2330 0.9790 1.5203085
predicción 0 3
Para visualizar mejor esta información, usaremos Histogramas y diagrama de cajas:
multi.hist(crimi, dcol = c("blue", "red"), dlty = c("dotted", "solid"), main = names (crimi) )
Las variables referentes a datos poblacionales, por origen racial, por lengua madre, tienen una distribución exponencial. El
resto de las variables tiene una distribución gaussianas.
Las variables: número de personas en refugios y en las calles y % de personas que viven en áreas clasificadas como
urbanas, tiene una distribución inversa.
Se observa que en todas las variables existen datos dispersos.y se ratifica la necesidad de eliminar del estudio la variables
número de personas en refugios y en las calles y % de personas que viven en áreas clasificadas como urbanas e incluso
las referentes al tipo de lenguaje de comunicación.
}
Luego del análisis de la información, se realizara:
trainControl=trainControl(method="repeatedcv",number=10,repeats=3)
metric="RMSE"
#lm
set.seed(7)
fit.lm=train (ViolentCrimesPerPop~., data=dataset,
method="lm", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
#glm
set.seed(7)
fit.glm=train (ViolentCrimesPerPop~., data=dataset,
method="glm", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
#glmnet
set.seed(7)
fit.glmnet=train (ViolentCrimesPerPop~., data=dataset,
method="glmnet", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
#svmRadial
set.seed(7)
fit.svmRadial=train (ViolentCrimesPerPop~., data=dataset,
method="svmRadial", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
#cart
set.seed(7)
grid=expand.grid(.cp=c(0, 0.05, 0.1))
fit.cart=train (ViolentCrimesPerPop~., data=dataset,
method="rpart", metric=metric,
tuneGrid=grid,preProc=c("center","scale"),
trControl=trainControl)
#knn
set.seed(7)
fit.knn=train (ViolentCrimesPerPop~., data=dataset,
method="knn", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
Call:
summary.resamples(object = results)
MAE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.08749235 0.09374227 0.09701032 0.09852143 0.10251724 0.1129021 0
GLM 0.08749235 0.09374227 0.09701032 0.09852143 0.10251724 0.1129021 0
GLMNET 0.08803657 0.09359802 0.09659881 0.09822669 0.10268800 0.1118003 0
SVM 0.07941428 0.08811010 0.09296086 0.09292859 0.09796217 0.1092308 0
CART 0.09830279 0.10934891 0.11467177 0.11681118 0.12454744 0.1309480 0
KNN 0.08821667 0.09616174 0.10272992 0.10214240 0.10741365 0.1179264 0
RMSE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.1261447 0.1320444 0.1384337 0.1420601 0.1524620 0.1606139 0
GLM 0.1261447 0.1320444 0.1384337 0.1420601 0.1524620 0.1606139 0
GLMNET 0.1261650 0.1320710 0.1377425 0.1418011 0.1522931 0.1603222 0
SVM 0.1232707 0.1333404 0.1409585 0.1413864 0.1508881 0.1677838 0
CART 0.1463041 0.1611728 0.1722802 0.1721179 0.1829153 0.1967691 0
KNN 0.1263754 0.1404660 0.1487644 0.1488119 0.1567058 0.1728071 0
Rsquared
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.5265949 0.6024129 0.6297996 0.6303315 0.6617646 0.7239511 0
GLM 0.5265949 0.6024129 0.6297996 0.6303315 0.6617646 0.7239511 0
GLMNET 0.5305593 0.6026923 0.6316276 0.6315747 0.6619651 0.7245564 0
SVM 0.5625437 0.6055271 0.6407794 0.6437044 0.6631537 0.7308535 0
CART 0.3779416 0.4612384 0.4896917 0.4918105 0.5299616 0.6018571 0
KNN 0.5148965 0.5582517 0.5922204 0.5967236 0.6268885 0.7150980 0
set.seed(7)
cutoff=0.40
correlations=cor(dataset[,2:43])
highlyCorrelated=findCorrelation(correlations, cutoff=cutoff)
for(value in highlyCorrelated){
print(names(dataset)[value])}
Call:
summary.resamples(object = results)
MAE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.09256560 0.09882830 0.1018504 0.10381582 0.1079037 0.1212043 0
GLM 0.09256560 0.09882830 0.1018504 0.10381582 0.1079037 0.1212043 0
GLMNET 0.09199530 0.09875420 0.1013716 0.10349096 0.1076878 0.1205771 0
SVM 0.08657959 0.09114799 0.0971904 0.09629749 0.1000874 0.1163926 0
CART 0.09368122 0.10850930 0.1143733 0.11431631 0.1219520 0.1275434 0
KNN 0.09240881 0.10062681 0.1047846 0.10623914 0.1113832 0.1277475 0
RMSE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.1302534 0.1392251 0.1450880 0.1478570 0.1563816 0.1727139 0
GLM 0.1302534 0.1392251 0.1450880 0.1478570 0.1563816 0.1727139 0
GLMNET 0.1302987 0.1394323 0.1446733 0.1476979 0.1559596 0.1727945 0
SVM 0.1299826 0.1395079 0.1444542 0.1457050 0.1539150 0.1772775 0
CART 0.1388402 0.1603909 0.1660102 0.1682997 0.1778981 0.1926495 0
KNN 0.1321091 0.1457085 0.1548370 0.1541662 0.1606415 0.1854749 0
Rsquared
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.5111381 0.5649921 0.6000946 0.5987994 0.6397817 0.6886747 0
GLM 0.5111381 0.5649921 0.6000946 0.5987994 0.6397817 0.6886747 0
GLMNET 0.5138952 0.5620769 0.6002394 0.5995653 0.6373534 0.6897053 0
SVM 0.5114866 0.5974567 0.6234899 0.6213963 0.6449475 0.7233293 0
CART 0.3905579 0.4742293 0.5007077 0.5081291 0.5403991 0.6630639 0
KNN 0.4625980 0.5365680 0.5644785 0.5683436 0.5977895 0.6589267 0
print(fit.svmRadial)
Optimizando:
#optimizacion
trainControl= trainControl (method="repeatedcv" ,number=10,
repeats=3)
metric="RMSE"
set.seed(7)
grid=expand.grid(.sigma=c(0.025,0.05,0.1,0.15),.C=seq(1,10,by=1))
fit.svm=train (ViolentCrimesPerPop~., data=dataset,
method="svmRadial", metric=metric, tuneGrid=grid,
preProc=c("center","scale"),
trControl=trainControl)
1597 samples
43 predictor
RMSE was used to select the optimal model using the smallest value.
The final values used for the model were sigma = 0.025 and C = 2.
Modelos de conjuntos:
#algoritmos de conjuntos
trainControl= trainControl (method="repeatedcv" ,number=10,
repeats=3)
metric="RMSE"
set.seed(7)
set.seed(7)
fit.cubist=train (ViolentCrimesPerPop~., data=dataset,
method="cubist", metric=metric,preProc=c("center","scale"),
trControl=trainControl)
ensembleResults=resamples (list(RF=fit.rf, GBM=fit.gbm,CUBIST=
fit.cubist))
summary(ensembleResults)
dotplot(ensembleResults)
Los enfoques adicionales que podría considerar serían combinarlas predicciones de
múltiples modelos con buen desempeño, llamadosapilamiento.
Gradient Boosting Machines (GBM).
Cubist, boosting (CUBIST).
Call:
summary.resamples(object = ensembleResults)
Models: GBM, CUBIST
Number of resamples: 30
MAE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
GBM 0.08373713 0.09077522 0.09262126 0.09369483 0.09700011 0.1113499 0
CUBIST 0.07586999 0.08506624 0.08861626 0.08890786 0.09256531 0.1025764 0
RMSE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
GBM 0.1159046 0.1295228 0.1354591 0.1373133 0.1407578 0.1670894 0
CUBIST 0.1172576 0.1264970 0.1332740 0.1341618 0.1414475 0.1562810 0
Rsquared
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
GBM 0.5110692 0.6183930 0.6668635 0.6511606 0.6910464 0.7268119 0
CUBIST 0.6025900 0.6378481 0.6738286 0.6738987 0.7002481 0.7685590 0
Los resultados
population. Land rea, popdens, racepctwhite, racepctblack, racepctasian;
racepcthisp
, población tamaño de territorio Del análisis preliminar se pueden extraer
las siguientes conclusiones:
Hasta aca se entreno los datos basado en una selecciòn por correlaciòn.
Se volvio a analizar la estadistica de los datos y la naturaleza de las
variables, se realizo una prueba basado en conocimiento utilizando el
entrenamiento con lm con VarImp, considerando una mejor opciòn, por
cuanto las variables que resultan de esto estan comprometidas con los
crimenes violentos, mientras que el tamaño de la poblaciòn, puede ser
refrencial pero no es causa efecto, al igual el origen de nacimiento,
respecto al grupo de raza, nos sugiere no inclusiòn del caucasico, por
cuanto al existir en la data el detalle de las otras razas esta se anula, en los
grupos etarios, el rango de 12 a 29 debe quedar, el porcentaje de espacios
urbanos, el tipo de ingreso es importante por tanto queda, recomienda se
quede uan sola variable de este grupo, en los resultados no se incluye el
indicador de pobreza, discutible pero se mantendra para el ejercicio, el
grado de instrucciòn puede er determinaqnte, tambien se encuentra dentro
de los resultados. En empleo solo una variable, quita lo referente al mode
de comuicacion eliminandose el uso de idioma, En tipo de vivienda,
tambien encontramos dos variale recomendada, los que viven en refugios
o en las calles.
Barbara D. Warner, Pamela Wilcox Rountree, Local Social Ties in a Community and Crime
Model: Questioning the Systemic Nature of Informal Social Control, Social Problems,
Volume 44, Issue 4, 1 November 1997, Pages 520–536, https://doi.org/10.2307/3097221
trainControl=trainControl(method="repeatedcv",number=10,re
peats=3)
> metric="RMSE"
>
> #lm
> set.seed(7)
> fit.lm=train (ViolentCrimesPerPop~., data=dataset,
+ method="lm", metric=metric,
preProc=c("center","scale"),
+ trControl=trainControl)
>
> varImp(fit.lm)
x=datasetnew[,1:20]
y=datasetnew[,21]
trainControl=trainControl(method="repeatedcv",number=10,repeats=3)
set.seed(seed)
metric="RMSE"
#lm
set.seed(7)
fit.lm=train (x, y, method="lm", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
#glm
set.seed(7)
fit.glm=train (x,y, method="glm", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
#glmnet
set.seed(7)
fit.glmnet=train (x,y, method="glmnet", metric=metric,
preProc=c("center","scale"),
trControl=trainControl)
#svmRadial
set.seed(7)
fit.svmRadial=train (x,y, method="svmRadial", metric=metric,
preProc=c("center","scale"),
trControl=trainControl)
#cart
set.seed(7)
grid=expand.grid(.cp=c(0, 0.05, 0.1))
fit.cart=train (x,y, method="rpart", metric=metric,
tuneGrid=grid,preProc=c("center","scale"),
trControl=trainControl)
#knn
set.seed(7)
fit.knn=train (x,y, method="knn", metric=metric, preProc=c("center","scale"),
trControl=trainControl)
summary(results)
dotplot(results)
Call:
summary.resamples(object = results)
MAE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.08749235 0.09374227 0.09701032 0.09852143 0.10251724 0.1129021 0
GLM 0.08808089 0.09307924 0.09634346 0.09787535 0.10355017 0.1113554 0
GLMNET 0.08811955 0.09297459 0.09616594 0.09772756 0.10339078 0.1110553 0
SVM 0.08464193 0.08970630 0.09548580 0.09422715 0.09723873 0.1086665 0
CART 0.10174256 0.10833790 0.11734153 0.11679776 0.12303299 0.1310171 0
KNN 0.08999583 0.09965278 0.10384783 0.10386564 0.10758019 0.1180069 0
RMSE
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.1261447 0.1320444 0.1384337 0.1420601 0.1524620 0.1606139 0
GLM 0.1252761 0.1323176 0.1390980 0.1414302 0.1515376 0.1598814 0
GLMNET 0.1253533 0.1323710 0.1390628 0.1414324 0.1515067 0.1599202 0
SVM 0.1256723 0.1362644 0.1419940 0.1442555 0.1530578 0.1739923 0
CART 0.1502282 0.1616303 0.1748007 0.1716571 0.1797295 0.1900227 0
KNN 0.1299664 0.1442352 0.1522498 0.1536050 0.1582297 0.1780163 0
Rsquared
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
LM 0.5265949 0.6024129 0.6297996 0.6303315 0.6617646 0.7239511 0
GLM 0.5435019 0.6064373 0.6307630 0.6338479 0.6651298 0.7221510 0
GLMNET 0.5420361 0.6064001 0.6312709 0.6338135 0.6646142 0.7222964 0
SVM 0.5319560 0.5901415 0.6179090 0.6270552 0.6595415 0.7233964 0
CART 0.3776126 0.4499774 0.4851507 0.4908777 0.5220547 0.6047433 0
KNN 0.4458299 0.5232725 0.5728385 0.5679369 0.6045620 0.6858881 0
1597 samples
20 predictor
En la comparación de los algoritmos tanto lineales como ensamblados, e incluso el SMV opptimizado, el que mejor resultado nos
entrega es CUBIST.
Cubist
1597 samples
20 predictor
RMSE was used to select the optimal model using the smallest value.
The final values used for the model were committees = 20 and neighbors = 0.
Con una búsqueda grid en fase tunning alrededor de los valores señalados entre2 y 30 y
comprobaremos un valor de “neighbors” por encima 0.logramos un incremento de
El menor error es con committees = 23 y neighbors = 0., pero mayor Rsquared con
committees = 27 y neighbors = 0
Attribute usage:
Conds Model
library(e1071)
library (Cubist)
set.seed(7)
x=dataset [ ,1:43]
y=dataset [ ,44]
preprocessParams=preProcess(x, method=c("center","scale"))
transX=predict(preprocessParams, x)
set.seed(7)
valx=validation [ ,1:43]
trans_valx=predict(preprocessParams,valx)
valy=validation [ ,44]
predictions=predict(finalModel,newdata=
trans_valx,neighbors=0)
rmse=R2(predictions,valy)
print(rmse)
Tenemos una rmse de 0.6285599, que no esta mal, pero no es optimo, se debe probar
otros parámetros, y algoritmos para lograr mejor resultado.