Documentos de Académico
Documentos de Profesional
Documentos de Cultura
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
1
Abstract
En este documento se pretende mostrar el trabajo de modelado realizado sobre unabase de datosdeestudiantesdedos
escuelas secundarias portuguesas que incluyen atributos tales como las calificaciones del estudiante, demogrficos, caractersticas
sociales y escolares relacionadas, para predecir el comportamiento de sus notas enelarea de matematicasyal mismo tiempohacer
comparaciones con los resultados de otros autores sobre la misma base de datos o algunas similares... tratado como un problema de
regresin para el cual se simularon resultados de varios mtodosdeaprendizajedemaquina(Regresinmltiple, VentanadeParzen,
Redes Neuronales Artificiales y RandomForest)parahallar elmtodoptimoparala solucin delproblemaypredecir elrendimiento
delosnuevosestudiantesingresadosalsistemalosresultadosmuestranque...
Index Terms
Modelos fenomenolgicos, aprendizaje de maquina, Regresin, Student Performance, Simulation, Regresin
Mltiple,VentanadeParzen,RandomForest,RedesNeuronales.
I.
I
NTRODUCTION
Este documento aborda un problema de aprendizaje de maquina especialmente diseado para evaluar el rendimiento de los
estudiantesdesecundariaenelareadematematicasdedoscolegiosenPortugal...
II.
DESCRIPCIONDELPROBLEMA
Este documento aborda un problema de aprendizaje de maquina especialmente diseado para evaluar el rendimiento de los
estudiantes de secundaria en el rea de matemticas conbasesdedatostomadasdedoscolegiosenPortugal,lascualesincluyen
atributosde los datos d
iscretizados tales como las calificaciones del estudiante,aspectosdemogrficosy caractersticassociales
y escolares relacionadas. El problema se basa en predecir el rendimiento de un nuevo estudiante ingresado al sistema ...fue
tratado comoun problema de regresin donde se busca unasalida numrica entre cero (0%) y veinte (100%), la cual indica la
notadelestudiantealfinaldelao.
Variablesdeentrada
Las variables de entrada tomadas para este experimento fueron las siguientes (las variables de entrada al sistema no estn
organizadasenelmismoordenenquesonmostradasacontinuacin).
1schoolstudent'sschool(binary:'GP'GabrielPereiraor'MS'MousinhodaSilveira)
2sexstudent'ssex(binary:'F'femaleor'M'male)
3agestudent'sage(numeric:from15to22)
4addressstudent'shomeaddresstype(binary:'U'urbanor'R'rural)
5famsizefamilysize(binary:'LE3'lessorequalto3or'GT3'greaterthan3)
6Pstatusparent'scohabitationstatus(binary:'T'livingtogetheror'A'apart)
7 Medu mother's education (numeric: 0 none, 1 primary education (4th grade), 2 5thto 9th grade, 3 secondary
educationor4highereducation)
8 Fedu father's education (numeric: 0 none, 1 primary education (4th grade), 2 5th to 9th grade, 3 secondary
educationor4highereducation)
9Mjobmother'sjob(nominal:'teacher','health'carerelated,civil'services'(e.g.administrativeorpolice),'at_home'or'other')
10Fjobfather'sjob(nominal:'teacher','health'carerelated,civil'services'(e.g.administrativeorpolice),'at_home'or'other')
11reasonreasontochoosethisschool(nominal:closeto'home',school'reputation','course'preferenceor'other')
12guardianstudent'sguardian(nominal:'mother','father'or'other')
1
2
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
13traveltimehometoschooltraveltime(numeric:1<15min.,215to30min.,330min.to1hour,or4>1hour)
14studytimeweeklystudytime(numeric:1<2hours,22to5hours,35to10hours,or4>10hours)
15failuresnumberofpastclassfailures(numeric:nif1<=n<3,else4)
16schoolsupextraeducationalsupport(binary:yesorno)
17famsupfamilyeducationalsupport(binary:yesorno)
18paidextrapaidclasseswithinthecoursesubject(MathorPortuguese)(binary:yesorno)
19activitiesextracurricularactivities(binary:yesorno)
20nurseryattendednurseryschool(binary:yesorno)
21higherwantstotakehighereducation(binary:yesorno)
22internetInternetaccessathome(binary:yesorno)
23romanticwitharomanticrelationship(binary:yesorno)
24famrelqualityoffamilyrelationships(numeric:from1verybadto5excellent)
25freetimefreetimeafterschool(numeric:from1verylowto5veryhigh)
26gooutgoingoutwithfriends(numeric:from1verylowto5veryhigh)
27Dalcworkdayalcoholconsumption(numeric:from1verylowto5veryhigh)
28Walcweekendalcoholconsumption(numeric:from1verylowto5veryhigh)
29healthcurrenthealthstatus(numeric:from1verybadto5verygood)
30absencesnumberofschoolabsences(numeric:from0to93)
Variablesdesalida
Nuestravariabledesalidaesnicaeindicalanotadelestudianteafinaldelao.
G3finalgrade(numeric:from0to20,outputtarget)
III.
TRABAJOSPREVIOS
Se han investigado algunos artculos de divulgacin cientfica (slo artculos de revista) para identificar algunos trabajos
similares sobre bases de datos de estudiantes de secundaria, tales como el de Paulo Cortez y Alice Silva [1] los cuales, con
nuestra misma basede datos asumen el problema comouna regresin yunaclasificacinparaintentarpredecirelfracasoenlas
pruebasdematemticas,paraterminarhallandoRandomForestcomoelmejormodeloparaelproblemaderegresinqueeselde
nuestro inters, con unECM de 3.90. Sin embargo otros estudios como losde M.Ramaswami[2][4]se buscan otrasformasde
resolver estetipodeproblemasconmtodoscomoBayesianNetworks(BN) yCHIAD,usando basesdedatosmuysimilarescon
variables de tipo personal, socioeconmico, psicolgico,ambientales y academicos para describiry predecir elrendimiento de
los estudiantes en las escuelas secundarias [2], mientras que Ramesh, V y Ramar, K [3] tratan el problema como una
clasificacin para hallarel mejor mtodo para clasificar alos estudiantesconaltoobajodesempeo enlasescuelassecundarias,
deacuerdoalasvariablesqueinfluyenaltamenteensurendimientoacadmico.
En M.Ramaswami y R.Bhaskaran [2] seusa un modelode prediccin CHIAD paraanalizar la interrelacion entre las variables
que se utilizan para predecir el resultado deldesempeoenlaeducacinsuperior delaescuelasecundaria.LosmodelosCHIAD
de prediccin del rendimiento fueron construidos con un predictor de variables desiete clases. Una tcnica de regresin lineal
simple fue usada para construir el modelo de regresin, despus de la codificacin de los valores categricos de todas las
variables predictoras en valores numricos. La exactitud de prediccin del rendimiento de los estudiantes que se encontr a
travs de este modelofuedel39,23%.DuranteelprocesodeconstruccindemodelosdeprediccinCHAIDseusel mtodode
validacincruzada(k=10)paralavalidacin.
Mientras en M. Ramaswami [4] han usado el mtodo de BN classifier como una herramienta para predecir el rendimiento
acadmico de los estudiantes, presentan una base de datos con 5650 objetos y 35 atributos para estudiantes de la escuela
secundaria en India. Se entren la Red Bayesiana con 2, 3, 5 y 7categorasde valorde clase con un mtodo de validacin
cruzada con K=10. Los resultados revelaron que la mayor precisin se obtiene con el algoritmo de bsqueda TAN y es de
84.91%para2clases.
3
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
IV.
EXPERIMENTOS
Los experimentos fueron realizadoscon cuatro diferentesmodelos de prediccin, ellos son, Regresin Mltiple(RM),Ventana
de Parzen (VP), RedesNeuronales Artificiales (RNA) y Random Forest (RF). con una metodologa devalidacin cruzadacon
K=10 y con la base de datos del UCI Machine Learning Repository, Student Performance Data Set [x], con un numero de
muestrasde649y33caractersticas.
Normalizacindelasmuestrasusandozscore
Validacincruzada,k=10,sedividelasmuestrasen10.
Intervalodeconfianzade95%
Parael caso de la regresin se us unatasa de aprendizaje de 0.1. y seusa el algoritmo degradientedescendente. Los mejores
resultadosseobservancuandoseutilizanpolinomiosdegradobajo
Gradodel
polinomio
Regresin
RMSE
2
R
IC
4.2027
0.4028
0.0854
4.339
0.38904
0.021876
4.6591
0.33545
0.23012
4.8278
0.49758
0.39702
4.8121
0.41408
0.35095
VentanadeParzen
RMSE
IC
2
R
0.3
5.2074
0.6653
0.4679
0.7
4.7876
0.64573
0.2352
4.4865
0.5435
0.0703
4
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
1.5
4.0947
0.48788
0.13541
1.8
4.0493
0.47328
0.15929
4.06
0.45193
0.15498
Se us la red neuronal perceptrn multicapacon dos capas ocultas y unacapa desalidaconsolounaneurona,cadacapa oculta
tiene el mismo nmero de neuronas. Lafuncion de activacionen las capasoculta es tangente hiperblicayenlacapadesalida
unafuncinlineal.
Nmerode
neuronas
enlacapa
oculta
Redesneuronales
RMSE
IC
R
4.5941
0.49674
0.0826
4.4334
0.34431
0.0339
10
4.4913
0.40474
0.0444
16
4.4809
0.46587
0.0372
20
4.6977
0.33492
0.1682
30
5.1563
0.40507
0.4700
Nmero
de
arboles
RandomForest
RMSE
4.1259
0.37542
0.11694
4.0336
0.39646
0.16015
13
4.0623
0.40799
0.15067
IC
2
R
5
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
20
3.9786
0.40632
0.18361
25
3.9703
0.40677
0.18836
30
3.9457
0.41165
0.19922
31
3.9272
0.39826
0.20565
35
3.9593
0.41543
0.19
LISTO
Tambienseutilizounaregresinporvectoresdesoporteconlossiguientesresultados
//LISTA
Ingrese 1 para regresin multiple, 2 para ventana de parzen,3 para redes neuronales, 4 para randomforest, 5 para vectores de
soporte:5
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9959IC:0.40222Determinacion:0.17523
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.0008IC:0.40564Determinacion:0.17081
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.018IC:0.39862Determinacion:0.16291
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.0203IC:0.41219Determinacion:0.16324
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.999IC:0.41891Determinacion:0.17274
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0185IC:0.40029Determinacion:0.16217
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0093IC:0.41938Determinacion:0.1669
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0062IC:0.42763Determinacion:0.16833
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9882IC:0.41991Determinacion:0.1761
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.0244IC:0.39804Determinacion:0.16005
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.006IC:0.42742Determinacion:0.16838
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9881IC:0.41729Determinacion:0.17472
Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.001IC:0.41518Determinacion:0.17155
Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0416IC:0.40953Determinacion:0.15227
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0382IC:0.42204Determinacion:0.15281
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0126IC:0.42849Determinacion:0.16355
6
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
V.
SELECCINYEXTRACCINDECARACTERSTICAS
Correlacindeparson
SerealizunanlisisdecorrelacindeparsonentrecadacaracteristicaylasalidaY.Seencuentraquelascaractersticas8,9,16
y22tienenunacorrelacininsignificanteconlasalidaY.Seeliminanestascaractersticasysemiraelresultadoconlostres
modelosquedieronmejorresultadoenelpuntoIV(Randomforest,ventanadeparzenySVM)
SVM//paracambiarsidaeltiempo
Eliminandocaracteristicasconcorrelacioninsignificante
Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest:5
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9871IC:0.45024Determinacion:0.17841
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9982IC:0.43633Determinacion:0.17122
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9863IC:0.44316Determinacion:0.17547
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.0074IC:0.43748Determinacion:0.16856
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0021IC:0.45797Determinacion:0.17222
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9887IC:0.44402Determinacion:0.17488
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9756IC:0.44891Determinacion:0.1798
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9899IC:0.44728Determinacion:0.17432
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9916IC:0.45573Determinacion:0.1738
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.0346IC:0.4542Determinacion:0.15611
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.998IC:0.4673Determinacion:0.17094
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.995IC:0.44867Determinacion:0.1711
Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0306IC:0.46279Determinacion:0.15671
Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.035IC:0.44858Determinacion:0.15417
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0296IC:0.4695Determinacion:0.15789
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.013IC:0.46054Determinacion:0.16428
7
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
AnalisisPCA
SVM//voyLISTA
*****PCA*****
Numerodecaractersticasqueexplicanunavarianzamayoral85%:20
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.97IC:0.43903Determinacion:0.18702
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9577IC:0.41996Determinacion:0.18998
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9445IC:0.43027Determinacion:0.19743
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9562IC:0.44071Determinacion:0.19415
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9819IC:0.40827Determinacion:0.17817
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.953IC:0.43071Determinacion:0.19008
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9358IC:0.42048Determinacion:0.19691
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9471IC:0.41524Determinacion:0.1936
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9779IC:0.41688Determinacion:0.17923
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9633IC:0.42591Determinacion:0.18492
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.958IC:0.4175Determinacion:0.18678
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.929IC:0.41098Determinacion:0.19884
Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0117IC:0.42498Determinacion:0.16323
Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=3.9854IC:0.43363Determinacion:0.1735
8
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=3.9664IC:0.42507Determinacion:0.18152
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=3.9477IC:0.41901Determinacion:0.18949
VentanaParzen//Voy..LISTA
*****PCA*****
Numerodecaracteristicasqueexplicanunavarianzamayoral85%:20
Ventanadeparzen
H:0.3
raizcuadradadelerrorcuadraticomedio=5.3826IC:0.48801Determinacion:0.57041
H:0.7
raizcuadradadelerrorcuadraticomedio=4.9479IC:0.48167Determinacion:0.31497
H:1
raizcuadradadelerrorcuadraticomedio=4.5202IC:0.47499Determinacion:0.080059
H:1.5
raizcuadradadelerrorcuadraticomedio=4.1189IC:0.47048Determinacion:0.12244
H:1.8
raizcuadradadelerrorcuadraticomedio=4.0702IC:0.47587Determinacion:0.15043
H:2
raizcuadradadelerrorcuadraticomedio=4.0826IC:0.47081Determinacion:0.14741
RANDOMFOREST//...LISTA
*****PCA*****
Numerodecaracteristicasqueexplicanunavarianzamayoral85%:20
RandomForest
Numerodearboles:25
raizcuadradadelerrorcuadraticomedio=4.1338IC:0.45505Determinacion:0.1204
Numerodearboles:31
raizcuadradadelerrorcuadraticomedio=4.1357IC:0.45922Determinacion:0.12098
Numerodearboles:35
raizcuadradadelerrorcuadraticomedio=4.1347IC:0.45873Determinacion:0.12112
Numerodearboles:37
raizcuadradadelerrorcuadraticomedio=4.1316IC:0.45277Determinacion:0.12146
Numerodearboles:40
raizcuadradadelerrorcuadraticomedio=4.108IC:0.45391Determinacion:0.13169
Numerodearboles:45
9
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
raizcuadradadelerrorcuadraticomedio=4.1141IC:0.44588Determinacion:0.1273
Numerodearboles:55
raizcuadradadelerrorcuadraticomedio=4.1185IC:0.44498Determinacion:0.12781
SFS
Serealizounaselecciondecaracteristicasusandoelmetodosequencialforwardselectionusandocomofuncinobjetivoelerror
cuadrticomediousandorandomforest.LascaracteristicasseleccionadasporelmetodoSFSfueron4,8,12,16,20
SVM
//...LISTO
*****SFS*****
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4569IC:0.39285Determinacion:0.02317
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4508IC:0.39428Determinacion:0.019858
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4454IC:0.40338Determinacion:0.016248
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4289IC:0.40591Determinacion:0.0085199
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4588IC:0.39488Determinacion:0.023636
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4569IC:0.39104Determinacion:0.023007
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.447IC:0.40311Determinacion:0.017047
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4289IC:0.40648Determinacion:0.0084339
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4514IC:0.39352Determinacion:0.020521
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4573IC:0.39212Determinacion:0.023064
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4442IC:0.39905Determinacion:0.016082
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.434IC:0.40503Determinacion:0.010927
Gamma:10boxConstraint1.5
10
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
raizcuadradadelerrorcuadraticomedio=4.4393IC:0.38769Determinacion:0.015744
Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4493IC:0.38922Determinacion:0.019903
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4532IC:0.39464Determinacion:0.020972
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4365IC:0.40519Determinacion:0.012152
Ventanadeparzen//LISTA
Ventanadeparzen
H:0.3
raizcuadradadelerrorcuadraticomedio=4.7885IC:0.48778Determinacion:0.17863
H:0.7
raizcuadradadelerrorcuadraticomedio=4.6202IC:0.45781Determinacion:0.094615
H:1
raizcuadradadelerrorcuadraticomedio=4.5551IC:0.44589Determinacion:0.064199
H:1.5
raizcuadradadelerrorcuadraticomedio=4.4899IC:0.43391Determinacion:0.03444
H:1.8
raizcuadradadelerrorcuadraticomedio=4.4699IC:0.43065Determinacion:0.025429
H:2
RandomForest//LISTA
*****SFS*****
RandomForest
Numerodearboles:8
raizcuadradadelerrorcuadraticomedio=4.5482IC:0.453Determinacion:0.062626
Numerodearboles:13
raizcuadradadelerrorcuadraticomedio=4.5849IC:0.49156Determinacion:0.075329
Numerodearboles:17
raizcuadradadelerrorcuadraticomedio=4.5951IC:0.45703Determinacion:0.082706
Numerodearboles:20
raizcuadradadelerrorcuadraticomedio=4.5935IC:0.46252Determinacion:0.081773
Numerodearboles:25
raizcuadradadelerrorcuadraticomedio=4.592IC:0.45395Determinacion:0.082494
Numerodearboles:30
raizcuadradadelerrorcuadraticomedio=4.5706IC:0.45141Determinacion:0.071853
Numerodearboles:35
raizcuadradadelerrorcuadraticomedio=4.6053IC:0.44887Determinacion:0.088384
11
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
LASSO
Seutilizolatecnicalassoparaselecciondecaracteristicas.ElresultadodeLassoesquesepuedendescartarlascaracteristicas1,
5,14y23
svm//LISTA
Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest,5paravectoresde
soporte:5
****LASSO****
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4347IC:0.41594Determinacion:0.010863
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.433IC:0.41001Determinacion:0.010628
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4293IC:0.40556Determinacion:0.0090376
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4285IC:0.40462Determinacion:0.0094435
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4342IC:0.41798Determinacion:0.01049
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4232IC:0.41161Determinacion:0.005946
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4165IC:0.40546Determinacion:0.003209
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4392IC:0.41009Determinacion:0.013646
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4319IC:0.41845Determinacion:0.0093992
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4245IC:0.41087Determinacion:0.0067586
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4286IC:0.41278Determinacion:0.0081973
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.433IC:0.40374Determinacion:0.011433
Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4364IC:0.41702Determinacion:0.011517
Gamma:13boxConstraint1.5
12
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
raizcuadradadelerrorcuadraticomedio=4.4241IC:0.41076Determinacion:0.006661
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4299IC:0.40941Determinacion:0.0092846
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4295IC:0.4035Determinacion:0.009366
Ventanaparzen//VoyLISTA
Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest,5paravectoresde
soporte:2
****LASSO****
Ventanadeparzen
H:0.3
raizcuadradadelerrorcuadraticomedio=4.7381IC:0.48489Determinacion:0.15224
H:0.7
raizcuadradadelerrorcuadraticomedio=4.5843IC:0.45096Determinacion:0.077744
H:1
raizcuadradadelerrorcuadraticomedio=4.5202IC:0.43955Determinacion:0.048197
H:1.5
raizcuadradadelerrorcuadraticomedio=4.4685IC:0.43042Determinacion:0.02476
H:1.8
raizcuadradadelerrorcuadraticomedio=4.4536IC:0.42801Determinacion:0.018067
H:2
raizcuadradadelerrorcuadraticomedio=4.4461IC:0.42639Determinacion:0.014743
RandomForest//voy
Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest,5paravectoresde
soporte:4
****LASSO****
RandomForest
Numerodearboles:5
raizcuadradadelerrorcuadraticomedio=4.9311IC:0.46111Determinacion:0.26332
Numerodearboles:8
raizcuadradadelerrorcuadraticomedio=4.8778IC:0.46194Determinacion:0.22904
Numerodearboles:13
raizcuadradadelerrorcuadraticomedio=4.842IC:0.45169Determinacion:0.20982
Numerodearboles:20
raizcuadradadelerrorcuadraticomedio=4.8869IC:0.49981Determinacion:0.2271
Numerodearboles:25
raizcuadradadelerrorcuadraticomedio=4.8679IC:0.46837Determinacion:0.22011
Numerodearboles:30
raizcuadradadelerrorcuadraticomedio=4.8276IC:0.48978Determinacion:0.19801
Numerodearboles:31
raizcuadradadelerrorcuadraticomedio=4.8314IC:0.48308Determinacion:0.19975
Numerodearboles:35
raizcuadradadelerrorcuadraticomedio=4.8313IC:0.46706Determinacion:0.201
13
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
Numerodearboles:40
raizcuadradadelerrorcuadraticomedio=4.8637IC:0.47316Determinacion:0.2172
VI.
ANLISISDERESULTADOS
Los resultados han demostrado quees dificilrealizar predicciones sobre el desempeo de los estudiantes, esto esdebido a que
aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) esdeterminante las capacidades y
motivacin del alumno a la hora de su desempeo acadmico. El mejor modelo delos considerados anteriormente fue random
forest,una de las razones es que el mtodo de random forest no se vetan afectado por problemas de datosnobalanceados(La
mayoradelosalumnostienenasacarpuntajeporencimade10).
Comotrabajofuturoseinvestigarculesvariablessonmsimportantesenladeterminacindelanotadelosalumnos
VII.
PREDICCIONESDELMEJORMODELO
14
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
VIII.
Conclusion
En el trabajodepredecireldesempeodelosestudiantes usandotcnicasdeinteligenciaartificiallamayoradeesfuerzossehan
realizadotratandolasituacincomounproblemadeclasificacin(desempeobajo,medio,alto,etc)pordosrazonesprincipales:
La primera esquealserunproblematancomplejo,muchas variablesycasosatpicos,esdificilobtenerbuenos resultados silo
que se buscaes exactitudenlanota.Lasegundaraznes quenoestan importantepronosticarlanotaexactadeunestudiante,lo
que se buscaes tener unaidea de quevariables desempeanun papel ms importante y un desempeo probabledel estudiante
(rendimientobajooalto)parapoderdefiniraccionesarealizar.
15
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
IX.
REFERENCIAS
[1]
Cortez,PauloandSilva,Alice,USINGDATAMININGTOPREDICTSECONDARYSCHOOLSTUDENTPERFORMANCE,
Vol.67,,No.8,February2013.
Ramaswami, M, Student Performance Prediction, International Journal of Computational Intelligenceand Informatics,Vol. 1, No: 4, JanuaryMarch
2012.
Ramaswami, M, Bhaskaran, R,A CHAID Based Performance Prediction Model in Educational Data Mining, IJCSI InternationalJournalofComputer
ScienceIssues,Vol7,No1,January2010.
//cambiaresto
TecnologynoTECnology,//FUBUTEC
Z=1o2//pesosalasclasesminoritarias=2
Grafica,SoloparaRF
CorregirelDoc//losprrafosquenoestanalineadosylasreferencias
Clasificaciondelmejormodelo
05
5101015
1520
//hacerSmote
Box
Gam
MquinasdeSoporteVectorial
Constrain
ma
t
RMSE
IC
R2
0.5
4.4028
0.41882
0.00531
0.5
10
4.0316
0.42114
0.15963
0.5
25
3.9715
0.42765
0.18556
0.5
30
3.9949
0.42132
0.17459
4.4085
0.41461
0.00219
10
4.0021
0.45797
0.17222
25
4.0033
0.43847
0.16837
30
3.9967
0.43805
0.17343
10
4.4224
0.41432
0.00434
10
10
4.2411
0.48112
0.05707
10
25
4.2431
0.51793
0.05783
16
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<
Predicciones2.0
10
30
4.2342
0.4923
0.06175
20
4.4216
0.41125
0.00438
20
10
4.2788
0.47978
0.03893
20
25
4.3975
0.50396
0.01882
20
30
4.3517
0.5046
0.00154