Está en la página 1de 16

1

>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
1

USING DATA MINING TO PREDICT SECONDARY


SCHOOL STUDENT PERFORMANCE (Math) //cambiar a
espaol

Abstract
En este documento se pretende mostrar el trabajo de modelado realizado sobre unabase de datosdeestudiantesdedos
escuelas secundarias portuguesas que incluyen atributos tales como las calificaciones del estudiante, demogrficos, caractersticas
sociales y escolares relacionadas, para predecir el comportamiento de sus notas enelarea de matematicasyal mismo tiempohacer
comparaciones con los resultados de otros autores sobre la misma base de datos o algunas similares... tratado como un problema de
regresin para el cual se simularon resultados de varios mtodosdeaprendizajedemaquina(Regresinmltiple, VentanadeParzen,
Redes Neuronales Artificiales y RandomForest)parahallar elmtodoptimoparala solucin delproblemaypredecir elrendimiento
delosnuevosestudiantesingresadosalsistemalosresultadosmuestranque...

Index Terms
Modelos fenomenolgicos, aprendizaje de maquina, Regresin, Student Performance, Simulation, Regresin
Mltiple,VentanadeParzen,RandomForest,RedesNeuronales.

I.

I
NTRODUCTION

Este documento aborda un problema de aprendizaje de maquina especialmente diseado para evaluar el rendimiento de los
estudiantesdesecundariaenelareadematematicasdedoscolegiosenPortugal...
II.

DESCRIPCIONDELPROBLEMA

Este documento aborda un problema de aprendizaje de maquina especialmente diseado para evaluar el rendimiento de los
estudiantes de secundaria en el rea de matemticas conbasesdedatostomadasdedoscolegiosenPortugal,lascualesincluyen
atributosde los datos d
iscretizados tales como las calificaciones del estudiante,aspectosdemogrficosy caractersticassociales
y escolares relacionadas. El problema se basa en predecir el rendimiento de un nuevo estudiante ingresado al sistema ...fue
tratado comoun problema de regresin donde se busca unasalida numrica entre cero (0%) y veinte (100%), la cual indica la
notadelestudiantealfinaldelao.

Variablesdeentrada
Las variables de entrada tomadas para este experimento fueron las siguientes (las variables de entrada al sistema no estn
organizadasenelmismoordenenquesonmostradasacontinuacin).

1schoolstudent'sschool(binary:'GP'GabrielPereiraor'MS'MousinhodaSilveira)
2sexstudent'ssex(binary:'F'femaleor'M'male)
3agestudent'sage(numeric:from15to22)
4addressstudent'shomeaddresstype(binary:'U'urbanor'R'rural)
5famsizefamilysize(binary:'LE3'lessorequalto3or'GT3'greaterthan3)
6Pstatusparent'scohabitationstatus(binary:'T'livingtogetheror'A'apart)
7 Medu mother's education (numeric: 0 none, 1 primary education (4th grade), 2 5thto 9th grade, 3 secondary
educationor4highereducation)
8 Fedu father's education (numeric: 0 none, 1 primary education (4th grade), 2 5th to 9th grade, 3 secondary
educationor4highereducation)
9Mjobmother'sjob(nominal:'teacher','health'carerelated,civil'services'(e.g.administrativeorpolice),'at_home'or'other')
10Fjobfather'sjob(nominal:'teacher','health'carerelated,civil'services'(e.g.administrativeorpolice),'at_home'or'other')
11reasonreasontochoosethisschool(nominal:closeto'home',school'reputation','course'preferenceor'other')
12guardianstudent'sguardian(nominal:'mother','father'or'other')
1

2
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
13traveltimehometoschooltraveltime(numeric:1<15min.,215to30min.,330min.to1hour,or4>1hour)
14studytimeweeklystudytime(numeric:1<2hours,22to5hours,35to10hours,or4>10hours)
15failuresnumberofpastclassfailures(numeric:nif1<=n<3,else4)
16schoolsupextraeducationalsupport(binary:yesorno)
17famsupfamilyeducationalsupport(binary:yesorno)
18paidextrapaidclasseswithinthecoursesubject(MathorPortuguese)(binary:yesorno)
19activitiesextracurricularactivities(binary:yesorno)
20nurseryattendednurseryschool(binary:yesorno)
21higherwantstotakehighereducation(binary:yesorno)
22internetInternetaccessathome(binary:yesorno)
23romanticwitharomanticrelationship(binary:yesorno)
24famrelqualityoffamilyrelationships(numeric:from1verybadto5excellent)
25freetimefreetimeafterschool(numeric:from1verylowto5veryhigh)
26gooutgoingoutwithfriends(numeric:from1verylowto5veryhigh)
27Dalcworkdayalcoholconsumption(numeric:from1verylowto5veryhigh)
28Walcweekendalcoholconsumption(numeric:from1verylowto5veryhigh)
29healthcurrenthealthstatus(numeric:from1verybadto5verygood)
30absencesnumberofschoolabsences(numeric:from0to93)

Variablesdesalida
Nuestravariabledesalidaesnicaeindicalanotadelestudianteafinaldelao.
G3finalgrade(numeric:from0to20,outputtarget)

III.

TRABAJOSPREVIOS

Se han investigado algunos artculos de divulgacin cientfica (slo artculos de revista) para identificar algunos trabajos
similares sobre bases de datos de estudiantes de secundaria, tales como el de Paulo Cortez y Alice Silva [1] los cuales, con
nuestra misma basede datos asumen el problema comouna regresin yunaclasificacinparaintentarpredecirelfracasoenlas
pruebasdematemticas,paraterminarhallandoRandomForestcomoelmejormodeloparaelproblemaderegresinqueeselde
nuestro inters, con unECM de 3.90. Sin embargo otros estudios como losde M.Ramaswami[2][4]se buscan otrasformasde
resolver estetipodeproblemasconmtodoscomoBayesianNetworks(BN) yCHIAD,usando basesdedatosmuysimilarescon
variables de tipo personal, socioeconmico, psicolgico,ambientales y academicos para describiry predecir elrendimiento de
los estudiantes en las escuelas secundarias [2], mientras que Ramesh, V y Ramar, K [3] tratan el problema como una
clasificacin para hallarel mejor mtodo para clasificar alos estudiantesconaltoobajodesempeo enlasescuelassecundarias,
deacuerdoalasvariablesqueinfluyenaltamenteensurendimientoacadmico.

En M.Ramaswami y R.Bhaskaran [2] seusa un modelode prediccin CHIAD paraanalizar la interrelacion entre las variables
que se utilizan para predecir el resultado deldesempeoenlaeducacinsuperior delaescuelasecundaria.LosmodelosCHIAD
de prediccin del rendimiento fueron construidos con un predictor de variables desiete clases. Una tcnica de regresin lineal
simple fue usada para construir el modelo de regresin, despus de la codificacin de los valores categricos de todas las
variables predictoras en valores numricos. La exactitud de prediccin del rendimiento de los estudiantes que se encontr a
travs de este modelofuedel39,23%.DuranteelprocesodeconstruccindemodelosdeprediccinCHAIDseusel mtodode
validacincruzada(k=10)paralavalidacin.

Mientras en M. Ramaswami [4] han usado el mtodo de BN classifier como una herramienta para predecir el rendimiento
acadmico de los estudiantes, presentan una base de datos con 5650 objetos y 35 atributos para estudiantes de la escuela
secundaria en India. Se entren la Red Bayesiana con 2, 3, 5 y 7categorasde valorde clase con un mtodo de validacin
cruzada con K=10. Los resultados revelaron que la mayor precisin se obtiene con el algoritmo de bsqueda TAN y es de
84.91%para2clases.

3
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
IV.

EXPERIMENTOS

Los experimentos fueron realizadoscon cuatro diferentesmodelos de prediccin, ellos son, Regresin Mltiple(RM),Ventana
de Parzen (VP), RedesNeuronales Artificiales (RNA) y Random Forest (RF). con una metodologa devalidacin cruzadacon
K=10 y con la base de datos del UCI Machine Learning Repository, Student Performance Data Set [x], con un numero de
muestrasde649y33caractersticas.

Normalizacindelasmuestrasusandozscore
Validacincruzada,k=10,sedividelasmuestrasen10.
Intervalodeconfianzade95%

Parael caso de la regresin se us unatasa de aprendizaje de 0.1. y seusa el algoritmo degradientedescendente. Los mejores
resultadosseobservancuandoseutilizanpolinomiosdegradobajo

Gradodel
polinomio

Regresin
RMSE

2
R

IC

4.2027

0.4028

0.0854

4.339

0.38904

0.021876

4.6591

0.33545

0.23012

4.8278

0.49758

0.39702

4.8121

0.41408

0.35095

Para el mtodo de ventana de parzen se us el estimador


de NadarayaWatson. Para valores pequeos de h este

mtodo daba como resultado errores grandes, indicando queeranecesarioampliarlavecindad(darlems


pesoalasmuestrasmsalejadas)paraobtenermejoresresultados

VentanadeParzen
RMSE

IC

2
R

0.3

5.2074

0.6653

0.4679

0.7

4.7876

0.64573

0.2352

4.4865

0.5435

0.0703

4
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
1.5

4.0947

0.48788

0.13541

1.8

4.0493

0.47328

0.15929

4.06

0.45193

0.15498

Se us la red neuronal perceptrn multicapacon dos capas ocultas y unacapa desalidaconsolounaneurona,cadacapa oculta
tiene el mismo nmero de neuronas. Lafuncion de activacionen las capasoculta es tangente hiperblicayenlacapadesalida
unafuncinlineal.

Nmerode
neuronas
enlacapa
oculta

Redesneuronales

RMSE

IC
R

4.5941

0.49674

0.0826

4.4334

0.34431

0.0339

10

4.4913

0.40474

0.0444

16

4.4809

0.46587

0.0372

20

4.6977

0.33492

0.1682

30

5.1563

0.40507

0.4700

Se us un random forest para resolver un problema de regresin, losrbolescrecensinpodaryluegosecalculanlas secuencias


ptimasdepodaparalossubarboles

Nmero
de
arboles

RandomForest
RMSE

4.1259

0.37542

0.11694

4.0336

0.39646

0.16015

13

4.0623

0.40799

0.15067

IC

2
R

5
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
20

3.9786

0.40632

0.18361

25

3.9703

0.40677

0.18836

30

3.9457

0.41165

0.19922

31

3.9272

0.39826

0.20565

35

3.9593

0.41543

0.19
LISTO

Tambienseutilizounaregresinporvectoresdesoporteconlossiguientesresultados
//LISTA

Ingrese 1 para regresin multiple, 2 para ventana de parzen,3 para redes neuronales, 4 para randomforest, 5 para vectores de
soporte:5
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9959IC:0.40222Determinacion:0.17523
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.0008IC:0.40564Determinacion:0.17081
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.018IC:0.39862Determinacion:0.16291
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.0203IC:0.41219Determinacion:0.16324
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.999IC:0.41891Determinacion:0.17274
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0185IC:0.40029Determinacion:0.16217
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0093IC:0.41938Determinacion:0.1669
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0062IC:0.42763Determinacion:0.16833
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9882IC:0.41991Determinacion:0.1761
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.0244IC:0.39804Determinacion:0.16005
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.006IC:0.42742Determinacion:0.16838
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9881IC:0.41729Determinacion:0.17472
Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.001IC:0.41518Determinacion:0.17155
Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0416IC:0.40953Determinacion:0.15227
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0382IC:0.42204Determinacion:0.15281
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0126IC:0.42849Determinacion:0.16355

6
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
V.

SELECCINYEXTRACCINDECARACTERSTICAS

Correlacindeparson
SerealizunanlisisdecorrelacindeparsonentrecadacaracteristicaylasalidaY.Seencuentraquelascaractersticas8,9,16
y22tienenunacorrelacininsignificanteconlasalidaY.Seeliminanestascaractersticasysemiraelresultadoconlostres
modelosquedieronmejorresultadoenelpuntoIV(Randomforest,ventanadeparzenySVM)

SVM//paracambiarsidaeltiempo

Eliminandocaracteristicasconcorrelacioninsignificante
Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest:5
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9871IC:0.45024Determinacion:0.17841
Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9982IC:0.43633Determinacion:0.17122
Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9863IC:0.44316Determinacion:0.17547
Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.0074IC:0.43748Determinacion:0.16856
Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.0021IC:0.45797Determinacion:0.17222
Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9887IC:0.44402Determinacion:0.17488
Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9756IC:0.44891Determinacion:0.1798
Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9899IC:0.44728Determinacion:0.17432
Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9916IC:0.45573Determinacion:0.1738
Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.0346IC:0.4542Determinacion:0.15611
Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.998IC:0.4673Determinacion:0.17094
Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.995IC:0.44867Determinacion:0.1711
Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0306IC:0.46279Determinacion:0.15671
Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.035IC:0.44858Determinacion:0.15417
Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0296IC:0.4695Determinacion:0.15789
Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.013IC:0.46054Determinacion:0.16428

7
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
AnalisisPCA

Se realiza un anlisis usando PCA. Se tiene queutilizando28componentes seexplicamasdel98%dela varianzaysemostrar


suresultadoentresmodelos

SVM//voyLISTA

*****PCA*****
Numerodecaractersticasqueexplicanunavarianzamayoral85%:20
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.97IC:0.43903Determinacion:0.18702

Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9577IC:0.41996Determinacion:0.18998

Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9445IC:0.43027Determinacion:0.19743

Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=3.9562IC:0.44071Determinacion:0.19415

Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9819IC:0.40827Determinacion:0.17817

Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.953IC:0.43071Determinacion:0.19008

Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9358IC:0.42048Determinacion:0.19691

Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=3.9471IC:0.41524Determinacion:0.1936

Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9779IC:0.41688Determinacion:0.17923

Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.9633IC:0.42591Determinacion:0.18492

Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.958IC:0.4175Determinacion:0.18678

Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=3.929IC:0.41098Determinacion:0.19884

Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.0117IC:0.42498Determinacion:0.16323

Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=3.9854IC:0.43363Determinacion:0.1735

8
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0

Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=3.9664IC:0.42507Determinacion:0.18152

Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=3.9477IC:0.41901Determinacion:0.18949

VentanaParzen//Voy..LISTA

*****PCA*****
Numerodecaracteristicasqueexplicanunavarianzamayoral85%:20
Ventanadeparzen
H:0.3
raizcuadradadelerrorcuadraticomedio=5.3826IC:0.48801Determinacion:0.57041
H:0.7
raizcuadradadelerrorcuadraticomedio=4.9479IC:0.48167Determinacion:0.31497
H:1
raizcuadradadelerrorcuadraticomedio=4.5202IC:0.47499Determinacion:0.080059
H:1.5
raizcuadradadelerrorcuadraticomedio=4.1189IC:0.47048Determinacion:0.12244
H:1.8
raizcuadradadelerrorcuadraticomedio=4.0702IC:0.47587Determinacion:0.15043
H:2
raizcuadradadelerrorcuadraticomedio=4.0826IC:0.47081Determinacion:0.14741

RANDOMFOREST//...LISTA

*****PCA*****
Numerodecaracteristicasqueexplicanunavarianzamayoral85%:20
RandomForest
Numerodearboles:25
raizcuadradadelerrorcuadraticomedio=4.1338IC:0.45505Determinacion:0.1204
Numerodearboles:31
raizcuadradadelerrorcuadraticomedio=4.1357IC:0.45922Determinacion:0.12098
Numerodearboles:35
raizcuadradadelerrorcuadraticomedio=4.1347IC:0.45873Determinacion:0.12112
Numerodearboles:37
raizcuadradadelerrorcuadraticomedio=4.1316IC:0.45277Determinacion:0.12146
Numerodearboles:40
raizcuadradadelerrorcuadraticomedio=4.108IC:0.45391Determinacion:0.13169
Numerodearboles:45

9
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
raizcuadradadelerrorcuadraticomedio=4.1141IC:0.44588Determinacion:0.1273
Numerodearboles:55
raizcuadradadelerrorcuadraticomedio=4.1185IC:0.44498Determinacion:0.12781

SFS

Serealizounaselecciondecaracteristicasusandoelmetodosequencialforwardselectionusandocomofuncinobjetivoelerror
cuadrticomediousandorandomforest.LascaracteristicasseleccionadasporelmetodoSFSfueron4,8,12,16,20

SVM
//...LISTO

*****SFS*****
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4569IC:0.39285Determinacion:0.02317

Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4508IC:0.39428Determinacion:0.019858

Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4454IC:0.40338Determinacion:0.016248

Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4289IC:0.40591Determinacion:0.0085199

Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4588IC:0.39488Determinacion:0.023636

Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4569IC:0.39104Determinacion:0.023007

Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.447IC:0.40311Determinacion:0.017047

Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4289IC:0.40648Determinacion:0.0084339

Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4514IC:0.39352Determinacion:0.020521

Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4573IC:0.39212Determinacion:0.023064

Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4442IC:0.39905Determinacion:0.016082

Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.434IC:0.40503Determinacion:0.010927

Gamma:10boxConstraint1.5

10
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
raizcuadradadelerrorcuadraticomedio=4.4393IC:0.38769Determinacion:0.015744

Gamma:13boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4493IC:0.38922Determinacion:0.019903

Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4532IC:0.39464Determinacion:0.020972

Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4365IC:0.40519Determinacion:0.012152

Ventanadeparzen//LISTA

Ventanadeparzen
H:0.3
raizcuadradadelerrorcuadraticomedio=4.7885IC:0.48778Determinacion:0.17863
H:0.7
raizcuadradadelerrorcuadraticomedio=4.6202IC:0.45781Determinacion:0.094615
H:1
raizcuadradadelerrorcuadraticomedio=4.5551IC:0.44589Determinacion:0.064199
H:1.5
raizcuadradadelerrorcuadraticomedio=4.4899IC:0.43391Determinacion:0.03444
H:1.8
raizcuadradadelerrorcuadraticomedio=4.4699IC:0.43065Determinacion:0.025429
H:2

RandomForest//LISTA

*****SFS*****
RandomForest
Numerodearboles:8
raizcuadradadelerrorcuadraticomedio=4.5482IC:0.453Determinacion:0.062626
Numerodearboles:13
raizcuadradadelerrorcuadraticomedio=4.5849IC:0.49156Determinacion:0.075329
Numerodearboles:17
raizcuadradadelerrorcuadraticomedio=4.5951IC:0.45703Determinacion:0.082706
Numerodearboles:20
raizcuadradadelerrorcuadraticomedio=4.5935IC:0.46252Determinacion:0.081773
Numerodearboles:25
raizcuadradadelerrorcuadraticomedio=4.592IC:0.45395Determinacion:0.082494
Numerodearboles:30
raizcuadradadelerrorcuadraticomedio=4.5706IC:0.45141Determinacion:0.071853
Numerodearboles:35
raizcuadradadelerrorcuadraticomedio=4.6053IC:0.44887Determinacion:0.088384

11
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
LASSO

Seutilizolatecnicalassoparaselecciondecaracteristicas.ElresultadodeLassoesquesepuedendescartarlascaracteristicas1,
5,14y23

svm//LISTA

Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest,5paravectoresde
soporte:5
****LASSO****
MaquinasSoporteVectorial
Gamma:10boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4347IC:0.41594Determinacion:0.010863

Gamma:13boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.433IC:0.41001Determinacion:0.010628

Gamma:16boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4293IC:0.40556Determinacion:0.0090376

Gamma:20boxConstraint0.7
raizcuadradadelerrorcuadraticomedio=4.4285IC:0.40462Determinacion:0.0094435

Gamma:10boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4342IC:0.41798Determinacion:0.01049

Gamma:13boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4232IC:0.41161Determinacion:0.005946

Gamma:16boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4165IC:0.40546Determinacion:0.003209

Gamma:20boxConstraint1
raizcuadradadelerrorcuadraticomedio=4.4392IC:0.41009Determinacion:0.013646

Gamma:10boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4319IC:0.41845Determinacion:0.0093992

Gamma:13boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4245IC:0.41087Determinacion:0.0067586

Gamma:16boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.4286IC:0.41278Determinacion:0.0081973

Gamma:20boxConstraint1.2
raizcuadradadelerrorcuadraticomedio=4.433IC:0.40374Determinacion:0.011433

Gamma:10boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4364IC:0.41702Determinacion:0.011517

Gamma:13boxConstraint1.5

12
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
raizcuadradadelerrorcuadraticomedio=4.4241IC:0.41076Determinacion:0.006661

Gamma:16boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4299IC:0.40941Determinacion:0.0092846

Gamma:20boxConstraint1.5
raizcuadradadelerrorcuadraticomedio=4.4295IC:0.4035Determinacion:0.009366

Ventanaparzen//VoyLISTA

Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest,5paravectoresde
soporte:2
****LASSO****
Ventanadeparzen
H:0.3
raizcuadradadelerrorcuadraticomedio=4.7381IC:0.48489Determinacion:0.15224
H:0.7
raizcuadradadelerrorcuadraticomedio=4.5843IC:0.45096Determinacion:0.077744
H:1
raizcuadradadelerrorcuadraticomedio=4.5202IC:0.43955Determinacion:0.048197
H:1.5
raizcuadradadelerrorcuadraticomedio=4.4685IC:0.43042Determinacion:0.02476
H:1.8
raizcuadradadelerrorcuadraticomedio=4.4536IC:0.42801Determinacion:0.018067
H:2
raizcuadradadelerrorcuadraticomedio=4.4461IC:0.42639Determinacion:0.014743

RandomForest//voy

Ingrese1pararegresinmultiple,2paraventanadeparzen,3pararedesneuronales,4pararandomforest,5paravectoresde
soporte:4
****LASSO****
RandomForest
Numerodearboles:5
raizcuadradadelerrorcuadraticomedio=4.9311IC:0.46111Determinacion:0.26332
Numerodearboles:8
raizcuadradadelerrorcuadraticomedio=4.8778IC:0.46194Determinacion:0.22904
Numerodearboles:13
raizcuadradadelerrorcuadraticomedio=4.842IC:0.45169Determinacion:0.20982
Numerodearboles:20
raizcuadradadelerrorcuadraticomedio=4.8869IC:0.49981Determinacion:0.2271
Numerodearboles:25
raizcuadradadelerrorcuadraticomedio=4.8679IC:0.46837Determinacion:0.22011
Numerodearboles:30
raizcuadradadelerrorcuadraticomedio=4.8276IC:0.48978Determinacion:0.19801
Numerodearboles:31
raizcuadradadelerrorcuadraticomedio=4.8314IC:0.48308Determinacion:0.19975
Numerodearboles:35
raizcuadradadelerrorcuadraticomedio=4.8313IC:0.46706Determinacion:0.201

13
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
Numerodearboles:40
raizcuadradadelerrorcuadraticomedio=4.8637IC:0.47316Determinacion:0.2172

VI.

ANLISISDERESULTADOS

Los resultados han demostrado quees dificilrealizar predicciones sobre el desempeo de los estudiantes, esto esdebido a que
aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) esdeterminante las capacidades y
motivacin del alumno a la hora de su desempeo acadmico. El mejor modelo delos considerados anteriormente fue random
forest,una de las razones es que el mtodo de random forest no se vetan afectado por problemas de datosnobalanceados(La
mayoradelosalumnostienenasacarpuntajeporencimade10).

Comotrabajofuturoseinvestigarculesvariablessonmsimportantesenladeterminacindelanotadelosalumnos
VII.

PREDICCIONESDELMEJORMODELO

14
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0

VIII.
Conclusion

En el trabajodepredecireldesempeodelosestudiantes usandotcnicasdeinteligenciaartificiallamayoradeesfuerzossehan
realizadotratandolasituacincomounproblemadeclasificacin(desempeobajo,medio,alto,etc)pordosrazonesprincipales:
La primera esquealserunproblematancomplejo,muchas variablesycasosatpicos,esdificilobtenerbuenos resultados silo
que se buscaes exactitudenlanota.Lasegundaraznes quenoestan importantepronosticarlanotaexactadeunestudiante,lo
que se buscaes tener unaidea de quevariables desempeanun papel ms importante y un desempeo probabledel estudiante
(rendimientobajooalto)parapoderdefiniraccionesarealizar.

Los resultados han demostrado quees difcilrealizar prediccionessobreeldesempeodelos estudiantes,esto esdebidoaque


aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) esdeterminante las capacidades y
motivacin del alumno a la hora de su desempeo acadmico Elmejor modelode los considerados anteriormente fueRandom
Forest con un RMSE de3.92,muycercano alobtenidoenPauloCortezyAliceSilva[1],unadelasrazoneses queelmtodode
Random Forest no se ve tan afectado porproblemas de datos nobalanceados(Lamayora delosalumnostienenasacarpuntaje
porencimade10).

15
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
IX.

REFERENCIAS

[1]

Cortez,PauloandSilva,Alice,USINGDATAMININGTOPREDICTSECONDARYSCHOOLSTUDENTPERFORMANCE,

[2] Ramesh,Vand Ramar, K, PredictingStudentPerformance:AStatisticaland Data MiningApproach,International JournalofComputerApplications,


[3]
[4]

Vol.67,,No.8,February2013.
Ramaswami, M, Student Performance Prediction, International Journal of Computational Intelligenceand Informatics,Vol. 1, No: 4, JanuaryMarch
2012.
Ramaswami, M, Bhaskaran, R,A CHAID Based Performance Prediction Model in Educational Data Mining, IJCSI InternationalJournalofComputer
ScienceIssues,Vol7,No1,January2010.

//cambiaresto

TecnologynoTECnology,//FUBUTEC

Z=1o2//pesosalasclasesminoritarias=2

Grafica,SoloparaRF

CorregirelDoc//losprrafosquenoestanalineadosylasreferencias

Clasificaciondelmejormodelo

05
5101015
1520
//hacerSmote

Box
Gam
MquinasdeSoporteVectorial
Constrain
ma

t
RMSE

IC
R2

0.5

4.4028

0.41882

0.00531

0.5

10

4.0316

0.42114

0.15963

0.5

25

3.9715

0.42765

0.18556

0.5

30

3.9949

0.42132

0.17459

4.4085

0.41461

0.00219

10

4.0021

0.45797

0.17222

25

4.0033

0.43847

0.16837

30

3.9967

0.43805

0.17343

10

4.4224

0.41432

0.00434

10

10

4.2411

0.48112

0.05707

10

25

4.2431

0.51793

0.05783

16
>REPLACETHISLINEWITHYOURPAPERIDENTIFICATIONNUMBER(DOUBLECLICKHERETOEDIT)<

Predicciones2.0
10

30

4.2342

0.4923

0.06175

20

4.4216

0.41125

0.00438

20

10

4.2788

0.47978

0.03893

20

25

4.3975

0.50396

0.01882

20

30

4.3517

0.5046

0.00154

También podría gustarte