IMPLEMENTASI TEKNIK SELEKSI FITUR INFORMATION GAIN PADA ALGORITMA KLASIFIKASI MACHINE LEARNING UNTUK PREDIKSI PERFORMA AKADEMIK SISWA

Betha Nurina Sari

Abstract


Masalah utama dalam dalam proses discovering  knowledge dari data di bidang pendidikan adalah  mengidentifikasi data yang representatif. Penelitian ini  dilakukan untuk mengidentifikasi faktor relevan yang  mempengaruhi performa akademik siswa dengan  mengimplementasikan teknik seleksi fitur Information  Gain pada algoritma klasifikasi machine learning.  Algoritma klasifikasi machine learning yang digunakan  adalah Decision Tree, Random Forest, ANN, SVM, dan  Naïve Bayes. Data yang digunakan adalah 395 data  akademik dan personal siswa di wilayah Alentejo  Portugal.

Eksperimen implementasi teknik seleksi fitur Information  Gain dibagi dengan dua macam, yaitu menggunakan  pemilihan atribut dengan batas threshold (threshold >  0.01) dan rangking dalam jumlah fitur tertentu (n=5, 10,  15). Selain itu skenario klasifikasi juga dilakukan dalam  dua macam skenario, yaitu binary classification (lulus  atau gagal) dan 5-level classification. Eksperimen  dilakukan menggunakan data mining library pada Java  dalam lingkungan Weka. Eksperimen dalam penelitian  ini menggunakan 10 fold cross validation dengan. Hasil  evaluasi berupa akurasi prediksi yang didapatkan dari  matriks konfusi.

Hasil eksperimen menunjukkan bahwa dengan  implementasi teknik pemilihan fitur information gain  dapat meningkatkan performa algoritma klasifikasi  machine learning (J48, Random Forest, MLP, SVM  (SMO), dan Naïve Bayes) untuk memprediksi performa  akademik siswa pada mata pelajaran Matematika.  


Full Text:

PDF

References


E. Osmanbegovic, M. Suljic, H. Agic, “Determining Dominant Factor For Student Performance Prediction by Using Dta Mining Classification Algorithms”, Original Scientific Paper, July-Des 2014.

P. Cortez, A. Silva, “Using Data Mining to Predict Secondary School Student Performance”, in 5th Future Business Technology Conference (FUBUTEC), pp. 5-12, 2008.

P. Stecht, L.Cruz, C. Soares, J.Mendes-Moreira, R. Abreu, “A Comparative Study of Classification and Regression Algorithms for Modelling Student’s Academic Performance”, in 8th International Conference on Educational Data Mining, Madrid, Spain, June 2015.

M. Ramaswami, R.Rathinasabapathy, “Student Performance Prediction Modeling : A Bayesian Networks Approach”, International Journal of Computational Intelligence and Informatics, vol. 1, no.4, pp 231-235. January-March 2012.

V. Ramesh, P. Parkavi, K. Ramar, “Predicting Student Performance : A Statistical and Data Mining Approach”, International Journal of Computer Application, vol. 63, no. 8, February 2013.

S. Dinakaran, Dr. P. R. J. Thangaiah, “Role of Attribute Selection in Classification Algorithms”, International Journal of Scientific & Engineering Research, vol. 4, issue 6, pp. 67-71. June 2013.

M. Ramaswami, R. Bhaskaran, “A Study on Feature Selection Techniques in Educational Data Mining”, Journal Of Computing, vol. 1, Issue 1, pp. 7-11. December 2009.

J. Han, M. Kamber, Data mining concepts and techniques: Morgan Kaufman Publishers, Elsevier, pp. 297- 298. 2006.

I.H. Witten, E. Frank, Data Mining-Practical Machine Learning Tools and Techniques in Java Implementation, San Fransisco: Morgan Kaufmann, 2000.

F. Gorunescu, Data Mining: Concepts, Models and Techniques, Berlin: Springer-Verlag, 2011.

J. Zurada, “Does Feature Reduction Help Improve the Classification Accuracy Rates? A Credit Scoring Case Using a German Data Set”, in Review of Business Information Systems, vol. 14, no. 2, pp. 35-40, Second Quarter 2010.


Refbacks

  • There are currently no refbacks.