IMPLEMENTASI TEKNIK SELEKSI FITUR INFORMATION GAIN PADA ALGORITMA KLASIFIKASI MACHINE LEARNING UNTUK PREDIKSI PERFORMA AKADEMIK SISWA
Abstract
Masalah utama dalam dalam proses discovering knowledge dari data di bidang pendidikan adalah mengidentifikasi data yang representatif. Penelitian ini dilakukan untuk mengidentifikasi faktor relevan yang mempengaruhi performa akademik siswa dengan mengimplementasikan teknik seleksi fitur Information Gain pada algoritma klasifikasi machine learning. Algoritma klasifikasi machine learning yang digunakan adalah Decision Tree, Random Forest, ANN, SVM, dan Naïve Bayes. Data yang digunakan adalah 395 data akademik dan personal siswa di wilayah Alentejo Portugal.
Eksperimen implementasi teknik seleksi fitur Information Gain dibagi dengan dua macam, yaitu menggunakan pemilihan atribut dengan batas threshold (threshold > 0.01) dan rangking dalam jumlah fitur tertentu (n=5, 10, 15). Selain itu skenario klasifikasi juga dilakukan dalam dua macam skenario, yaitu binary classification (lulus atau gagal) dan 5-level classification. Eksperimen dilakukan menggunakan data mining library pada Java dalam lingkungan Weka. Eksperimen dalam penelitian ini menggunakan 10 fold cross validation dengan. Hasil evaluasi berupa akurasi prediksi yang didapatkan dari matriks konfusi.
Hasil eksperimen menunjukkan bahwa dengan implementasi teknik pemilihan fitur information gain dapat meningkatkan performa algoritma klasifikasi machine learning (J48, Random Forest, MLP, SVM (SMO), dan Naïve Bayes) untuk memprediksi performa akademik siswa pada mata pelajaran Matematika.
Full Text:
PDFReferences
E. Osmanbegovic, M. Suljic, H. Agic, “Determining Dominant Factor For Student Performance Prediction by Using Dta Mining Classification Algorithms”, Original Scientific Paper, July-Des 2014.
P. Cortez, A. Silva, “Using Data Mining to Predict Secondary School Student Performance”, in 5th Future Business Technology Conference (FUBUTEC), pp. 5-12, 2008.
P. Stecht, L.Cruz, C. Soares, J.Mendes-Moreira, R. Abreu, “A Comparative Study of Classification and Regression Algorithms for Modelling Student’s Academic Performance”, in 8th International Conference on Educational Data Mining, Madrid, Spain, June 2015.
M. Ramaswami, R.Rathinasabapathy, “Student Performance Prediction Modeling : A Bayesian Networks Approach”, International Journal of Computational Intelligence and Informatics, vol. 1, no.4, pp 231-235. January-March 2012.
V. Ramesh, P. Parkavi, K. Ramar, “Predicting Student Performance : A Statistical and Data Mining Approach”, International Journal of Computer Application, vol. 63, no. 8, February 2013.
S. Dinakaran, Dr. P. R. J. Thangaiah, “Role of Attribute Selection in Classification Algorithms”, International Journal of Scientific & Engineering Research, vol. 4, issue 6, pp. 67-71. June 2013.
M. Ramaswami, R. Bhaskaran, “A Study on Feature Selection Techniques in Educational Data Mining”, Journal Of Computing, vol. 1, Issue 1, pp. 7-11. December 2009.
J. Han, M. Kamber, Data mining concepts and techniques: Morgan Kaufman Publishers, Elsevier, pp. 297- 298. 2006.
I.H. Witten, E. Frank, Data Mining-Practical Machine Learning Tools and Techniques in Java Implementation, San Fransisco: Morgan Kaufmann, 2000.
F. Gorunescu, Data Mining: Concepts, Models and Techniques, Berlin: Springer-Verlag, 2011.
J. Zurada, “Does Feature Reduction Help Improve the Classification Accuracy Rates? A Credit Scoring Case Using a German Data Set”, in Review of Business Information Systems, vol. 14, no. 2, pp. 35-40, Second Quarter 2010.
Refbacks
- There are currently no refbacks.