KOMPARASI METODE OVERSAMPLING UNTUK KLASIFIKASI TEKS UJARAN KEBENCIAN

Naufal Azmi Verdikha, Teguh Bharata Adji, Adhistya Erna Permanasari

Abstract


Fasilitas yang diberikan oleh jaringan media sosial dapat memberikan kebebasan bagi penggunanya untuk saling berkomunikasi. Namun, kebebasan yang tidak dibatasi dapat memberikan kesempatan bagi penggunanya untuk menyerang seseorang atau sebuah organisasi dengan menggunakan ujaran kebencian. Oleh karena itu, dibutuhkannya sistem klasifikasi teks untuk mengatasi ujaran kebencian yang terdapat di jaringan media sosial. Untuk membuat sebuah sistem klasifikasi tersebut, diperlukan sebuah data latih berupa teks ujaran kebencian yang terdapat di jaringan media sosial. Akan tetapi, teks ujaran kebencian tersebut susah ditemukan yang dimana hal ini dapat membuat distribusi data latih menjadi tidak seimbang (imbalanced data). Terdapat beberapa metode untuk menyelesaikan masalah imbalanced data, salah satunya dengan menggunakan metode oversampling. Penelitian ini bertujuan untuk membandingkan lima metode oversampling yaitu SMOTE, Borderline-SMOTE ver.1, Borderline-SMOTE ver.2, SMOTE-SVM dan metode oversampling ADASYN untuk klasifikasi teks ujaran kebencian menggunakan metode pembobotan TF-IDF dan metode klasifikasi SVM. Hasil penelitian menunjukkan bahwa dengan menggunakan metode oversampling SMOTE mampu mengatasi masalah imbalanced data lebih baik dibandingkan dengan metode lainnya yang terdapat pada penelitian ini.

 

Kata kunci: Imbalanced data, klasifikasi teks, oversampling, SVM.


Full Text:

PDF

References


“International Covenant on Civil and Political Rights.” [Online]. Available: http://www.ohchr.org/en/professionalinterest/pages/ccpr.aspx. [Accessed: 15-Nov-2017].

T. Davidson, D. Warmsley, M. Macy, and I. Weber, “Automated Hate Speech Detection and the Problem of Offensive Language,” Proc. 11th Int. AAAI Conf. Web Soc. Media, no. Icwsm, pp. 512–515, 2017.

N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, “SMOTE: Synthetic minority over-sampling technique,” J. Artif. Intell. Res., vol. 16, pp. 321–357, 2002.

A. Estabrooks, T. Jo, and N. Japkowicz, “A Multiple Resampling Method for Learning from Imbalanced Data Sets,” Comput. Intell., vol. 20, no. 1, pp. 18–36, Feb. 2004.

A. C. Liu, “The Effect of Oversampling and Undersampling on Classifying Imbalanced Text Datasets,” University of Texas at Austin, 2004.

F. A. Wenando, T. B. Adji, and I. Ardiyanto, “Text Classification to Detect Student Level of Understanding in Prior Knowledge Activation Process,” Adv. Sci. Lett., vol. 23, no. 3, pp. 2285–2287, Mar. 2017.

J. Ah-Pine and E. P. S. Morales, “A study of synthetic oversampling for twitter imbalanced sentiment analysis,” CEUR Workshop Proc., vol. 1646, pp. 17–24, 2016.

H. Han, W. Wang, and B. Mao, “Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning,” 2005, pp. 878–887.

H. M. Nguyen, E. W. Cooper, and K. Kamei, “Borderline Over-Sampling for Imbalanced Data Classification,” Int. J. Knowl. Eng. Soft Data Paradig., vol. 3, no. 1, p. 4, 2011.

H. He, Y. Bai, E. A. Garcia, and S. Li, “ADASYN: Adaptive synthetic sampling approach for imbalanced learning,” 2008 IEEE Int. Jt. Conf. Neural Networks (IEEE World Congr. Comput. Intell. Hong Kong, pp. 1322–1328, 2008.

Z. Waseem and D. Hovy, “Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter,” Proc. NAACL Student Res. Work., pp. 88–93, 2016.

G. Lemaitre, F. Nogueira, and C. K. Aridas, “Imbalanced-learn: A Python Toolbox to Tackle the Curse of Imbalanced Datasets in Machine Learning,” CoRR, vol. abs/1609.0, pp. 1–5, 2016.

S. S. Keerthi, S. Sundararajan, K.-W. Chang, C.-J. Hsieh, and C.-J. Lin, “A sequential dual method for large scale multi-class linear svms,” in Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD 08, 2008, p. 408.

M. Kubat and S. Matwin, “Addressing the Curse of Imbalanced Training Sets: One Sided Selection,” Icml, vol. 97, pp. 179–186, 1997.


Refbacks

  • There are currently no refbacks.