Pebandingan Performa Naïve Bayes dan KNN pada Klasifikasi Teks Sentimen Jasa Ekspedisi

Authors

DOI:

https://doi.org/10.31328/jointecs.v6i3.2635

Keywords:

KNN, naïve bayes, TF-IDF, over-sampling, sentimen

Abstract

Penelitian ini bertujuan untuk mengetahui performa dari model naïve bayes dan KNN (K-Nearest Neighbor) dalam mengklasifikasikan dataset teks sentimen jasa ekspedisi. Ulasan pengguna twitter pada akun @jntexpressid, @JNE_ID, dan @posindonesia akan di tambang dan diklasifikan berdasarkan sentimen positif, netral, dan negatif. Data digali dari 1 Oktober hingga 1 Desember 2020, hasil didapat pada data JNT sebanyak 46.220, JNE 5.364, dan Pos Indonesia 11.194. Data mentah yang didapat akan dibersihkan dan dilabeli sebelum masuk ketahap pembobotan kata menggunakan TF-IDF. Data bersih yang didapat dari pra-pemrosesan teks akan dibagi menjadi data latih sebanyak 70% dan data uji 30% untuk diuji akurasinya kesetiap model. Metode over-sampling digunakan untuk meyeimbangkan dataset dan menghindari data latih yang overfitting. Pada model naïve bayes dan KNN terjadi peningkatan cukup signifikan setelah metode over-sampling diimplementasikan. Akurasi terbesar pada naïve bayes terdapat pada data JNT 82%, sedangkan KNN pada data POS 71%. Pada KNN nilai K tinggi tidak menentukan hasil akurasi, terbukti K=2 memiliki akurasi tertinggi dibanding K=4, K=6, K=8, K=10 setelah teknik resampling dilakukan.

Author Biographies

Zuda Pradana Putra, Universitas Narotama

Program Studi Sistem Informasi

Aryo Nugroho, Universitas Narotama

Program Studi Sistem Informasi

References

G. A. Buntoro, “Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter,†INTEGER J. Inf. Technol., vol. 1, no. 1, pp. 32–41, 2017.

B. Gunawan, H. S. Pratiwi, and E. E. Pratama, “Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes,†J. Edukasi dan Penelit. Inform., vol. 4, no. 2, p. 113, 2018, doi: 10.26418/jp.v4i2.27526.

A. Nugroho, “A Decision Guidance for Solving Success Rate Political Campaign Using Distance Weighted kNN in Nassi-Shneiderman Framework,†vol. 14, no. 2, pp. 410–420, 2021, doi: 10.22266/ijies2021.0430.37.

W. E. Nurjanah, R. S. Perdana, and M. A. Fauzi, “Analisis Sentimen Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media Sosial Twitter menggunakan Metode K-Nearest Neighbor dan Pembobotan Jumlah Retweet,†J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 1, no. 12, pp. 1750–1757, 2017.

R. Hidayatillah, M. Mirwan, M. Hakam, and A. Nugroho, “Levels of Political Participation Based on Naive Bayes Classifier,†IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 13, no. 1, p. 73, 2019, doi: 10.22146/ijccs.42531.

J. A. Septian, T. M. Fahrudin, and A. Nugroho, “Analisis Sentimen Pengguna Twitter Terhadap Polemik Persepakbolaan Indonesia Menggunakan Pembobotan TF - IDF dan K - Nearest Neighbor,†INSYST (JOURNAL Intell. Syst. Comput., vol. 1, pp. 43–49, 2019.

R. N. Devita, H. W. Herwanto, and A. P. Wibawa, “Perbandingan Kinerja Metode Naive Bayes dan K-Nearest Neighbor untuk Klasifikasi Artikel Berbahasa indonesia,†J. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 4, p. 427, 2018, doi: 10.25126/jtiik.201854773.

M. Syarifuddin, “Analisis Sentimen Opini Publik Mengenai Covid-19 Pada Twitter Menggunakan Metode Naïve Bayes Dan Knn,†Inti Nusa Mandiri, vol. 15, no. 1, pp. 23–28, 2020.

A. Indriani, “Analisa Perbandingan Metode Naïve Bayes Classifier Dan K-Nearest Neighbor Terhadap Klasifikasi Data,†Sebatik, vol. 24, no. 1, pp. 1–7, 2020, doi: 10.46984/sebatik.v24i1.909.

R. P. Sidiq, B. A. Dermawan, and Y. Umaidah, “Sentimen Analisis Komentar Toxic pada Grup Facebook Game Online Menggunakan Klasifikasi Naïve Bayes,†J. Inform. Univ. Pamulang, vol. 5, no. 3, p. 356, 2020, doi: 10.32493/informatika.v5i3.6571.

A. T. Ni’mah and A. Z. Arifin, “Perbandingan Metode Term Weighting terhadap Hasil Klasifikasi Teks pada Dataset Terjemahan Kitab Hadis,†Rekayasa, vol. 13, no. 2, pp. 172–180, 2020, doi: 10.21107/rekayasa.v13i2.6412.

S. Qaiser and R. Ali, “Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents,†Int. J. Comput. Appl., vol. 181, no. 1, pp. 25–29, 2018, doi: 10.5120/ijca2018917395.

D. Syamsudin, Y. C. D. Halundaka, and A. Nugroho, “Prediksi Status Konsumen Produk Celana Menggunakan Naïve Bayes,†JOINTECS (Journal Inf. Technol. Comput. Sci., vol. 5, no. 3, p. 177, 2020, doi: 10.31328/jointecs.v5i3.1435.

A. M. B. Muhammad Rivki, “Implementasi Algoritma K-Nearest Neighbor dalam Pengklasifikasian Follower Twitter yang Menggunakan Bahasa Indonesia,†J. Inf. Syst., vol. 13, 2017.

A. Muqiit WS and R. Nooraeni, “Penerapan Metode Resampling Dalam Mengatasi Imbalanced Data Pada Determinan Kasus Diare Pada Balita Di Indonesia (Analisis Data Sdki 2017),†J. MSA ( Mat. dan Stat. serta Apl. ), vol. 8, no. 1, p. 19, 2020, doi: 10.24252/msa.v8i1.13452.

Downloads

Published

2021-09-30

Issue

Section

Articles