Pebandingan Performa Naïve Bayes dan KNN pada Klasifikasi Teks Sentimen Jasa Ekspedisi
DOI:
https://doi.org/10.31328/jointecs.v6i3.2635Keywords:
KNN, naïve bayes, TF-IDF, over-sampling, sentimenAbstract
Penelitian ini bertujuan untuk mengetahui performa dari model naïve bayes dan KNN (K-Nearest Neighbor) dalam mengklasifikasikan dataset teks sentimen jasa ekspedisi. Ulasan pengguna twitter pada akun @jntexpressid, @JNE_ID, dan @posindonesia akan di tambang dan diklasifikan berdasarkan sentimen positif, netral, dan negatif. Data digali dari 1 Oktober hingga 1 Desember 2020, hasil didapat pada data JNT sebanyak 46.220, JNE 5.364, dan Pos Indonesia 11.194. Data mentah yang didapat akan dibersihkan dan dilabeli sebelum masuk ketahap pembobotan kata menggunakan TF-IDF. Data bersih yang didapat dari pra-pemrosesan teks akan dibagi menjadi data latih sebanyak 70% dan data uji 30% untuk diuji akurasinya kesetiap model. Metode over-sampling digunakan untuk meyeimbangkan dataset dan menghindari data latih yang overfitting. Pada model naïve bayes dan KNN terjadi peningkatan cukup signifikan setelah metode over-sampling diimplementasikan. Akurasi terbesar pada naïve bayes terdapat pada data JNT 82%, sedangkan KNN pada data POS 71%. Pada KNN nilai K tinggi tidak menentukan hasil akurasi, terbukti K=2 memiliki akurasi tertinggi dibanding K=4, K=6, K=8, K=10 setelah teknik resampling dilakukan.References
G. A. Buntoro, “Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter,†INTEGER J. Inf. Technol., vol. 1, no. 1, pp. 32–41, 2017.
B. Gunawan, H. S. Pratiwi, and E. E. Pratama, “Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes,†J. Edukasi dan Penelit. Inform., vol. 4, no. 2, p. 113, 2018, doi: 10.26418/jp.v4i2.27526.
A. Nugroho, “A Decision Guidance for Solving Success Rate Political Campaign Using Distance Weighted kNN in Nassi-Shneiderman Framework,†vol. 14, no. 2, pp. 410–420, 2021, doi: 10.22266/ijies2021.0430.37.
W. E. Nurjanah, R. S. Perdana, and M. A. Fauzi, “Analisis Sentimen Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media Sosial Twitter menggunakan Metode K-Nearest Neighbor dan Pembobotan Jumlah Retweet,†J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 1, no. 12, pp. 1750–1757, 2017.
R. Hidayatillah, M. Mirwan, M. Hakam, and A. Nugroho, “Levels of Political Participation Based on Naive Bayes Classifier,†IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 13, no. 1, p. 73, 2019, doi: 10.22146/ijccs.42531.
J. A. Septian, T. M. Fahrudin, and A. Nugroho, “Analisis Sentimen Pengguna Twitter Terhadap Polemik Persepakbolaan Indonesia Menggunakan Pembobotan TF - IDF dan K - Nearest Neighbor,†INSYST (JOURNAL Intell. Syst. Comput., vol. 1, pp. 43–49, 2019.
R. N. Devita, H. W. Herwanto, and A. P. Wibawa, “Perbandingan Kinerja Metode Naive Bayes dan K-Nearest Neighbor untuk Klasifikasi Artikel Berbahasa indonesia,†J. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 4, p. 427, 2018, doi: 10.25126/jtiik.201854773.
M. Syarifuddin, “Analisis Sentimen Opini Publik Mengenai Covid-19 Pada Twitter Menggunakan Metode Naïve Bayes Dan Knn,†Inti Nusa Mandiri, vol. 15, no. 1, pp. 23–28, 2020.
A. Indriani, “Analisa Perbandingan Metode Naïve Bayes Classifier Dan K-Nearest Neighbor Terhadap Klasifikasi Data,†Sebatik, vol. 24, no. 1, pp. 1–7, 2020, doi: 10.46984/sebatik.v24i1.909.
R. P. Sidiq, B. A. Dermawan, and Y. Umaidah, “Sentimen Analisis Komentar Toxic pada Grup Facebook Game Online Menggunakan Klasifikasi Naïve Bayes,†J. Inform. Univ. Pamulang, vol. 5, no. 3, p. 356, 2020, doi: 10.32493/informatika.v5i3.6571.
A. T. Ni’mah and A. Z. Arifin, “Perbandingan Metode Term Weighting terhadap Hasil Klasifikasi Teks pada Dataset Terjemahan Kitab Hadis,†Rekayasa, vol. 13, no. 2, pp. 172–180, 2020, doi: 10.21107/rekayasa.v13i2.6412.
S. Qaiser and R. Ali, “Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents,†Int. J. Comput. Appl., vol. 181, no. 1, pp. 25–29, 2018, doi: 10.5120/ijca2018917395.
D. Syamsudin, Y. C. D. Halundaka, and A. Nugroho, “Prediksi Status Konsumen Produk Celana Menggunakan Naïve Bayes,†JOINTECS (Journal Inf. Technol. Comput. Sci., vol. 5, no. 3, p. 177, 2020, doi: 10.31328/jointecs.v5i3.1435.
A. M. B. Muhammad Rivki, “Implementasi Algoritma K-Nearest Neighbor dalam Pengklasifikasian Follower Twitter yang Menggunakan Bahasa Indonesia,†J. Inf. Syst., vol. 13, 2017.
A. Muqiit WS and R. Nooraeni, “Penerapan Metode Resampling Dalam Mengatasi Imbalanced Data Pada Determinan Kasus Diare Pada Balita Di Indonesia (Analisis Data Sdki 2017),†J. MSA ( Mat. dan Stat. serta Apl. ), vol. 8, no. 1, p. 19, 2020, doi: 10.24252/msa.v8i1.13452.
Downloads
Published
Issue
Section
License
Pernyataan Hak Cipta dan Lisensi
Hak Cipta :
Penulis yang mempublikasikan naskahnya pada Jurnal ini menyetujui ketentuan berikut:
Hak cipta pada setiap artikel adalah milik penulis.
- Penulis mengakui bahwa JOINTECS (JOURNAL OF INFORMATION TECHNOLOGY AND COMPUTER SCIENCE) berhak sebagai yang mempublikasikan pertama kali dengan lisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).
- Penulis dapat memasukan tulisan secara terpisah, mengatur distribusi non-ekskulif  dari naskah yang telah terbit di jurnal ini kedalam versi yang lain (misal: dikirim ke respository institusi penulis, publikasi kedalam buku, dll), dengan mengakui bahwa naskah telah terbit pertama kali pada JOINTECS (JOURNAL OF INFORMATION TECHNOLOGY AND COMPUTER SCIENCE);
Lisensi :
JOINTECS diterbitkan berdasarkan ketentuan Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Lisensi ini mengizinkan setiap orang untuk menyalin dan menyebarluaskan kembali materi ini dalam bentuk atau format apapun, menggubah, mengubah, dan membuat turunan dari materi ini untuk kepentingan apapun, termasuk kepentingan komersial, selama mereka mencantumkan kredit kepada Penulis atas ciptaan asli.
This work is Under licensed
Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)