Analisis SMOTE Pada Klasifikasi Hepatitis C Berbasis Random Forest dan Naïve Bayes
DOI:
https://doi.org/10.31328/jointecs.v8i1.4456Keywords:
hepatitis c, random forest, naïve bayes, SMOTE, confusion matrixAbstract
Menurut WHO, orang yang terinfeksi virus Hepatitis C tercatat sekitar 71 juta orang pada 2019. Hanya 49,7% orang yang menyadari adanya penyakit Hepatitis C. Pencegahan dini penting dilakukan untuk meminimalisir kemungkinan buruk terjadi. Untuk memaksimalkan upaya ahli medis dalam meminimalisir risiko penularan, dibuat program yang mampu mengklasifikasikan penyakit Hepatitis C dengan sistem deteksi otomatis menggunakan model machine learning. Random Forest dipilih karena mampu menangani outlier dan imbalance data sehingga mampu menghasilkan nilai akurasi yang tinggi serta mampu mengidentifikasi fitur-fitur yang penting. Naïve Bayes dipilih karena algoritmanya yang sederhana, namun mampu menghasilkan nilai akurasi tinggi. Setelah dilakukan pengujian pada kedua model, dilakukan perhitungan terhadap hasil prediksi menggunakan formula confusion matrix. Hasil pengujian menunjukkan dengan menerapkan model Random Forest tanpa SMOTE sebesar 93% dan Naïve Bayes tanpa SMOTE sebesar 88%. Sehubungan dengan adanya imbalance data pada dataset, maka dilakukan teknik oversampling menggunakan metode SMOTE. Hasil pengujian yang diperoleh dari menerapkan model Random Forest dengan SMOTE sebesar 98% dan Naïve Bayes dengan SMOTE sebesar 89%.References
Schwarz, Tanja, et al. "Interventions to increase linkage to care and adherence to treatment for hepatitis C among people who inject drugs: A systematic review and practical considerations from an expert panel consultation." International Journal of Drug Policy, vol. 102, no. 4, pp. 103588, 2022, doi: 10.1016/j.drugpo.2022.103588.
J. Pawlotsky et al., “EASL Recommendations on Treatment of Hepatitis C 2018,†J. Hepatol., vol. 4, no. 9, 2018, doi: 10.1016/j.jhep.2018.03.026.
A. A. Rabaan et al., “Overview of hepatitis C infection, molecular biology, and new treatment,†J. Infect. Public Health, vol. 13, no. 5, pp. 773–783, 2020, doi: 10.1016/j.jiph.2019.11.015.
J. Ye, J. Ho, E. Cartwright, R. Simpson, and V. Stover, “Predictors of progression through the cascade of care to a cure for hepatitis C patients using decision trees and random forests,†Comput. Biol. Med., vol. 134, no. March, p. 104461, 2021, doi: 10.1016/j.compbiomed.2021.104461.
R. A. Charisma, S. Pamungkas, R. A. Saputra, and N. G. Ramadhan, “Analisis Penerapan Metode Ensembled Learning Decision Tree Pada Klasifikasi Virus Hepatitis C,†J. Comput. Syst. Informatics, vol. 3, no. 4, pp. 405–409, 2022, doi: 10.47065/josyc.v3i4.2064.
S. Tinggi, T. Pati, P. Korespondensi, and H. C. Virus, “Klasifikasi Hepatitis C Virus Menggunakan Algoritma C4.5†J. DISPROTEK, vol. 13, no. 2, pp. 131–136, 2022, doi: 10.34001/jdpt.v12i2.
A. Muslih, M. F. Ahadi, and M. I. Rasyid, “Klasifikasi Kematangan Pada Buah Mangga Garifta Merah dengan Transformasi Ruang Warna HSI,†J. Appl. Informatics Comput., vol. 5, no. 2, pp. 117–121, 2021.
L. Qadrini, H. Hikmah, and M. Megasari, “Oversampling, Undersampling, Smote SVM dan Random Forest pada Klasifikasi Penerima Bidikmisi Sejawa Timur Tahun 2017,†J. Comput. Syst. Informatics, vol. 3, no. 4, pp. 386–391, 2022, doi: 10.47065/josyc.v3i4.2154.
D. Mualfah, W. Fadila, and R. Firdaus, “Teknik SMOTE untuk Mengatasi Imbalance Data pada Deteksi Penyakit Stroke Menggunakan Algoritma Random Forest,†J. CoSciTech (Computer Sci. Inf. Technol., vol. 3, no. 2, pp. 107–113, 2022, doi: 10.37859/coscitech.v3i2.3912.
J. Gaussian, “Perbandingan Metode SMOTE Random Forest dan SMOTE XGBoost Untuk Klasifikasi Tingkat Penyakit Hepatitis C Pada Imbalance Class Data,†J. Gaussian, vol. 9, pp. 227–236, 2020.
E. Pusporani, S. Qomariyah, and I. Irhamah, “Klasifikasi Pasien Penderita Penyakit Liver dengan Pendekatan Machine Learning,†Inferensi, vol. 2, no. 1, p. 25, 2019, doi: 10.12962/j27213862.v2i1.6810.
E. Erlin, Y. Desnelita, N. Nasution, L. Suryati, and F. Zoromi, “Dampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang,†MATRIK J. Manajemen, Tek. Inform. dan Rekayasa Komput., vol. 21, no. 3, pp. 677–690, 2022, doi: 10.30812/matrik.v21i3.1726.
J. Estublier et al., “Impact of software engineering research on the practice of software configuration management,†ACM Trans. Softw. Eng. Methodol., vol. 14, no. 4, pp. 383–430, 2005, doi: 10.1145/1101815.1101817.
A. Alhamad, A. I. S. Azis, B. Santoso, and S. Taliki, “Prediksi Penyakit Jantung Menggunakan Metode-Metode Machine Learning Berbasis Ensemble – Weighted Vote,†J. Edukasi dan Penelit. Inform., vol. 5, no. 3, p. 352, 2019, doi: 10.26418/jp.v5i3.37188.
F. Tang and H. Ishwaran, “Random forest missing data algorithms,†Stat. Anal. Data Min. Asa Data Sci. J., no. April, pp. 1–15, 2017, doi: 10.1002/sam.11348.
R. R. Santoso, R. Megasari, and Y. A. Hambali, “Implementasi Metode Machine Learning Menggunakan Algoritma Evolving Artificial Neural Network Pada Kasus Prediksi Diagnosis Diabetes,†JATIKOM (Jurnal Apl. dan Teor. Ilmu Komputer), vol. 3, no. 2, pp. 85–97, 2020.
J. Homepage, N. Suryana, and R. Tri Prasetio, “Penanganan Ketidakseimbangan Data pada Prediksi Customer Churn Menggunakan Kombinasi SMOTE dan Boosting,†IJCIT (Indonesian J. Comput. Inf. Technol., vol. 6, no. 1, pp. 31–37, 2021, [Online]. Available: https://creativecommons.org/licenses/by-sa/4.0/.
N. G. Ramadhan. "Comparative Analysis Of Adasyn-Svm And Smote-Svm Methods On The Detection Of Type 2 Diabetes Mellitus." Sci. Jour. Of. Inform. vol. 8, no. 2, pp. 276-282, 2021. doi: 10.15294/sji.v8i2.32484.
K. Lemons, “A Comparison Between Naïve Bayes and Random Forest to Predict Breast Cancer,†IJURCA Int. J. Undergrad. Res. Creat. Act., vol. 12, 2020.
N. G. Ramadhan and F. D. Adhinata, “Teknik Smote Dan Gini Score Dalam Klasifikasi Kanker Payudara,†RADIAL J. Perad. Sains, Rekayasa dan Teknol., vol. 9, no. 2, pp. 125–134, 2021, doi: 10.37971/radial.v9i2.229.
Downloads
Published
Issue
Section
License
Pernyataan Hak Cipta dan Lisensi
Hak Cipta :
Penulis yang mempublikasikan naskahnya pada Jurnal ini menyetujui ketentuan berikut:
Hak cipta pada setiap artikel adalah milik penulis.
- Penulis mengakui bahwa JOINTECS (JOURNAL OF INFORMATION TECHNOLOGY AND COMPUTER SCIENCE) berhak sebagai yang mempublikasikan pertama kali dengan lisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).
- Penulis dapat memasukan tulisan secara terpisah, mengatur distribusi non-ekskulif  dari naskah yang telah terbit di jurnal ini kedalam versi yang lain (misal: dikirim ke respository institusi penulis, publikasi kedalam buku, dll), dengan mengakui bahwa naskah telah terbit pertama kali pada JOINTECS (JOURNAL OF INFORMATION TECHNOLOGY AND COMPUTER SCIENCE);
Lisensi :
JOINTECS diterbitkan berdasarkan ketentuan Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Lisensi ini mengizinkan setiap orang untuk menyalin dan menyebarluaskan kembali materi ini dalam bentuk atau format apapun, menggubah, mengubah, dan membuat turunan dari materi ini untuk kepentingan apapun, termasuk kepentingan komersial, selama mereka mencantumkan kredit kepada Penulis atas ciptaan asli.
This work is Under licensed
Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)