Algoritma Multinomial Naïve Bayes Untuk Klasifikasi Sentimen Pemerintah Terhadap Penanganan Covid-19 Menggunakan Data Twitter
Abstract
Currently, the spread of information Covid-19 is spreading rapidly. Not only through electronic media, but this information is also disseminated by user posts on social media. Due to the user text posted is varies greatly, it’s needs a special approach to classify these types of posts. This research aims to classify the public sentiment towards the handling of COVID-19. The data from this study were obtained from the social media application i.e., Twitter. This study uses a derivative of the Naïve Bayes algorithm, namely Multinomial Nave Bayes to optimize the classification results. Three class labels are used to classify public sentiment namely positive, negative, and neutral sentiments. The stage starts with text preprocessing; cleaning, case folding, tokenization, filtering and stemming. Then proceed with weighting using the TF-IDF approach. To evaluate the classification results, data is tested using confusion matrix by testing accuracy, precision, and recall. From the test results, it is found that the weighted average for precision, recall and accuracy is 74%. Research shows that the accuracy of the proposed method has fair classification levels.
Downloads
References
Kemudian untuk rata-rata dengan Weighted Average diperoleh sebesar 0,7383 atau dalam persentase adalah 74%.
Kemudian untuk akurasi adalah menghitung seberapa persen ke Tiga kelas tersebut yang benar Negatif, Netral dan Positif dari keseluruhan data? Adapun perhitungan manual untuk akurasi adalah
Akurasi = Total Correctly Clasified/Actual (7)
/600=0.7383
Diketahui rumus akurasi adalah total klasifikasi benar dibagi dengan jumlah data aktual, sehingga diperoleh 0,7383 atau dalam persentasi adalah 74%. Setelah itu, dihitung nilai AUC yaitu dengan (Rata-rata Recall + Rata-rata Specificity)/2. Sehingga hasilnya adalah: AUC= (0,6208+0,8563)/2=0,7386
Berdasarkan pengujian terhadap tiga parameter yaitu precision, recall dan akurasi terhadap Tiga kelas yaitu positif, negative dan netral diperoleh bahwa ukurasi data dipengaruhi oleh data uji. Semakin banyak jumlah data yang di uji maka semakin tinggi tingkat akurasi prediksi. 74% akurasi, 74% precission dan 73% recall data yang diperoleh menandakan bahwa sekitar 26% data dengan algoritma ini tidak tercover untuk semua jenis kelas. Dengan tingkat kerumitan tinggi pada pengolahan data dalam bentuk text, sehingga dapat disimpulkan bahwa algoritma ini mampu bekerja baik karena dapat membangkitkan dokumen yang relevan terhadap keseluruhan dokumen.
Kesimpulan
Berdasarkan analisis diatas disimpulkan bahwa sistem dapat melakukan kategorisasi sentimen teks dalam kelas Positif, Negatif dan Netral terhadap kondisi Covid-19. Prediksi yang dilakukan dengan metode Multinomial Naïve Bayes mengasilkan akurasi sebesar 74%, precision sebesar 74% dan juga recall sebesar 74%. Sehingga diperoleh nilai AUC adalah 0,74. Ini menandakan bahwa, algoritma yang diusulkan memiliki tingkatan fair classification atau (nilai diagnostik sedang/cukup baik).
Untuk penelitian selanjutnya penggunaan sosial media lain perlu dipertimbangkan. Kemudian, perlu ditambahkan algoritma lain untuk membantu kinerja algoritma Multinomial Naïve Bayes dalam proses pengklasifikasian sentimen, khususnya karena peneliti melihat bahwa Multinomial Naïve Bayes melakukan learning per satu kata maka untuk penelitian berikutnya diharapkan algoritma dapat memperhatikan lebih dari satu kata atau bahkan per satu kalimat.
Daftar Rujukan
D. R. Buana, “Analisis Perilaku Masyarakat Indonesia dalam Menghadapi Pandemi Virus Corona (Covid-19) dan Kiat Menjaga Kesejahteraan Jiwa,” SALAM J. Sos. dan Budaya Syar-i, vol. 7, no. 3, 2020, doi: 10.15408/sjsbs.v7i3.15082.
A. Dhita, K. Amrynudin, and R. Katharin, “Birokrasi Dan Kebijakan Percepatan Penanganan Covid-19,” Puslit BKD, vol. XII, no. 9, pp. 25–30, 2020.
K. Kesehatan, “Update Perkembangan COVID-19 di Indonesia per tanggal 14 Juli 2020 pukul 12.00 WIB,” Facebook Page Kemeterian Kesehatan, 2020. .
F. Nurhuda, S. Widya Sihwi, and A. Doewes, “Analisis Sentimen Masyarakat terhadap Calon Presiden Indonesia 2014 berdasarkan Opini dari Twitter Menggunakan Metode Naive Bayes Classifier,” J. Teknol. Inf. ITSmart, vol. 2, no. 2, p. 35, 2016, doi: 10.20961/its.v2i2.630.
P. Arsi, R. Wahyudi, and R. Waluyo, “Optimasi SVM Berbasis PSO pada Analisis Sentimen Wacana Pindah Ibu Kota Indonesia,” J. RESTI (Rekayasa Sistem. dan Teknologi. Informasi), vol. 5, no. 2, pp. 231–237, 2021, doi: 10.29207/resti.v5i2.2698.
R. Sistem et al., “Sentimen dan Pemodelan Topik Pariwisata Lombok,” J. RESTI (Rekayasa Sistem. dan Teknologi. Informasi)., vol. 1, no. 10, pp. 123–131, 2021.
Oryza Habibie Rahman, Gunawan Abdillah, and Agus Komarudin, “Klasifikasi Ujaran Kebencian pada Media Sosial Twitter Menggunakan Support Vector Machine,” J. RESTI (Rekayasa Sistem. dan Teknologi. Informasi), vol. 5, no. 1, pp. 17–23, 2021, doi: 10.29207/resti.v5i1.2700.
I. Santoso, W. Gata, and A. B. Paryanti, “Penggunaan Feature Selection di Algoritma Support Vector Machine untuk Sentimen Analisis Komisi Pemilihan Umum,” J. RESTI (Rekayasa Sistem. dan Teknologi. Informasi), vol. 1, no. 10, pp. 5–11, 2019.
Sharazita Dyah Anggita and Ikmah, “Komparasi Algoritma Klasifikasi Berbasis Particle Swarm Optimization Pada Analisis Sentimen Ekspedisi Barang,” J. RESTI (Rekayasa Sistem. dan Teknologi Informasi), vol. 4, no. 2, pp. 362–369, 2020, doi: 10.29207/resti.v4i2.1840.
E. E. Pratama and R. L. Atmi, “A Text Mining Implementation Based on Twitter Data to,” J. Comput. Soc., vol. 1, no. 1, pp. 91–100, 2020.
A. K. Fauziyyah, “Analisis Sentimen Pandemi Covid19 Pada Streaming Twitter Dengan Text Mining Python,” J. Ilm. SINUS, vol. 18, no. 2, p. 31, 2020, doi: 10.30646/sinus.v18i2.491.
Robi Kurniawan and A. Aulia, “Analisis Sentimen Masyarakat Terhadap Virus Corona Berdasarkan Opini Dari Twitter Berbasis Web Scraper,” Jurnal INSTEK (Informatika Sains dan Teknologi), vol. 5, no. 1. p. 67, 2020, doi: 10.24252/instek.v5i1.13686.
Aribowo Agus Sasmito and S. Khomsah, “Implementation Of Text Mining For Emotion Detection Using The Lexicon Method (Case Study: Tweets About Covid-19),” Telematika, vol. 18, no. 1, p. 49, 2021, doi: 10.31315/telematika.v18i1.4341.
D. Y. L. Noor Hafidz, “Klasifikasi Sentimen pada Twitter Terhadap WHO Terkait Covid-19 Menggunakan SVM, N-Gram, PSO,” vol. 1, no. 10, pp. 3–4, 2021.
S. Hikmawan, A. Pardamean, and S. N. Khasanah, “Sentimen Analisis Publik Terhadap Joko Widodo terhadap wabah Covid-19 menggunakan Metode Machine Learning,” J. Kaji. Ilm., vol. 20, no. 2, pp. 167–176, 2020, doi: 10.31599/jki.v20i2.117.
C. Prianto and N. H. Harani, “Sentiment Analysis of Covid-19 As A Social Media Pandemic,” vol. 4, no. 36, pp. 509–517, 2020.
N. Chintalapudi, G. Battineni, and F. Amenta, “Sentimental Analysis of COVID-19 Tweets Using Deep Learning Models,” Infect. Dis. Rep., vol. 13, no. 2, pp. 329–339, 2021, doi: 10.3390/idr13020032.
P. Studi, T. Informatika, F. I. Komputer, and U. B. Jaya, “Perbandingan Kinerja Variasi Naive Bayes Multivariate Bernoulli dan Naive Bayes Multinomial dalam Pengklasifikasian,” vol. 2, pp. 108–125, 2020.
Yuyun, F. A. Nuzir, and B. J. Dewancker, “Dynamic land-use map based on twitter data,” Sustain., vol. 9, no. 12, pp. 1–20, 2017, doi: 10.3390/su9122158.
N. Umar, Yuyun, Hazriani, and Herman, “Personal popular name identification through twitter data,” Int. J. Adv. Trends Comput. Sci. Eng., vol. 9, no. 5, pp. 8184–8190, 2020, doi: 10.30534/ijatcse/2020/182952020.
F. Afshoh, “Analisa Sentimen Menggunakan Naïve Bayes Untuk Melihat Persepsi Masyarakat Terhadap Kenaikan Harga Jual Rokok Pada Media Sosial Twitter,” Universitas Muhammadiya Surakarta, 2017.
I. F. Rozi, E. N. Hamdana, and M. B. I. Alfahmi, “Pengembanagan Aplikasi Analisis Sentimen Twitter Menggunakan Metode Naive Bayes Classifier (Studi Kasus SAMSAT Kota Malang),” J. Inform. Polinema, vol. 4, pp. 149–154, 2018.
G. Singh, B. Kumar, L. Gaur, and A. Tyagi, “Comparison between Multinomial and Bernoulli Naïve Bayes for Text Classification,” 2019 Int. Conf. Autom. Comput. Technol. Manag. ICACTM 2019, no. May 2020, pp. 593–596, 2019, doi: 10.1109/ICACTM.2019.8776800.
M. Y. H. Setyawan, R. M. Awangga, and S. R. Efendi, “Comparison Of Multinomial Naive Bayes Algorithm And Logistic Regression For Intent Classification In Chatbot,” Proc. 2018 Int. Conf. Appl. Eng. ICAE 2018, no. October, pp. 1–5, 2018, doi: 10.1109/INCAE.2018.8579372.
Rianto, A. B. Mutiara, E. P. Wibowo, and P. I. Santosa, “Improving the accuracy of text classification using stemming method, a case of non-formal Indonesian conversation,” Journal of Big Data, vol. 8, no. 1. 2021, doi: 10.1186/s40537-021-00413-1.
Copyright (c) 2021 Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi)
This work is licensed under a Creative Commons Attribution 4.0 International License.
Copyright in each article belongs to the author
- The author acknowledges that the RESTI Journal (System Engineering and Information Technology) is the first publisher to publish with a license Creative Commons Attribution 4.0 International License.
- Authors can enter writing separately, arrange the non-exclusive distribution of manuscripts that have been published in this journal into other versions (eg sent to the author's institutional repository, publication in a book, etc.), by acknowledging that the manuscript has been published for the first time in the RESTI (Rekayasa Sistem dan Teknologi Informasi) journal ;