IMPLEMENTASI METODE NAÏVE BAYES DAN LEXICON-BASED APPROACH UNTUK MENGKLASIFIKASI SENTIMEN NETIZEN PADA TWEET BERBAHASA INDONESIA
DOI:
https://doi.org/10.52159/realtech.v18i1.5Keywords:
Lexicon, Klasifikasi, Naive Bayes, Sentimen Analisis, TwitterAbstract
Sosial media, seperti Twitter, banyak digunakan untuk menghubungkan pengguna aplikasi ini di seluruh dunia tanpa dibatasi waktu dan tempat. Tautan Twitter banyak berisi opini dan sentimen dari pengguna terkait topik dan kejadian yang lagi trendi. Analisis sentimen pada teks media sosial telah mendapat banyak perhatian di sektor publik dan komersial. Terdapat banyak penelitian di bidang ini yang mengevaluasi sentimen dari suatu bagian teks, tetapi hasil penelitian sebelumnya belum memadai dan analisis sentimen yang dilakukan mengabaikan konteks. Pengklasifikasian sentimen dari penelitian terkait hanya dibatasi dengan 3 kelas sentimen, yaitu positif, negatif, dan netral sehingga dirasakan belum cukup ekspresif dan informatif. Analisis sentimen menggunakan leksikon berbahasa Indonesia juga terbatas. Oleh karena itu, penelitian ini bertujuan untuk membangun aplikasi pengklasifikasian sentimen netizen pada tweets berbahasa Indonesia dengan menggabungkan metode Naïve Bayes dan pendekatan lexicon-based. Ada 3 topik utama yang diangkat dalam penelitian ini, yaitu pendidikan, kesehatan, dan teknologi, di mana sentimen pengguna Twitter akan diklasifikasikan ke dalam 7 sentimen, seperti senang, sedih, marah, kaget, takut, jijik, dan netral. Sentimen pengguna ini akan diproses pada 3 level yang berbeda, yakni word-level, tweet-level, dan topic-level, dengan jumlah data sebanyak 1,000 tweets untuk tiap topik. Hasil pengujian menunjukkan bahwa rasio pembagian data latih dan data uji, 70:30, dapat memberikan hasil terbaik. Pada word-level, hasil yang mampu dicapai dalam penelitian ini adalah 79,17% akurasi, 89.5% presisi, dan 87,5% recall. Hal ini dipengaruhi oleh jumlah kata unik yang ada di seed lexicon. Akurasi, presisi dan recall yang didapat pada tweet-level adalah sebanyak 83%, 83,62%, dan 98,36% untuk topik pendidikan tweet-level. Sedangkan topik teknologi mendapatkan hasil terendah karena hanya memiliki 69% akurasi, presisi 71,01%, dan recall 93,78% Untuk topic-level, sentimen senang mendominasi ketiga topik tersebut.