Implementasi Algoritma Sentencepiece untuk Meningkatkan Performa Naive Bayes Classifier pada Klasifikasi Artikel Berita

Gunawan, Indra (2021) Implementasi Algoritma Sentencepiece untuk Meningkatkan Performa Naive Bayes Classifier pada Klasifikasi Artikel Berita. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img] Text
HALAMAN_AWAL.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (556kB)
[img]
Preview
Text
DAFTAR_PUSTAKA.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (405kB) | Preview
[img]
Preview
Text
BAB_I.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (436kB) | Preview
[img]
Preview
Text
BAB_II.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (523kB) | Preview
[img]
Preview
Text
BAB_III.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (535kB) | Preview
[img] Text
BAB_IV.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (689kB)
[img]
Preview
Text
BAB_V.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (343kB) | Preview
[img] Text
LAMPIRAN.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (469kB)

Abstract

Perkembangan teknologi membuat banyak hal mengalami digitalisasi termasuk informasi. Pengelolaan informasi dengan jumlah banyak di internet bukanlah hal yang mudah. Untuk membantu pengelolaan informasi tersebut digunakan data mining. Data mining merupakan sebuah proses menemukan pola dan tren yang berguna dalam sebuah dataset yang besar. Penelitian ini berfokus pada dataset besar yang berisi kata. Dataset yang digunakan adalah artikel berita yang diambil dari situs Kompas.com. Untuk mengolah data dalam bentuk kata digunakan metode text preprocessing karena setiap karakter, kata, dan kalimat yang ada merupakan unit yang penting untuk proses selanjutnya. Salah satu proses tersebut merupakan tokenisasi yang merupakan proses memecah teks menjadi kata, frasa, simbol, atau elemen bermakna lainnya. Sebagian besar metode tokenisasi yang ada merupakan metode yang bergantung pada bahasa tertentu. Maka dari itu, ada algoritma sentencepiece yang merupakan metode tokenisasi yang tidak bergantung pada bahasa tertentu. Dua metode tersebut dibandingkan menggunakan skor f1 untuk melihat performa masing-masing metode. Metode tokenisasi biasa menggunakan library NLTK dan metode tokenisasi sentecepiece menggunakan library sentencepiece. Untuk membandingkan kedua metode text preprocessing tersebut digunakan multinomial naïve bayes classifier untuk proses klasifikasinya dengan pengukuran skor f1. Disimpulkan bahwa ada peningkatan skor f1 pada model sentencepiece yang digunakan. Model yang memberikan skor f1 terbaik adalah unigram dengan vocabulary size 32000 dengan skor 0,872111 dan untuk tokenisasi biasa menghasilkan skor f1 0,865778. Dari sisi ukuran vocabulary yang terbentuk dari hasil pembobotan kata, model Unigram memiliki ukuran yang lebih kecil yaitu 621 KB jika dibandingkan dengan tokenisasi biasa yaitu 636 KB. Dari sisi perbedaan waktu yang digunakan, sentencepiece memiliki waktu 27,35 detik sedangkan metode praproses biasa memiliki waktu 7 jam 14 menit 3,31 detik.

Item Type: Thesis (Bachelor Thesis)
Keywords: text preprocessing, multinomial naïve bayes classifier, sentencepiece, unigram, data mining
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.2 Programming for Specific Computers, Algorithm, HTML, PHP, java, C++
Divisions: Faculty of Engineering & Informatics > Informatics
SWORD Depositor: Administrator UMN Library
Depositing User: Administrator UMN Library
Date Deposited: 24 Aug 2021 12:36
Last Modified: 09 Aug 2023 01:54
URI: https://kc.umn.ac.id/id/eprint/16831

Actions (login required)

View Item View Item