Deteksi dan Koreksi Klitik Bahasa Indonesia pada U-Tapis dengan Metode Hybrid Random Forest dan mT5

Vega Hentya Tanojo, Alfonsus (2026) Deteksi dan Koreksi Klitik Bahasa Indonesia pada U-Tapis dengan Metode Hybrid Random Forest dan mT5. Bachelor Thesis, Universitas Multimedia Nusantara.

[img] PDF
HALAMAN_AWAL.pdf
Restricted to Registered users only

Download (1MB)
[img] PDF
ARTIKEL.pdf
Restricted to Registered users only

Download (293kB)
[img] PDF
TURNITIN.pdf
Restricted to Registered users only

Download (1MB)
[img] PDF
LAMPIRAN.pdf
Restricted to Registered users only

Download (2MB)
[img] PDF
LETTER_OF_ACCEPTANCE.pdf
Restricted to Registered users only

Download (530kB)
[img] Archive (ZIP)
CREATION_FILE.zip
Restricted to Registered users only

Download (897kB)

Abstract

Kesalahan pada penggunaan klitik masih banyak ditemukan dalam teks berbahasa Indonesia dan sering tidak mudah dikenali karena bentuk penulisannya kerap menyerupai struktur yang benar. Untuk mengatasi hal tersebut, penelitian ini merancang pendekatan dua tahap yang mencakup proses deteksi dan koreksi kesalahan klitik. Pada tahap deteksi, digunakan model Random Forest yang diperkuat dengan aturan berbasis rule-based sebagai mekanisme validasi tambahan. Dataset disusun secara otomatis melalui pemrograman Python dengan membangkitkan kalimat klitik dalam bentuk benar dan salah yang bersumber dari kamus bahasa Indonesia, kamus bahasa Inggris, serta data akronim, sehingga terkumpul 1.028.975 data yang kemudian dibagi ke dalam tujuh kelas. Representasi fitur dilakukan menggunakan pendekatan character n-gram dengan bigram dan trigram untuk menangkap pola karakter yang merepresentasikan klitik secara kontekstual. Proses optimalisasi model dilakukan melalui GridSearchCV pada tahap hyperparameter tuning. Hasil pengujian menunjukkan bahwa model deteksi menghasilkan akurasi sebesar 0,99 dengan nilai F1-Score macro maupun weighted sebesar 0,99. Pada tahap koreksi, permasalahan diformulasikan sebagai tugas sequence-to-sequence menggunakan mT5 yang dilatih dengan pasangan kalimat kesalahan dan perbaikannya, dan evaluasi pada data teks berita menghasilkan akurasi 0,78 serta GLEU 0,97.

Item Type: Thesis (Bachelor Thesis)
Creators: Vega Hentya Tanojo, Alfonsus (00000068825)
Contributors: Vasty Overbeek, Marlinda
Keywords: Deteksi Kesalahan Klitik, Koreksi Kesalahan Klitik, NLP Indonesia, mT5, Random Forest. x Deteksi dan Koreksi..., Alfonsus Vega Hentya Tanojo, Universitas Multimedia Nusantara
Subjects: 000 Computer Science, Information and General Works
Divisions: Faculty of Engineering & Informatics > Informatics
Date Deposited: 12 May 2026 07:57
URI: https://kc.umn.ac.id/id/eprint/45485

Actions (login required)

View Item View Item