Vinson, Vinson (2026) U-Tapis Angka: Pengembangan Modul Deteksi dan Koreksi Kesalahan Angka dan Bilangan Menggunakan Conditional Random Fields dan T5. Bachelor Thesis, Universitas Multimedia Nusantara.
|
PDF
HALAMAN_AWAL.pdf Restricted to Registered users only Download (849kB) |
|
|
PDF
ARTIKEL.pdf Restricted to Registered users only Download (548kB) |
|
|
PDF
TURNITIN.pdf Restricted to Registered users only Download (2MB) |
|
|
PDF
LAMPIRAN.pdf Restricted to Registered users only Download (3MB) |
|
|
PDF
LETTER_OF_ACCEPTANCE.pdf Restricted to Registered users only Download (84kB) |
|
|
Archive (ZIP)
CREATION_FILE.zip Restricted to Registered users only Download (5MB) |
Abstract
Penelitian ini mengembangkan model machine learning berbasis Conditional Random Fields (CRF) untuk mendeteksi kesalahan penggunaan angka dan bilangan yang tidak sesuai dengan Ejaan Bahasa Indonesia yang Disempurnakan (EYD) pada teks berita daring. Proses penelitian mencakup pengumpulan 738.548 artikel berita Indonesia, ekstraksi kalimat, identifikasi kesalahan menggunakan pola berbasis aturan (regex), pelabelan data menggunakan format IOB, serta rekayasa fitur token-level untuk menangkap konteks sekuensial. Data kemudian dibagi menjadi data latih dan uji menggunakan skema 80:20. Model CRF dilatih untuk mengenali sebelas kategori kesalahan numerik, termasuk bilangan awal kalimat, angka lawan huruf, bilangan besar, alamat, penomoran buku, bilangan tingkat, akhiran "-an", serta nama geografi. Evaluasi menunjukkan performa tinggi dengan nilai rata-rata F1-score, precision, dan recall sebesar 0,94. Analisis confusion matrix memperlihatkan kemampuan model membedakan kategori secara konsisten dengan tingkat kekeliruan yang rendah. Sebagai tindak lanjut dari proses deteksi, penelitian ini juga menerapkan model generatif berbasis Text-to-Text Transfer Transformer (T5), khususnya varian IndoT5, untuk menghasilkan saran koreksi otomatis. Model T5 dilatih ulang (fine-tuned) menggunakan strategi augmentasi data sintesis guna mengatasi keterbatasan data latih alami dan mempelajari pola perbaikan kalimat yang kontekstual. Kedua model kemudian diintegrasikan ke dalam backend berbasis Flask API sebagai layanan inferensi terpadu untuk sistem U-Tapis. Hasil ini menegaskan bahwa kombinasi CRF untuk pelabelan sekuensial dan T5 untuk koreksi generatif efektif dalam menangani kesalahan angka dalam bahasa Indonesia, serta berpotensi meningkatkan akurasi dan efisiensi penyuntingan berita bagi jurnalis.
| Item Type: | Thesis (Bachelor Thesis) |
|---|---|
| Creators: | Vinson, Vinson (00000070870) |
| Contributors: | Vasty Overbeek, Marlinda |
| Keywords: | API Flask, Conditional Random Fields, IndoT5, Deteksi kesalahan, Koreksi otomatis, Angka dan bilangan, Ejaan Yang Disempurnakan (EYD) |
| Subjects: | 000 Computer Science, Information and General Works |
| Divisions: | Faculty of Engineering & Informatics > Informatics |
| Date Deposited: | 08 May 2026 07:57 |
| URI: | https://kc.umn.ac.id/id/eprint/45432 |
Actions (login required)
![]() |
View Item |
