Implementasi XLM-RoBERTa untuk Klasifikasi Teks Berbahasa Inggris dan Indonesia

Keenan Wiciaputra, Yakobus (2021) Implementasi XLM-RoBERTa untuk Klasifikasi Teks Berbahasa Inggris dan Indonesia. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img] Text
HALAMAN_AWAL.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (446kB)
[img]
Preview
Text
DAFTAR_PUSTAKA.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (15kB) | Preview
[img]
Preview
Text
BAB_I.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (143kB) | Preview
[img]
Preview
Text
BAB_II.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (213kB) | Preview
[img]
Preview
Text
BAB_III.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (330kB) | Preview
[img] Text
BAB_IV.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (528kB)
[img]
Preview
Text
BAB_V.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (17kB) | Preview
[img] Text
LAMPIRAN.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (727kB)

Abstract

Seiring dengan berkembangnya teknologi, semakin banyak informasi yang beredar dan mudah kita terima dalam melakukan aktivitas sehari-hari. Salah satu bentuk informasi yang paling sering kita jumpai adalah informasi berupa teks. Dengan banyaknya jumlah informasi berupa teks yang beredar, diperlukan pengolahan informasi teks yang baik agar tidak terjadi disinformasi yang dapat merugikan banyak pihak. Atas dasar tersebut, dibutuhkan sebuah solusi yang dapat membantu pengolahan data berupa teks sehingga dibuatlah sebuah penelitian yang memiliki tujuan untuk menyelesaikan permasalahan tersebut. Di Indonesia, informasi teks yang beredar pada umumnya menggunakan 2 bahasa, yaitu bahasa Inggris dan bahasa Indonesia. Sehingga penelitian ini memiliki fokus utama untuk dapat melakukan klasifikasi teks pada banyak bahasa atau biasa disebut multilingual text classification. Multilingual text classification tersebut menggunakan model XLM-RoBERTa dalam implementasinya. Dataset yang akan digunakan pada penelitian ini adalah news dataset berbahasa Inggris dan Indonesia. Penelitian ini berhasil menerapkan konsep transfer learning yang digunakan oleh XLM-RoBERTa untuk melakukan klasifikasi teks pada bahasa Indonesia hanya dengan menggunakan English News Dataset sebagai training dataset dengan nilai MCC sebesar 42,2%. Hasil dari penelitian ini juga memiliki nilai akurasi tertinggi saat dilakukan pengujian pada English News Dataset berukuran besar (37.886) dengan nilai MCC sebesar 90,8%, accuracy sebesar 93,3%, precision sebesar 93,4%, recall sebesar 93,3%, dan F1 sebesar 93,3% serta nilai akurasi saat dilakukan pengujian pada Indonesian News Dataset berukuran besar (70.304) dengan nilai MCC sebesar 86,4%, nilai accuracy, precision, recall, dan F1 sebesar 90,2% menggunakan Mixed News Dataset berukuran besar (108.190) dalam proses training model.

Item Type: Thesis (Bachelor Thesis)
Keywords: Multilingual Text Classification, Natural Language Processing, News Dataset, Transfer Learning, XLM-RoBERTa
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.2 Programming for Specific Computers, Algorithm, HTML, PHP, java, C++
Divisions: Faculty of Engineering & Informatics > Informatics
SWORD Depositor: Administrator UMN Library
Depositing User: Administrator UMN Library
Date Deposited: 24 Aug 2021 13:28
Last Modified: 16 Aug 2023 01:39
URI: https://kc.umn.ac.id/id/eprint/17598

Actions (login required)

View Item View Item