Karissa Vincentio, Felicia (2020) Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT. Bachelor Thesis thesis, Universitas Multimedia Nusantara.
Text
HALAMAN_AWAL.pdf Restricted to Registered users only Available under License Creative Commons Attribution Share Alike. Download (330kB) |
||
|
Text
DAFTAR_PUSTAKA.pdf Available under License Creative Commons Attribution Share Alike. Download (189kB) | Preview |
|
|
Text
BAB_I.pdf Available under License Creative Commons Attribution Share Alike. Download (131kB) | Preview |
|
|
Text
BAB_II.pdf Available under License Creative Commons Attribution Share Alike. Download (992kB) | Preview |
|
|
Text
BAB_III.pdf Available under License Creative Commons Attribution Share Alike. Download (223kB) | Preview |
|
Text
BAB_IV.pdf Restricted to Registered users only Available under License Creative Commons Attribution Share Alike. Download (1MB) |
||
|
Text
BAB_V.pdf Available under License Creative Commons Attribution Share Alike. Download (127kB) | Preview |
|
Text
LAMPIRAN.pdf Restricted to Registered users only Available under License Creative Commons Attribution Share Alike. Download (644kB) |
Abstract
Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective.
Item Type: | Thesis (Bachelor Thesis) |
---|---|
Keywords: | bert, transformer, masked language model, unsupervised pre-training, deep learning, language model, bahasa |
Subjects: | 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.1 Programming, Programming Language 400 Language > 490 Other language > 495 Languages of East and Southeast Asia (Incl. Bahasa Indonesia) |
Divisions: | Faculty of Engineering & Informatics > Computer Engineering |
SWORD Depositor: | Administrator UMN Library |
Depositing User: | Administrator UMN Library |
Date Deposited: | 05 Dec 2020 01:15 |
Last Modified: | 29 May 2023 08:15 |
URI: | https://kc.umn.ac.id/id/eprint/13998 |
Actions (login required)
View Item |