Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT

Karissa Vincentio, Felicia (2020) Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img] Text
HALAMAN_AWAL.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Share Alike.

Download (330kB)
[img]
Preview
Text
DAFTAR_PUSTAKA.pdf
Available under License Creative Commons Attribution Share Alike.

Download (189kB) | Preview
[img]
Preview
Text
BAB_I.pdf
Available under License Creative Commons Attribution Share Alike.

Download (131kB) | Preview
[img]
Preview
Text
BAB_II.pdf
Available under License Creative Commons Attribution Share Alike.

Download (992kB) | Preview
[img]
Preview
Text
BAB_III.pdf
Available under License Creative Commons Attribution Share Alike.

Download (223kB) | Preview
[img] Text
BAB_IV.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Share Alike.

Download (1MB)
[img]
Preview
Text
BAB_V.pdf
Available under License Creative Commons Attribution Share Alike.

Download (127kB) | Preview
[img] Text
LAMPIRAN.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Share Alike.

Download (644kB)

Abstract

Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective.

Item Type: Thesis (Bachelor Thesis)
Keywords: bert, transformer, masked language model, unsupervised pre-training, deep learning, language model, bahasa
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.1 Programming, Programming Language
400 Language > 490 Other language > 495 Languages of East and Southeast Asia (Incl. Bahasa Indonesia)
Divisions: Faculty of Engineering & Informatics > Computer Engineering
SWORD Depositor: mr admin umn
Depositing User: mr admin umn
Date Deposited: 05 Dec 2020 01:15
Last Modified: 29 May 2023 08:15
URI: https://kc.umn.ac.id/id/eprint/13998

Actions (login required)

View Item View Item