Sistem Transkripsi Percakapan Bahasa Indonesia dengan Metode Pengenalan Suara Bahasa Sumber Daya Rendah Menggunakan Wav2Vec2

⭐ Budijanto, Christianto Vinsen (2022) Sistem Transkripsi Percakapan Bahasa Indonesia dengan Metode Pengenalan Suara Bahasa Sumber Daya Rendah Menggunakan Wav2Vec2. Bachelor Thesis, Universitas Multimedia Nusantara.

Preview

PDF
HALAMAN_AWAL.pdf
Download (1MB) | Preview

Preview

PDF
DAFTAR_PUSTAKA.pdf
Download (351kB) | Preview

Preview

PDF
BAB_I.pdf
Download (781kB) | Preview

Preview

PDF
BAB_II.pdf
Download (1MB) | Preview

Preview

PDF
BAB_III.pdf
Download (2MB) | Preview

PDF
BAB_IV.pdf
Restricted to Registered users only
Download (8MB)

Preview

PDF
BAB_V.pdf
Download (347kB) | Preview

PDF
LAMPIRAN.pdf
Restricted to Registered users only
Download (2MB)

Abstract

Berita sebagai media dalam penyebaran suatu peristiwa di seluruh dunia merupakan salah satu bagian penting dari kegiatan jurnalistik. Jika dilihat dari kaca mata para wartawan, permasalahan utama yang muncul ada pada proses transkripsi hasil wawancara yang sampai saat ini masih banyak dilakukan secara manual dan belum optimal. Sudah ada penelitian sebelumnya yang mencoba menyelesaikan permasalahan ini namun masih belum sempurna dari segi efektivitas, efisiensi performa dan waktu transkripsinya. Masalah tersebut sejalan dengan adanya model Automatic Speech Recognition (ASR) Wav2Vec2 sebagai pendekatan untuk melakukan transkripsi suara menjadi teks. Wav2Vec2 sebagai model pengenalan suara bahasa sumber daya rendah dipilih karena performa transkripsi yang sangat baik pada jumlah dataset yang terbatas. Penelitian dilakukan dengan melakukan fine-tuning pada model Wav2Vec2 menggunakan dataset suara bahasa Indonesia dengan durasi kurang lebih 6 jam. Penelitian dilakukan dengan beberapa skenario pengujian yang berbeda menggunakan hyperparameter, language models, dan hal lainnya hingga diperoleh hasil akhir yang baik dengan hasil metriks Word Error Rate adalah 0,104; nilai Precision adalah 0,960; nilai Recall adalah 0,938; nilai F1-Score adalah 0,946; dan rata-rata persentase waktu transkripsi adalah 16,98% dari durasi audio input. Model ASR yang berhasil dibangun kemudian diaplikasikan menjadi sistem berbasis aplikasi mobile yang diharapkan dapat digunakan dalam menyelesaikan permasalahan pada proses transkripsi hasil wawancara terutama di bidang jurnalistik.

Item Type:	Thesis (Bachelor Thesis)
Creators:	Budijanto, Christianto Vinsen (00000028917)
Contributors:	Endariahna Surbakti, Eunike Waworuntu, Alexander
Keywords:	Bahasa Indonesia, Pengenalan Suara, Sumber Daya Rendah, Transkripsi Percakapan, Wav2Vec2
Subjects:	000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.3 Programs
Sustainable Development Goals:	Goal 10 Reduce inequality within and among countries Goal 04. Ensure inclusive and equitable quality education and promote lifelong learning Goal 09. Build resilient infrastructure, promote inclusive and sustainable industrialization and foster innovation
Divisions:	Faculty of Engineering & Informatics > Informatics
Date Deposited:	20 Jul 2022 04:01
URI:	https://kc.umn.ac.id/id/eprint/22069

Actions (login required)

View Item

This repository is indexed on

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.