Sistem Transkripsi Percakapan Bahasa Indonesia dengan Metode Pengenalan Suara Bahasa Sumber Daya Rendah Menggunakan Wav2Vec2

Budijanto, Christianto Vinsen (2022) Sistem Transkripsi Percakapan Bahasa Indonesia dengan Metode Pengenalan Suara Bahasa Sumber Daya Rendah Menggunakan Wav2Vec2. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img]
Preview
PDF
HALAMAN_AWAL.pdf

Download (1MB) | Preview
[img]
Preview
PDF
DAFTAR_PUSTAKA.pdf

Download (351kB) | Preview
[img]
Preview
PDF
BAB_I.pdf

Download (781kB) | Preview
[img]
Preview
PDF
BAB_II.pdf

Download (1MB) | Preview
[img]
Preview
PDF
BAB_III.pdf

Download (2MB) | Preview
[img] PDF
BAB_IV.pdf
Restricted to Registered users only

Download (8MB)
[img]
Preview
PDF
BAB_V.pdf

Download (347kB) | Preview
[img] PDF
LAMPIRAN.pdf
Restricted to Registered users only

Download (2MB)

Abstract

Berita sebagai media dalam penyebaran suatu peristiwa di seluruh dunia merupakan salah satu bagian penting dari kegiatan jurnalistik. Jika dilihat dari kaca mata para wartawan, permasalahan utama yang muncul ada pada proses transkripsi hasil wawancara yang sampai saat ini masih banyak dilakukan secara manual dan belum optimal. Sudah ada penelitian sebelumnya yang mencoba menyelesaikan permasalahan ini namun masih belum sempurna dari segi efektivitas, efisiensi performa dan waktu transkripsinya. Masalah tersebut sejalan dengan adanya model Automatic Speech Recognition (ASR) Wav2Vec2 sebagai pendekatan untuk melakukan transkripsi suara menjadi teks. Wav2Vec2 sebagai model pengenalan suara bahasa sumber daya rendah dipilih karena performa transkripsi yang sangat baik pada jumlah dataset yang terbatas. Penelitian dilakukan dengan melakukan fine-tuning pada model Wav2Vec2 menggunakan dataset suara bahasa Indonesia dengan durasi kurang lebih 6 jam. Penelitian dilakukan dengan beberapa skenario pengujian yang berbeda menggunakan hyperparameter, language models, dan hal lainnya hingga diperoleh hasil akhir yang baik dengan hasil metriks Word Error Rate adalah 0,104; nilai Precision adalah 0,960; nilai Recall adalah 0,938; nilai F1-Score adalah 0,946; dan rata-rata persentase waktu transkripsi adalah 16,98% dari durasi audio input. Model ASR yang berhasil dibangun kemudian diaplikasikan menjadi sistem berbasis aplikasi mobile yang diharapkan dapat digunakan dalam menyelesaikan permasalahan pada proses transkripsi hasil wawancara terutama di bidang jurnalistik.

Item Type: Thesis (Bachelor Thesis)
Keywords: Bahasa Indonesia, Pengenalan Suara, Sumber Daya Rendah, Transkripsi Percakapan, Wav2Vec2
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.3 Programs
Divisions: Faculty of Engineering & Informatics > Informatics
SWORD Depositor: Administrator UMN Library
Depositing User: Administrator UMN Library
Date Deposited: 20 Jul 2022 04:01
Last Modified: 28 Jun 2023 08:41
URI: https://kc.umn.ac.id/id/eprint/22069

Actions (login required)

View Item View Item