Deteksi Kloning Suara Bahasa Indonesia Menggunakan Model Hibrida Convolutional Attention Network dan Self-Supervised Transformer

Suryajaya Setiawan, Jovanka (2026) Deteksi Kloning Suara Bahasa Indonesia Menggunakan Model Hibrida Convolutional Attention Network dan Self-Supervised Transformer. Bachelor Thesis, Universitas Multimedia Nusantara.

[img] PDF
HALAMAN_AWAL.pdf
Restricted to Registered users only

Download (1MB)
[img] PDF
BAB_I.pdf

Download (869kB)
[img] PDF
BAB_II.pdf

Download (2MB)
[img] PDF
BAB_III.pdf
Restricted to Registered users only

Download (2MB)
[img] PDF
BAB_IV.pdf
Restricted to Registered users only

Download (4MB)
[img] PDF
BAB_V.pdf
Restricted to Registered users only

Download (717kB)
[img] PDF
DAFTAR_PUSTAKA.pdf
Restricted to Registered users only

Download (802kB)
[img] PDF
LAMPIRAN.pdf
Restricted to Registered users only

Download (1MB)
[img] Archive (ZIP)
00000069834_2521_LembarPengesahan.pdf
Restricted to Registered users only

Download (66kB)

Abstract

Kloning suara menjadi tantangan dalam keamanan audio karena ujaran sintetis mampu meniru identitas vokal seseorang dan berpotensi digunakan untuk penyamaran maupun penipuan berbasis suara. Isu ini semakin relevan di Indonesia karena komunikasi berbasis suara banyak digunakan dalam kebutuhan personal, bisnis, dan finansial, sementara penelitian deteksi kloning suara Bahasa Indonesia masih lebih terbatas dibanding penelitian berbasis bahasa Inggris. Ujaran Bahasa Indonesia juga memiliki keberagaman aksen, variasi dialektal, serta ritme berbasis suku kata yang dapat membatasi kemampuan model apabila hanya mengandalkan benchmark berbahasa Inggris. Tantangan lain muncul pada pemilihan metode fusi model karena penggabungan representasi pada level fitur atau embedding dapat membutuhkan penyelarasan dimensi, distribusi, dan pelatihan tambahan ketika model penyusunnya memiliki karakter berbeda. Penelitian ini mengembangkan sistem deteksi kloning suara Bahasa Indonesia dengan menggabungkan Dual-Path Time-Frequency Attention Network dan Wav2Vec 2.0 melalui fusi skor adaptif agar masing-masing model tetap bekerja pada representasi internalnya. Alur penelitian mengikuti kerangka Cross-Industry Standard Process for Data Mining, dimulai dari pemahaman masalah, persiapan data, pengembangan model DPTFAN, Wav2Vec 2.0, dan model hibrida, lalu evaluasi menggunakan Equal Error Rate, Area Under the Curve, dan akurasi. Pada dataset bahasa Indonesia, model hibrida memperoleh EER 0,16%, AUC 99,77%, dan akurasi 99,84%, dengan penurunan EER 0,26% dibanding model tunggal terbaik. Penelitian ini menunjukkan bahwa fusi adaptif pada tingkat skor dapat meningkatkan performa deteksi kloning suara pada dataset bahasa Indonesia yang digunakan, serta menghasilkan performa yang lebih baik dibandingkan model tunggal dalam penelitian ini.

Item Type: Thesis (Bachelor Thesis)
Creators: Suryajaya Setiawan, Jovanka (00000069834)
Contributors: Kristiyanti, Dinar Ajeng
Keywords: Bahasa Indonesia, Convolutional Attention Network, Deteksi Kloning Suara, Fusi Skor, Self-Supervised Transformer
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 004 Computer Science, Data Processing, Hardware > 004.2 Systems Analysis and Design, Information Architecture, Performance Evaluation
Divisions: Faculty of Engineering & Informatics > Information System
Date Deposited: 25 Jun 2026 07:59
URI: https://kc.umn.ac.id/id/eprint/46655

Actions (login required)

View Item View Item