Komalasari S, Carissa (2021) Implementasi Algoritma SMOTE dan UMAP sebagai Upaya Penanggulangan Imbalance High Dimensional Datasets dalam Analisa Sentimen. Bachelor Thesis thesis, Universitas Multimedia Nusantara.
Abstract
Class imbalance problem merupakan permasalahan yang sering dihadapi dalam data mining. Permasalahan ini pada umumnya diatasi dengan melakukan oversampling menggunakan Synthetic Minority Oversampling Technique (SMOTE), namun implementasinya terhadap data berdimensi tinggi terbukti menghasilkan akurasi yang lebih rendah dibandingkan random undersampling. Untuk mengatasi masalah ini, terdapat penelitian yang membuktikan melakukan reduksi dimensi dengan PCA sebelum menggunakan SMOTE dapat memberikan performa yang lebih baik untuk mengklasifikasi gambar. Terdapat beberapa algoritma untuk melakukan reduksi dimensi, salah satunya Uniform Manifold Approximation and Projection (UMAP). UMAP memiliki beberapa kelebihan dibandingkan algoritma lain seperti t-SNE dan PCA, yakni merepresentasikan struktur topological dan memperhitungkan struktur data global lebih baik. Berdasarkan fakta dan permasalahan tersebut, penelitian ini bertujuan untuk membandingkan performa SMOTE dengan kombinasi UMAP dan SMOTE dalam mengatasi permasalahan class imbalance problem pada text features berdimensi tinggi. Percobaan yang dilakukan berbentuk analisa sentimen dengan sentence embedding menggunakan pretrained Embedding from Language Model (ELMo) dan klasifikasi dengan Multilayer Perceptron (MLP). UMAP diimplementasikan untuk mereduksi dimensi dataset, sehingga secara teoritis performa SMOTE dapat meningkat. Hasil dari resampling selanjutnya dikembalikan lagi ke dimensi awal untuk melakukan analisa sentimen. Hasil dari penelitian yang dilakukan menunjukkan UMAP-SMOTE menurunkan rata-rata f-measure SMOTE dengan persentase minimum 27%.
Item Type: | Thesis (Bachelor Thesis) |
---|---|
Keywords: | UMAP, SMOTE, class imbalance problem, ELMo, MLP, analisa sentimen |
Subjects: | 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.2 Programming for Specific Computers, Algorithm, HTML, PHP, java, C++ |
Divisions: | Faculty of Engineering & Informatics > Informatics |
SWORD Depositor: | Administrator UMN Library |
Depositing User: | Administrator UMN Library |
Date Deposited: | 24 Aug 2021 17:58 |
Last Modified: | 18 Aug 2023 00:21 |
URI: | https://kc.umn.ac.id/id/eprint/16864 |
Actions (login required)
View Item |