Implementasi Algoritma SMOTE dan UMAP sebagai Upaya Penanggulangan Imbalance High Dimensional Datasets dalam Analisa Sentimen

Komalasari S, Carissa (2021) Implementasi Algoritma SMOTE dan UMAP sebagai Upaya Penanggulangan Imbalance High Dimensional Datasets dalam Analisa Sentimen. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img]
Preview
PDF
HALAMAN_AWAL.pdf

Download (478kB) | Preview
[img]
Preview
PDF
DAFTAR_PUSTAKA.pdf

Download (185kB) | Preview
[img]
Preview
PDF
BAB_I.pdf

Download (202kB) | Preview
[img]
Preview
PDF
BAB_II.pdf

Download (515kB) | Preview
[img]
Preview
PDF
BAB_III.pdf

Download (358kB) | Preview
[img] PDF
BAB_IV.pdf
Restricted to Registered users only

Download (1MB)
[img]
Preview
PDF
BAB_V.pdf

Download (119kB) | Preview
[img]
Preview
PDF
LAMPIRAN.pdf

Download (1MB) | Preview

Abstract

Class imbalance problem merupakan permasalahan yang sering dihadapi dalam data mining. Permasalahan ini pada umumnya diatasi dengan melakukan oversampling menggunakan Synthetic Minority Oversampling Technique (SMOTE), namun implementasinya terhadap data berdimensi tinggi terbukti menghasilkan akurasi yang lebih rendah dibandingkan random undersampling. Untuk mengatasi masalah ini, terdapat penelitian yang membuktikan melakukan reduksi dimensi dengan PCA sebelum menggunakan SMOTE dapat memberikan performa yang lebih baik untuk mengklasifikasi gambar. Terdapat beberapa algoritma untuk melakukan reduksi dimensi, salah satunya Uniform Manifold Approximation and Projection (UMAP). UMAP memiliki beberapa kelebihan dibandingkan algoritma lain seperti t-SNE dan PCA, yakni merepresentasikan struktur topological dan memperhitungkan struktur data global lebih baik. Berdasarkan fakta dan permasalahan tersebut, penelitian ini bertujuan untuk membandingkan performa SMOTE dengan kombinasi UMAP dan SMOTE dalam mengatasi permasalahan class imbalance problem pada text features berdimensi tinggi. Percobaan yang dilakukan berbentuk analisa sentimen dengan sentence embedding menggunakan pretrained Embedding from Language Model (ELMo) dan klasifikasi dengan Multilayer Perceptron (MLP). UMAP diimplementasikan untuk mereduksi dimensi dataset, sehingga secara teoritis performa SMOTE dapat meningkat. Hasil dari resampling selanjutnya dikembalikan lagi ke dimensi awal untuk melakukan analisa sentimen. Hasil dari penelitian yang dilakukan menunjukkan UMAP-SMOTE menurunkan rata-rata f-measure SMOTE dengan persentase minimum 27%.

Item Type: Thesis (Bachelor Thesis)
Keywords: UMAP, SMOTE, class imbalance problem, ELMo, MLP, analisa sentimen
Subjects: T Technology > T Technology (General) > T55 Industrial engineering. Management engineering > T58.5-58.64 Information technology
Divisions: Fakultas Teknik Informatika > Program Studi Informatika
SWORD Depositor: mr admin umn
Depositing User: mr admin umn
Date Deposited: 24 Aug 2021 17:58
Last Modified: 24 Aug 2021 17:58
URI: http://kc.umn.ac.id/id/eprint/16864

Actions (login required)

View Item View Item