Implementasi Algoritma SMOTE dan UMAP sebagai Upaya Penanggulangan Imbalance High Dimensional Datasets dalam Analisa Sentimen

Komalasari S, Carissa (2021) Implementasi Algoritma SMOTE dan UMAP sebagai Upaya Penanggulangan Imbalance High Dimensional Datasets dalam Analisa Sentimen. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img] Text
HALAMAN_AWAL.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (478kB)
[img]
Preview
Text
DAFTAR_PUSTAKA.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (185kB) | Preview
[img]
Preview
Text
BAB_I.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (202kB) | Preview
[img]
Preview
Text
BAB_II.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (515kB) | Preview
[img]
Preview
Text
BAB_III.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (358kB) | Preview
[img] Text
BAB_IV.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (1MB)
[img]
Preview
Text
BAB_V.pdf
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (119kB) | Preview
[img] Text
LAMPIRAN.pdf
Restricted to Registered users only
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (1MB)

Abstract

Class imbalance problem merupakan permasalahan yang sering dihadapi dalam data mining. Permasalahan ini pada umumnya diatasi dengan melakukan oversampling menggunakan Synthetic Minority Oversampling Technique (SMOTE), namun implementasinya terhadap data berdimensi tinggi terbukti menghasilkan akurasi yang lebih rendah dibandingkan random undersampling. Untuk mengatasi masalah ini, terdapat penelitian yang membuktikan melakukan reduksi dimensi dengan PCA sebelum menggunakan SMOTE dapat memberikan performa yang lebih baik untuk mengklasifikasi gambar. Terdapat beberapa algoritma untuk melakukan reduksi dimensi, salah satunya Uniform Manifold Approximation and Projection (UMAP). UMAP memiliki beberapa kelebihan dibandingkan algoritma lain seperti t-SNE dan PCA, yakni merepresentasikan struktur topological dan memperhitungkan struktur data global lebih baik. Berdasarkan fakta dan permasalahan tersebut, penelitian ini bertujuan untuk membandingkan performa SMOTE dengan kombinasi UMAP dan SMOTE dalam mengatasi permasalahan class imbalance problem pada text features berdimensi tinggi. Percobaan yang dilakukan berbentuk analisa sentimen dengan sentence embedding menggunakan pretrained Embedding from Language Model (ELMo) dan klasifikasi dengan Multilayer Perceptron (MLP). UMAP diimplementasikan untuk mereduksi dimensi dataset, sehingga secara teoritis performa SMOTE dapat meningkat. Hasil dari resampling selanjutnya dikembalikan lagi ke dimensi awal untuk melakukan analisa sentimen. Hasil dari penelitian yang dilakukan menunjukkan UMAP-SMOTE menurunkan rata-rata f-measure SMOTE dengan persentase minimum 27%.

Item Type: Thesis (Bachelor Thesis)
Keywords: UMAP, SMOTE, class imbalance problem, ELMo, MLP, analisa sentimen
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 005 Computer Programming > 005.2 Programming for Specific Computers, Algorithm, HTML, PHP, java, C++
Divisions: Faculty of Engineering & Informatics > Informatics
SWORD Depositor: Administrator UMN Library
Depositing User: Administrator UMN Library
Date Deposited: 24 Aug 2021 17:58
Last Modified: 18 Aug 2023 00:21
URI: https://kc.umn.ac.id/id/eprint/16864

Actions (login required)

View Item View Item