Liong, Steven (2024) Implementasi Information Gain untuk Feature Selection dengan Threshold NilaiMedian. Bachelor Thesis thesis, Universitas Multimedia Nusantara.
PDF
HALAMAN_AWAL.pdf Download (810kB) |
|
PDF
BAB_I.pdf Download (222kB) |
|
PDF
BAB_II.pdf Download (309kB) |
|
PDF
BAB_III.pdf Download (343kB) |
|
PDF
BAB_IV.pdf Restricted to Registered users only Download (294kB) |
|
PDF
BAB_V.pdf Download (209kB) |
|
PDF
DAFTAR_PUSTAKA.pdf Download (217kB) |
|
PDF
LAMPIRAN.pdf Restricted to Registered users only Download (233kB) |
Abstract
Perkembangan ilmu data dan penemuan pengetahuan dalam aplikasi digital menuntut proses feature selection yang bertujuan untuk mengurangi dimensi data dan mengatasi biaya komputasi yang tinggi. Salah satu metode feature selection adalah information gain. Selain itu, nilai threshold yang ditentukan dari nilai information gain dapat menggunakan perhitungan statistika. Oleh karena itu, penelitian ini mengusulkan penentuan nilai threshold menggunakan nilai median dari information gain yang dihasilkan oleh setiap feature dalam dataset. Penentuan nilai threshold diuji pada 8 dataset yang diklasifikasikan menggunakan algoritma logistic regression. Dataset yang digunakan memiliki lebih dari 50 feature dengan kategori 6 dataset multivariate, 1 dataset sequential, dan 1 dataset univariate. Proses pengujian dilakukan dengan menghitung nilai information gain untuk setiap fitur di setiap dataset, kemudian menentukan nilai threshold berdasarkan nilai median. Uji model dilakukan menggunakan k-fold cross validation dengan nilai k=10. Hasil dataset yang sudah melalui proses feature selection diuji menggunakan model klasifikasi logistic regression, decision tree, random forest, dan naive bayes, dengan tujuan membandingkan kinerja logistic regression dengan algoritma lain. Pengujian algoritma logistic regression pada 8 dataset menunjukkan bahwa nilai accuracy yang diperoleh untuk semua dataset adalah lebih dari 76%. Berdasarkan hasil pengujian, algoritma logistic regression menunjukkan performa unggul dalam klasifikasi menggunakan dataset hasil feature selection, dengan accuracy yang lebih tinggi dibandingkan algoritma lainnya. Logistic regression unggul pada 5 dari 8 uji dataset. Sementara itu, decision tree dan naive bayes tidak berhasil unggul pada satu pun dataset, sedangkan random forest berhasil unggul pada 3 dataset.
Item Type: | Thesis (Bachelor Thesis) |
---|---|
Keywords: | Feature selection, Information gain, Logistic regression, Median, Threshold |
Subjects: | ?? T58.5-58.64 ?? |
Divisions: | Faculty of Engineering & Informatics > Informatics |
SWORD Depositor: | Administrator UMN Library |
Depositing User: | Administrator UMN Library |
Date Deposited: | 09 Nov 2024 11:23 |
Last Modified: | 09 Nov 2024 11:23 |
URI: | https://kc.umn.ac.id/id/eprint/33797 |
Actions (login required)
View Item |