Implementasi Information Gain untuk Feature Selection dengan Threshold NilaiMedian

Liong, Steven (2024) Implementasi Information Gain untuk Feature Selection dengan Threshold NilaiMedian. Bachelor Thesis thesis, Universitas Multimedia Nusantara.

[img] PDF
HALAMAN_AWAL.pdf

Download (810kB)
[img] PDF
BAB_I.pdf

Download (222kB)
[img] PDF
BAB_II.pdf

Download (309kB)
[img] PDF
BAB_III.pdf

Download (343kB)
[img] PDF
BAB_IV.pdf
Restricted to Registered users only

Download (294kB)
[img] PDF
BAB_V.pdf

Download (209kB)
[img] PDF
DAFTAR_PUSTAKA.pdf

Download (217kB)
[img] PDF
LAMPIRAN.pdf
Restricted to Registered users only

Download (233kB)

Abstract

Perkembangan ilmu data dan penemuan pengetahuan dalam aplikasi digital menuntut proses feature selection yang bertujuan untuk mengurangi dimensi data dan mengatasi biaya komputasi yang tinggi. Salah satu metode feature selection adalah information gain. Selain itu, nilai threshold yang ditentukan dari nilai information gain dapat menggunakan perhitungan statistika. Oleh karena itu, penelitian ini mengusulkan penentuan nilai threshold menggunakan nilai median dari information gain yang dihasilkan oleh setiap feature dalam dataset. Penentuan nilai threshold diuji pada 8 dataset yang diklasifikasikan menggunakan algoritma logistic regression. Dataset yang digunakan memiliki lebih dari 50 feature dengan kategori 6 dataset multivariate, 1 dataset sequential, dan 1 dataset univariate. Proses pengujian dilakukan dengan menghitung nilai information gain untuk setiap fitur di setiap dataset, kemudian menentukan nilai threshold berdasarkan nilai median. Uji model dilakukan menggunakan k-fold cross validation dengan nilai k=10. Hasil dataset yang sudah melalui proses feature selection diuji menggunakan model klasifikasi logistic regression, decision tree, random forest, dan naive bayes, dengan tujuan membandingkan kinerja logistic regression dengan algoritma lain. Pengujian algoritma logistic regression pada 8 dataset menunjukkan bahwa nilai accuracy yang diperoleh untuk semua dataset adalah lebih dari 76%. Berdasarkan hasil pengujian, algoritma logistic regression menunjukkan performa unggul dalam klasifikasi menggunakan dataset hasil feature selection, dengan accuracy yang lebih tinggi dibandingkan algoritma lainnya. Logistic regression unggul pada 5 dari 8 uji dataset. Sementara itu, decision tree dan naive bayes tidak berhasil unggul pada satu pun dataset, sedangkan random forest berhasil unggul pada 3 dataset.

Item Type: Thesis (Bachelor Thesis)
Keywords: Feature selection, Information gain, Logistic regression, Median, Threshold
Subjects: ?? T58.5-58.64 ??
Divisions: Faculty of Engineering & Informatics > Informatics
SWORD Depositor: Administrator UMN Library
Depositing User: Administrator UMN Library
Date Deposited: 09 Nov 2024 11:23
Last Modified: 09 Nov 2024 11:23
URI: https://kc.umn.ac.id/id/eprint/33797

Actions (login required)

View Item View Item