Marcelino Tandiono, Steven (2025) Evaluasi Optimalisasi Metode Ekstraksi Teks Berbasiskan Teknologi OCR NER dan LLM. MBKM thesis, Universitas Multimedia Nusantara.
![]() |
PDF
HALAMAN_AWAL.pdf Download (247kB) |
![]() |
PDF
BAB_I.pdf Download (145kB) |
![]() |
PDF
BAB_II.pdf Download (257kB) |
![]() |
PDF
BAB_III.pdf Download (2MB) |
![]() |
PDF
BAB_IV.pdf Restricted to Registered users only Download (58kB) |
![]() |
PDF
DAFTAR_PUSTAKA.pdf Download (110kB) |
![]() |
PDF
LAMPIRAN.pdf Restricted to Registered users only Download (3MB) |
![]() |
PDF
LEMBAR_PENGESAHAN.pdf Download (53kB) |
Abstract
Kemajuan teknologi dalam industri mendorong adopsi otomatisasi dalam pengolahan data, termasuk ekstraksi informasi dari dokumen bisnis seperti faktur dan receipt. Mekari, sebagai perusahaan teknologi yang berfokus pada solusi bisnis digital, mengoptimalkan proses ekstraksi data dengan memanfaatkan teknologi terkini. Penelitian ini mengeksplorasi penerapan Optical Character Recognition (OCR), Named Entity Recognition (NER), dan Large Language Model (LLM) untuk mengatasi tantangan perbedaan tata letak dokumen serta menentukan pendekatan optimal dalam meningkatkan kualitas ekstraksi data. Proses penelitian mencakup perbandingan dan evaluasi berbagai metode ekstraksi teks dari dokumen atau gambar. Data diperoleh melalui Document AI dan diolah dalam format CORD untuk mendukung benchmarking. Eksperimen menggunakan model OCR seperti DocTR dan Surya, ekstraktor tabel seperti LlamaParse, serta validator berbasis GPT. Evaluasi dilakukan menggunakan metrik f1-Score, Levenshtein Similarity, dan Cosine Similarity untuk mengukur performa model. Hasil evaluasi menunjukkan bahwa GPT Vision (gpt-4o) memiliki performa terbaik dengan fleksibilitas tinggi dalam ekstraksi data tanpa skema baku. Sebaliknya, metode OCR dan NER memiliki keterbatasan dalam menangani variasi tata letak. Kesimpulannya, GPT Vision menawarkan solusi adaptif untuk pengolahan dokumen kompleks, membuka peluang pengembangan ekstraktor data yang lebih efektif dan sesuai kebutuhan pengguna.
Item Type: | Thesis (MBKM) |
---|---|
Keywords: | Ekstraksi Teks, LLM, NER, OCR, Pemprosesan Dokumen |
Subjects: | ?? T70 ?? |
Divisions: | Faculty of Engineering & Informatics > Information System |
SWORD Depositor: | Administrator UMN Library |
Depositing User: | Administrator UMN Library |
Date Deposited: | 02 Feb 2025 13:13 |
Last Modified: | 02 Feb 2025 13:13 |
URI: | https://kc.umn.ac.id/id/eprint/36386 |
Actions (login required)
![]() |
View Item |