Evaluasi Optimalisasi Metode Ekstraksi Teks Berbasiskan Teknologi OCR NER dan LLM

Marcelino Tandiono, Steven (2025) Evaluasi Optimalisasi Metode Ekstraksi Teks Berbasiskan Teknologi OCR NER dan LLM. MBKM thesis, Universitas Multimedia Nusantara.

[img] PDF
HALAMAN_AWAL.pdf

Download (247kB)
[img] PDF
BAB_I.pdf

Download (145kB)
[img] PDF
BAB_II.pdf

Download (257kB)
[img] PDF
BAB_III.pdf

Download (2MB)
[img] PDF
BAB_IV.pdf
Restricted to Registered users only

Download (58kB)
[img] PDF
DAFTAR_PUSTAKA.pdf

Download (110kB)
[img] PDF
LAMPIRAN.pdf
Restricted to Registered users only

Download (3MB)
[img] PDF
LEMBAR_PENGESAHAN.pdf

Download (53kB)

Abstract

Kemajuan teknologi dalam industri mendorong adopsi otomatisasi dalam pengolahan data, termasuk ekstraksi informasi dari dokumen bisnis seperti faktur dan receipt. Mekari, sebagai perusahaan teknologi yang berfokus pada solusi bisnis digital, mengoptimalkan proses ekstraksi data dengan memanfaatkan teknologi terkini. Penelitian ini mengeksplorasi penerapan Optical Character Recognition (OCR), Named Entity Recognition (NER), dan Large Language Model (LLM) untuk mengatasi tantangan perbedaan tata letak dokumen serta menentukan pendekatan optimal dalam meningkatkan kualitas ekstraksi data. Proses penelitian mencakup perbandingan dan evaluasi berbagai metode ekstraksi teks dari dokumen atau gambar. Data diperoleh melalui Document AI dan diolah dalam format CORD untuk mendukung benchmarking. Eksperimen menggunakan model OCR seperti DocTR dan Surya, ekstraktor tabel seperti LlamaParse, serta validator berbasis GPT. Evaluasi dilakukan menggunakan metrik f1-Score, Levenshtein Similarity, dan Cosine Similarity untuk mengukur performa model. Hasil evaluasi menunjukkan bahwa GPT Vision (gpt-4o) memiliki performa terbaik dengan fleksibilitas tinggi dalam ekstraksi data tanpa skema baku. Sebaliknya, metode OCR dan NER memiliki keterbatasan dalam menangani variasi tata letak. Kesimpulannya, GPT Vision menawarkan solusi adaptif untuk pengolahan dokumen kompleks, membuka peluang pengembangan ekstraktor data yang lebih efektif dan sesuai kebutuhan pengguna.

Item Type: Thesis (MBKM)
Keywords: Ekstraksi Teks, LLM, NER, OCR, Pemprosesan Dokumen
Subjects: ?? T70 ??
Divisions: Faculty of Engineering & Informatics > Information System
SWORD Depositor: Administrator UMN Library
Depositing User: Administrator UMN Library
Date Deposited: 02 Feb 2025 13:13
Last Modified: 02 Feb 2025 13:13
URI: https://kc.umn.ac.id/id/eprint/36386

Actions (login required)

View Item View Item