Evaluasi Optimalisasi Metode Ekstraksi Teks Berbasiskan Teknologi OCR NER dan LLM

Marcelino Tandiono, Steven (2025) Evaluasi Optimalisasi Metode Ekstraksi Teks Berbasiskan Teknologi OCR NER dan LLM. MBKM Report, Universitas Multimedia Nusantara.

[img] PDF
HALAMAN_AWAL.pdf

Download (247kB)
[img] PDF
BAB_I.pdf

Download (145kB)
[img] PDF
BAB_II.pdf

Download (257kB)
[img] PDF
BAB_III.pdf

Download (2MB)
[img] PDF
BAB_IV.pdf
Restricted to Registered users only

Download (58kB)
[img] PDF
DAFTAR_PUSTAKA.pdf

Download (110kB)
[img] PDF
LAMPIRAN.pdf
Restricted to Registered users only

Download (3MB)
[img] PDF
LEMBAR_PENGESAHAN.pdf

Download (53kB)

Abstract

Kemajuan teknologi dalam industri mendorong adopsi otomatisasi dalam pengolahan data, termasuk ekstraksi informasi dari dokumen bisnis seperti faktur dan receipt. Mekari, sebagai perusahaan teknologi yang berfokus pada solusi bisnis digital, mengoptimalkan proses ekstraksi data dengan memanfaatkan teknologi terkini. Penelitian ini mengeksplorasi penerapan Optical Character Recognition (OCR), Named Entity Recognition (NER), dan Large Language Model (LLM) untuk mengatasi tantangan perbedaan tata letak dokumen serta menentukan pendekatan optimal dalam meningkatkan kualitas ekstraksi data. Proses penelitian mencakup perbandingan dan evaluasi berbagai metode ekstraksi teks dari dokumen atau gambar. Data diperoleh melalui Document AI dan diolah dalam format CORD untuk mendukung benchmarking. Eksperimen menggunakan model OCR seperti DocTR dan Surya, ekstraktor tabel seperti LlamaParse, serta validator berbasis GPT. Evaluasi dilakukan menggunakan metrik f1-Score, Levenshtein Similarity, dan Cosine Similarity untuk mengukur performa model. Hasil evaluasi menunjukkan bahwa GPT Vision (gpt-4o) memiliki performa terbaik dengan fleksibilitas tinggi dalam ekstraksi data tanpa skema baku. Sebaliknya, metode OCR dan NER memiliki keterbatasan dalam menangani variasi tata letak. Kesimpulannya, GPT Vision menawarkan solusi adaptif untuk pengolahan dokumen kompleks, membuka peluang pengembangan ekstraktor data yang lebih efektif dan sesuai kebutuhan pengguna.

Item Type: Technical Report (MBKM Report)
Creators: Marcelino Tandiono, Steven (00000059949)
Contributors: Fernandi Wijaya, Santo (0310016902)
Keywords: Ekstraksi Teks, LLM, NER, OCR, Pemprosesan Dokumen
Subjects: 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 004 Computer Science, Data Processing, Hardware > 004.2 Systems Analysis and Design, Information Architecture, Performance Evaluation
Divisions: Faculty of Engineering & Informatics > Information System
Date Deposited: 02 Feb 2025 13:13
URI: https://kc.umn.ac.id/id/eprint/36386

Actions (login required)

View Item View Item