Implementasi Vision Language Model, Embedding, dan Small Language Model untuk Pemahaman Gambar Edukatif di Desa Wisata Tigaraksa

Prawira Tanoto, Nicholas (2026) Implementasi Vision Language Model, Embedding, dan Small Language Model untuk Pemahaman Gambar Edukatif di Desa Wisata Tigaraksa. Pro-Step Report, Universitas Multimedia Nusantara.

	PDF HALAMAN_AWAL.pdf Restricted to Registered users only Download (1MB)
	PDF BAB_I.pdf Download (451kB)
	PDF BAB_II.pdf Download (2MB)
	PDF BAB_III.pdf Restricted to Registered users only Download (994kB)
	PDF BAB_IV.pdf Restricted to Registered users only Download (5MB)
	PDF BAB_V.pdf Restricted to Registered users only Download (314kB)
	PDF DAFTAR_PUSTAKA.pdf Restricted to Registered users only Download (448kB)
	PDF LAMPIRAN.pdf Restricted to Registered users only Download (3MB)
	PDF LEMBAR_PENGESAHAN.pdf Restricted to Registered users only Download (52kB)

Abstract

Penelitian ini berfokus pada pengembangan sistem chatbot multimodal berbasis Vision AI, Embedding, dan Small Language Model (SLM) untuk mendukung pemahaman gambar edukatif di Desa Wisata Tigaraksa. Pemilihan topik ini didasarkan pada kebutuhan guru dan siswa terhadap media pembelajaran visual yang tidak hanya menarik tetapi juga mampu dijelaskan melalui teknologi AI. Tantangan utama selama proses penelitian meliputi akurasi metadata visual yang belum stabil, keterbatasan model vision dalam memahami gambar T2I secara mendalam dan risiko halusinasi ketika model bahasa menghasilkan penjelasan tanpa konteks yang kuat. Untuk mengatasi kendala tersebut, diterapkan pipeline Vision Embedding Retrieval-Augmented Generation (RAG) SLM. BLIP digunakan untuk menghasilkan caption dan deskripsi visual, OCR untuk mengekstraksi teks dalam gambar, serta Sentence Transformer untuk embedding yang disimpan dalam Supabase Vector. Seluruh metadata ini menjadi dasar retrieval sebelum diproses oleh SLM GPT-OSS 20B melalui Groq API sehingga respons yang dihasilkan tetap faktual, aman dan sesuai konteks pembelajaran. Melalui pendekatan ini, penelitian berhasil menghasilkan prototipe chatbot edukatif yang mampu membantu guru dan siswa memahami gambar dengan lebih baik, sekaligus memberikan kontribusi dalam pengembangan media pembelajaran berbasis AI di lingkungan desa.

Item Type:	Technical Report (Pro-Step Report)
Creators:	Prawira Tanoto, Nicholas (00000068231)
Contributors:	Faza, Ahmad (0312019501)
Keywords:	Vision AI, Embedding, RAG, Small Language Model, Chatbot Multimodal.
Subjects:	000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 004 Computer Science, Data Processing, Hardware > 004.2 Systems Analysis and Design, Information Architecture, Performance Evaluation
Divisions:	Faculty of Engineering & Informatics > Information System
Date Deposited:	09 Feb 2026 12:02
URI:	https://kc.umn.ac.id/id/eprint/44618

Actions (login required)

View Item

This repository is indexed on

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.