Prawira Tanoto, Nicholas (2026) Implementasi Vision Language Model, Embedding, dan Small Language Model untuk Pemahaman Gambar Edukatif di Desa Wisata Tigaraksa. Pro-Step Report, Universitas Multimedia Nusantara.
|
PDF
HALAMAN_AWAL.pdf Download (1MB) |
|
|
PDF
BAB_I.pdf Download (451kB) |
|
|
PDF
BAB_II.pdf Download (2MB) |
|
|
PDF
BAB_III.pdf Download (994kB) |
|
|
PDF
BAB_IV.pdf Restricted to Registered users only Download (5MB) |
|
|
PDF
BAB_V.pdf Download (314kB) |
|
|
PDF
DAFTAR_PUSTAKA.pdf Download (448kB) |
|
|
PDF
LAMPIRAN.pdf Restricted to Registered users only Download (3MB) |
|
|
PDF
LEMBAR_PENGESAHAN.pdf Download (52kB) |
Abstract
Penelitian ini berfokus pada pengembangan sistem chatbot multimodal berbasis Vision AI, Embedding, dan Small Language Model (SLM) untuk mendukung pemahaman gambar edukatif di Desa Wisata Tigaraksa. Pemilihan topik ini didasarkan pada kebutuhan guru dan siswa terhadap media pembelajaran visual yang tidak hanya menarik tetapi juga mampu dijelaskan melalui teknologi AI. Tantangan utama selama proses penelitian meliputi akurasi metadata visual yang belum stabil, keterbatasan model vision dalam memahami gambar T2I secara mendalam dan risiko halusinasi ketika model bahasa menghasilkan penjelasan tanpa konteks yang kuat. Untuk mengatasi kendala tersebut, diterapkan pipeline Vision Embedding Retrieval-Augmented Generation (RAG) SLM. BLIP digunakan untuk menghasilkan caption dan deskripsi visual, OCR untuk mengekstraksi teks dalam gambar, serta Sentence Transformer untuk embedding yang disimpan dalam Supabase Vector. Seluruh metadata ini menjadi dasar retrieval sebelum diproses oleh SLM GPT-OSS 20B melalui Groq API sehingga respons yang dihasilkan tetap faktual, aman dan sesuai konteks pembelajaran. Melalui pendekatan ini, penelitian berhasil menghasilkan prototipe chatbot edukatif yang mampu membantu guru dan siswa memahami gambar dengan lebih baik, sekaligus memberikan kontribusi dalam pengembangan media pembelajaran berbasis AI di lingkungan desa.
| Item Type: | Technical Report (Pro-Step Report) |
|---|---|
| Creators: | Prawira Tanoto, Nicholas (00000068231) |
| Contributors: | Faza, Ahmad (0312019501) |
| Keywords: | Vision AI, Embedding, RAG, Small Language Model, Chatbot Multimodal. |
| Subjects: | 000 Computer Science, Information and General Works > 000 Computer Science, Knowledge and Systems > 004 Computer Science, Data Processing, Hardware > 004.2 Systems Analysis and Design, Information Architecture, Performance Evaluation |
| Divisions: | Faculty of Engineering & Informatics > Information System |
| Date Deposited: | 09 Feb 2026 12:02 |
| URI: | https://kc.umn.ac.id/id/eprint/44618 |
Actions (login required)
![]() |
View Item |
