20-3 · Bab 20 · 4 menit baca

Jawaban yang bisa ditelusuri sumbernya dan Arsitektur Knowledge: Metadata, Pemecahan dokumen, dan Penelusuran Sumber

20.3 Jawaban yang bisa ditelusuri sumbernya dan Arsitektur Knowledge: Metadata, Pemecahan dokumen, dan Penelusuran Sumber

Seorang staf compliance menerima pertanyaan dari auditor: “Apakah perusahaan pernah menangani permintaan dengan kondisi force majeure akibat pandemi?” Staf itu membuka basis pengetahuan AI yang baru diintegrasikan perusahaan. Ia mengetik pertanyaan, dan AI menjawab dengan yakin: “Ya, terdapat tiga kasus force majeure terkait pandemi yang diproses pada tahun 2020. Semua disetujui dengan pengurangan manfaat 15%.” Jawabannya rapi, lengkap, dan meyakinkan.

Tapi auditor bertanya: “Dari mana informasi ini? Tunjukkan dokumen aslinya.”

Staf compliance tidak bisa menjawab. AI tidak menyertakan sumber. Ia harus mencari sendiri dokumen yang dimaksud. Butuh dua jam sebelum akhirnya menemukan bahwa dua dari tiga kasus ternyata bukan force majeure, melainkan kebijakan khusus manajemen saat pandemi. AI salah mengklasifikasi.

Situasi ini menunjukkan masalah mendasar saat perusahaan mulai memakai AI untuk menjawab pertanyaan berbasis dokumen: jawaban yang terlihat benar belum tentu bisa dipertanggungjawabkan. Tanpa kemampuan melacak sumber, AI hanya memberikan ilusi pengetahuan.

Di sinilah jawaban yang bisa ditelusuri sumbernya menjadi penting. Jawaban seperti ini bukan sekadar teknik mengambil potongan dokumen lalu memberikannya ke AI untuk dijawab. Jawaban seperti ini membutuhkan arsitektur pengetahuan yang memastikan setiap jawaban memiliki jejak yang bisa ditelusuri. Dan untuk membangun jejak itu, ada tiga fondasi yang harus dipahami: metadata, pemecahan dokumen, dan penelusuran sumber.

Berikut diagram arsitektur yang menunjukkan bagaimana metadata, pemecahan dokumen, dan penelusuran sumber bekerja bersama untuk menghasilkan jawaban yang bisa diverifikasi.

flowchart TD A[Dokumen Masuk] --> B[Metadata: jenis, tanggal, departemen, status] B --> C[Pemecahan Dokumen: chunking berdasarkan struktur] C --> D[Penyimpanan: vector store + metadata] E[Pertanyaan] --> F[Retrieval: cari potongan relevan] D --> F F --> G[AI: hasilkan jawaban dengan sumber] G --> H[Jawaban + ID potongan + metadata] H --> I[Penelusuran Sumber: dokumen asli, halaman, paragraf]

Metadata adalah data tentang data. Setiap dokumen yang masuk ke jalur pemrosesan AI perlu diberi label: jenis dokumen, tanggal terbit, departemen penerbit, status persetujuan, versi, dan tingkat kerahasiaan. Metadata ini yang nantinya memungkinkan AI tidak hanya menjawab konten, tetapi juga memberikan konteks. Ketika staf compliance bertanya tentang force majeure, AI seharusnya bisa menjawab: “Informasi ini berasal dari Surat Keputusan Direksi No. 12/2020, diterbitkan 15 Maret 2020 oleh Departemen Operasi.” Metadata membuat jawaban tidak lagi sekadar teks, tetapi informasi yang terverifikasi.

Berikut contoh struktur metadata dalam JSON yang menyimpan sebuah potongan dokumen beserta jejak sumbernya:

{
  "chunk_id": "SK-12-2020-chunk-07",
  "source_file": "SK-12-2020.pdf",
  "page_number": 7,
  "chunk_index": 3,
  "content": "... force majeure akibat pandemi ...",
  "metadata": {
    "document_type": "Surat Keputusan Direksi",
    "department": "Operasi",
    "publish_date": "2020-03-15",
    "status": "disetujui",
    "version": 2,
    "freshness": "2024-01-10",
    "access_level": "internal"
  }
}

Pemecahan dokumen adalah cara memotong dokumen menjadi bagian-bagian yang bisa diproses. Dokumen panjang tidak bisa dimasukkan utuh ke dalam konteks AI karena keterbatasan token. Tapi memotong secara sembarangan juga berbahaya. Jika potongan terlalu pendek, konteks hilang. Jika terlalu panjang, informasi spesifik sulit ditemukan. Pemecahan dokumen yang baik mempertimbangkan struktur dokumen: bab, subbab, paragraf, atau bahkan tabel. Setiap potongan harus berdiri sendiri cukup informatif, tetapi tetap mempertahankan hubungan dengan dokumen asalnya.

Penelusuran sumber adalah kemampuan melacak setiap jawaban kembali ke dokumen sumber. Ini bukan sekadar menyertakan nomor halaman. Jejak sumber berarti setiap potongan knowledge memiliki ID unik yang merujuk ke dokumen asli, lokasi dalam dokumen, dan metadata terkait. Ketika AI menjawab, sistem harus bisa menunjukkan: “Potongan knowledge ini berasal dari halaman 7, paragraf 3, dokumen SK-12/2020.” Tanpa jejak sumber, jawaban AI hanya bisa dipercaya atau tidak — tidak ada cara untuk memverifikasi.

Selain tiga fondasi ini, perusahaan juga perlu mempertimbangkan access control — siapa yang boleh melihat dokumen apa; freshness — apakah dokumen masih berlaku atau sudah diganti; versioning — bagaimana menangani dokumen yang direvisi; dan tingkat kepercayaan sumber — seberapa tinggi tingkat kepercayaan terhadap suatu sumber. Dokumen resmi direksi tentu memiliki keyakinan lebih tinggi daripada memo internal yang belum di-approve.

Jawaban yang bisa ditelusuri sumbernya bukan solusi yang bisa dipasang dalam semalam. Ia membutuhkan arsitektur knowledge yang dirancang sejak awal: bagaimana dokumen dikumpulkan, bagaimana metadata ditambahkan, bagaimana pemecahan dokumen dilakukan, dan bagaimana jejak sumber dijaga. Tanpa arsitektur ini, AI hanya akan menjadi mesin penghasil jawaban yang tidak jelas asalnya — dan dalam konteks perusahaan, itu lebih berbahaya daripada tidak punya AI sama sekali.

Setelah arsitektur knowledge terbangun, langkah berikutnya adalah menghubungkannya dengan sistem yang sudah berjalan. Bagaimana jawaban yang bisa ditelusuri sumbernya ini bisa membantu agen support menjawab tiket? Bagaimana ia bisa membantu sales mencari data pelanggan? Atau membantu finance memproses invoice? Jawabannya mulai dibuka di subbab selanjutnya: integrasi AI dengan sistem perusahaan seperti ticketing, CRM, ERP, dan sistem pengelolaan dokumen.