回到頂部
Mason AI Lab tech article hero for Gemini API File Search 支援 multimodal RAG:圖片、文字、PDF 可以一起檢索了

Gemini API File Search 支援 multimodal RAG:圖片、文字、PDF 可以一起檢索了

Gemini API File Search 在 2026 年 5 月加入 multimodal retrieval、metadata filtering 與 page-level citations。整理它適合哪些 RAG 場景,以及和傳統向量資料庫的差異。

RAG 過去常被簡化成「把文字切 chunk、丟進向量資料庫、問問題時取回相關段落」。

但現實文件不是只有純文字。企業文件常常混著 PDF、表格、截圖、流程圖、產品照片、設計稿、掃描頁面。若檢索系統只懂文字,很多真正有用的資訊會被漏掉。

Google 在 5 月 5 日更新 Gemini API File Search,加入 multimodal retrieval、custom metadata filtering 與 page-level citations。這讓 File Search 從一般文件檢索工具,往 multimodal RAG 基礎設施靠近。

這次更新的重點

功能解決問題
Multimodal retrieval圖片與文字能一起被理解與檢索
Custom metadata filtering可用部門、產品、日期、權限等欄位過濾資料
Page-level citations回答可指回來源頁面,方便查證

對開發者來說,這不是多一個漂亮功能,而是 RAG 系統可以處理更接近真實世界的資料。

Multimodal RAG 和傳統 RAG 差在哪?

傳統 RAG 最擅長的是文字知識庫:

  • FAQ。
  • Markdown 文件。
  • 客服紀錄。
  • 技術文件。
  • 法規條文。

Multimodal RAG 則要處理:

  • PDF 中的表格。
  • 商品照片與規格文字。
  • UI 截圖。
  • 簡報圖表。
  • 掃描合約。
  • 工程圖與流程圖。

差別不只在「能不能上傳圖片」,而是 retrieval 本身是否能理解圖像訊號。

例如使用者問:「這份機器維修手冊裡,紅色警示燈連續閃三次代表什麼?」

若答案在一張圖旁邊的標註裡,純文字 chunk 可能抓不到。Multimodal File Search 有機會把圖像、頁面結構與文字一起納入檢索。

Page-level citations 為什麼重要?

RAG 最大的價值不是讓模型看起來更懂,而是讓使用者知道答案從哪裡來。

Page-level citation 可以讓回答指回 PDF 或文件的具體頁面。對以下場景很關鍵:

場景citation 價值
法務合約問答律師要回原文確認
醫療或保險文件需要精準頁面作為依據
產品手冊搜尋維修人員要看圖與步驟
企業 SOP稽核需要查來源
教育資料庫學生與老師可回到教材頁

沒有 citation 的 RAG,很容易變成「模型說得很像真的」。有 citation 才能進入可驗證工作。

Metadata filtering 要怎麼設計?

很多 RAG 專案不是死在模型,而是死在 metadata。

如果所有文件都只丟進同一個資料池,回答時就會混到錯誤版本、錯誤部門、錯誤地區、錯誤權限。

建議至少設計這些欄位:

欄位用途
department區分法務、客服、工程、業務
product避免 A 產品答案套到 B 產品
region法規、價格、保固常常因地區不同
language中文、英文、日文文件分流
version避免舊版 SOP 影響新版回答
access_level控制機密文件可見範圍
published_at過濾過期文件

Metadata filtering 的價值,是讓模型先少看錯資料,再開始推理。

適合做哪些應用?

產品手冊搜尋

硬體、家電、工業設備、醫療器材的手冊常含圖片、表格與警示圖示。Multimodal File Search 可以讓使用者用自然語言問問題,再回到相關頁面查看圖示與步驟。

設計與品牌資料庫

品牌規範、UI guideline、設計稿、簡報模板都不是純文字。若檢索能看圖,設計團隊可以問:「哪一頁定義了按鈕 hover 狀態?」或「這個 icon 風格在哪個規範裡?」

合約與法規文件

合約通常有表格、附件、掃描頁與修訂紀錄。Page-level citations 對法務團隊很重要,因為模型回答不能取代原文查核。

教育內容與研究資料

教材、論文、講義、圖表混在一起時,multimodal retrieval 能讓學生用更自然的方式查找概念。

企業內部知識庫

IT、HR、財務、客服 SOP 常常以 PDF 或簡報存在。若 metadata 設計得好,File Search 可以成為內部 Copilot 的資料層。

還需要向量資料庫嗎?

需要,但不是每個專案都需要一開始就上向量資料庫。

需求File Search 較適合Vector database 較適合
快速做 Gemini app 原型不一定
圖文混合 PDF 問答需額外管線
跨模型 embeddings
自訂 ranking pipeline有限
大量權限分層視情況
混合 BM25、向量、reranker有限
完全掌控資料儲存

如果團隊已經深度使用 Gemini API,且資料型態主要是文件與 PDF,File Search 可以降低第一版 RAG 的工程成本。

如果你要做大型 SaaS 搜尋、複雜 tenant 權限、跨模型策略、hybrid search 或自訂 reranking,傳統向量資料庫仍然比較彈性。

導入時最容易忽略的問題

1.PDF 頁面不等於語意單位

Page-level citation 很有用,但一頁可能包含多個主題。若文件排版複雜,仍然需要測試 retrieval 是否抓到正確段落。

2.圖片文字要驗證

圖中的小字、表格、標註可能會被誤讀。高風險場景要加入人工確認或 OCR 對照。

3.Metadata 要在上傳前整理好

不要等資料進去後才想權限與版本。RAG 最怕舊文件和新文件混在一起,最後模型回答過期政策。

4.Citation 不等於答案正確

模型可能引用對的頁面,卻解讀錯。citation 是查證入口,不是保證書。

5.測試題要包含反例

不要只測「文件裡有答案」的題,也要測:

  • 文件裡沒有答案時是否拒答。
  • 舊版文件是否被排除。
  • 權限不足時是否不回。
  • 圖片訊息是否被誤解。
  • 多文件衝突時是否提示不確定。

建議的最小可行架構

一個穩妥的第一版可以這樣做:

  1. 選一組明確資料,例如產品手冊或內部 SOP。
  2. 為每個文件補上 product、version、department、access_level。
  3. 使用 Gemini API File Search 建立檢索。
  4. 回答必須附 citation。
  5. 若 citation 信心不足,要求使用者回原文。
  6. 記錄查詢、引用頁面、使用者回饋。
  7. 用錯誤案例反推 metadata 與文件整理方式。

不要一開始就把全公司文件倒進去。知識庫越髒,RAG 看起來越聰明,錯起來也越難抓。

結論

Gemini API File Search 的 multimodal 更新,讓 RAG 更接近企業文件的真實樣貌。

它的價值不只是能看圖片,而是把圖文混合文件、metadata filtering、page-level citations 放進同一個開發者體驗裡。對想快速做文件問答、產品手冊搜尋、內部知識助理的團隊,這會比自建一整套 multimodal pipeline 更快。

但 RAG 的基本功沒有消失:資料版本、權限、citation 查核、測試反例,仍然決定系統能不能進 production。

參考資料

№ · further reading

延伸閱讀