回到頂部
深色 AI 實驗室中的 OCR 掃描核心把文件碎片轉成資料節點,象徵 PP-OCRv6 作為文件自動化與 RAG 前處理的文字擷取層

PP-OCRv6 怎麼選?50 種語言 OCR 模型的導入判斷

PP-OCRv6 提供 tiny、small、medium 三種 OCR 模型。用文件風險、硬體限制、繁中樣本與 7 天驗收流程,判斷是否適合放進 RAG 或文件自動化。

內容查核: 來源查核:

把圖片、掃描 PDF 或截圖送進 AI 系統時,最早拖垮流程的常是 OCR。金額少一個零、統編錯一碼、欄位被切成兩段,後面的搜尋、RAG、摘要與自動分類都會跟著偏掉。

PP-OCRv6 適合放進這個位置:先把圖像穩定轉成文字與 JSON,再交給搜尋、資料庫、檢索增強生成(RAG) 或多模態模型處理。PaddleOCR 在 2026-06-22 於 Hugging Face 發布這個模型系列,提供 1.5M、7.7M、34.5M 三種參數規模,並支援 Paddle Inference、Transformers 與 ONNX Runtime 等推論路徑。

如果你只是偶爾把一張照片轉成文字,手機內建 OCR 或現成 App 可能更省事。PP-OCRv6 比較適合正在做產品、資料管線、內部知識庫、客服附件、表單自動化或文件搜尋的人:你需要知道 OCR 錯在哪裡、能不能離線跑、資料會不會外流,以及錯誤要不要人工複核。

先決定:這是不是你該測的 OCR 層?

可以先用三個問題篩選。

第一,你要處理的是「大量或反覆出現」的文件嗎?例如發票、合約掃描、商品標籤、儀表板截圖、工業標籤、多語表單、客服附件。若答案是 yes,PP-OCRv6 比一次性截圖工具更值得測。

第二,OCR 結果後面會接自動化嗎?如果文字會進入搜尋索引、欄位抽取、RAG、客服回覆或內部審核流程,就不能只看肉眼覺得「大致讀對」。你要測的是欄位級錯誤、低信心輸出和下游容錯。

第三,你需要掌控部署位置嗎?如果資料不能離開內網、桌面或邊緣裝置(edge device),tiny / small / medium 的尺寸差異才有意義。若所有文件都能丟雲端多模態 API,PP-OCRv6 仍可當前處理器,但不一定是第一個要導入的工具。

tiny、small、medium 的選法

官方列出三個模型層級。這些數字可以幫你排測試順序,但不要把官方分數直接換成上線承諾。

模型參數規模官方偵測 Hmean官方辨識準確率適合先測的情境
PP-OCRv6_tiny1.5M80.6%73.5%受限硬體、低延遲 demo、可容忍錯字的本機流程。
PP-OCRv6_small7.7M84.1%81.3%桌面、mobile、成本敏感、多語文件量較大的服務。
PP-OCRv6_medium34.5M86.2%83.2%伺服器端文件擷取、工業 OCR、準確率優先的多語流程。

我的建議是先用 medium 建品質基準。它不一定是最後的部署版本,但可以先告訴你:在比較好的模型尺寸下,你的資料還會錯在哪裡。等你知道錯誤型態,再往 small 或 tiny 降級,才不會一開始就把速度優化建立在錯誤文字上。

small 與 medium 官方標示支援 50 種語言,包含繁中、簡中、英文、日文與 46 種拉丁字母語言。這對台灣常見的中英數混排、日文型號、產品標籤和跨國文件有吸引力,但仍要用自己的樣本驗證。語言名單存在,不代表低解析掃描、直排、印章附近文字、表格線、手寫或特殊符號都會穩。

真正該測的是錯誤成本

OCR 評估最容易看錯的地方,是只盯著整體準確率。真實流程裡,一個錯字的成本不一樣。

公司統編、日期、金額、小數點、英文型號、繁中姓名、地址、SKU、醫療代碼、合約條款,錯一個字可能就會讓下游流程做錯決策。相反地,若只是建立全文搜尋索引或讓客服先看摘要,少量錯字可能可以接受。

所以測 PP-OCRv6 時,請把結果拆成兩層:

  • 頁面層:整頁是否讀得出主要文字、表格與段落。
  • 欄位層:關鍵欄位是否能被穩定抽出,錯了會不會影響付款、審核、搜尋或自動回覆。

如果你要把 OCR 接到 LLM 或 RAG,欄位層更重要。LLM 可能會把錯字包裝成流暢答案,讓錯誤變得更難發現。比較穩的做法,是保留 OCR JSON、座標、信心分數與原圖連結,讓後續系統可以回查;單純把純文字丟進模型,除錯成本會高很多。

怎麼接進現有 AI 系統?

PP-OCRv6 的導入不需要一開始就做成完整平台。第一輪可以很小:選 50 到 200 份真實文件,先跑 medium,保留輸出圖片和 JSON,再看錯誤集中在哪裡。

官方範例從安裝 PaddleOCR 開始:

pip install paddleocr
from paddleocr import PaddleOCR

ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)

result = ocr.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

正式評估時,推論後端也要一起測。Paddle 生態可以先看 Paddle Inference;如果團隊習慣 Hugging Face / PyTorch,可以測 Transformers;若你需要跨平台或邊緣部署,可以測 ONNX Runtime。不要只在 notebook 跑通一次就結案,因為正式環境會碰到冷啟動、模型下載、CPU/GPU provider、容器版本和記憶體限制。

一個比較穩的第一版流程是:

  1. 圖片或 PDF 進入受控儲存區。
  2. PP-OCRv6 輸出文字、座標、信心資訊與視覺化檢查圖。
  3. 規則層檢查欄位格式,例如日期、金額、統編、地址或 SKU。
  4. 低信心或高風險文件進人工複核。
  5. 通過的文字再送進搜尋、資料庫、RAG 或 LLM 摘要。

這樣做的好處,是你可以把「讀字錯誤」和「推理錯誤」分開除錯。若直接把圖片丟給多模態模型,輸出錯了以後常常很難判斷是模型沒看清楚、沒有理解版面,還是推理時編了答案。

7 天測試流程

PP-OCRv6 最適合先跑一週 bounded evaluation。這週只回答一句話:它在你的文件上能不能穩定進入正式流程。

  • 第 1 天:收樣本。準備 50 到 200 份真實圖片,包含高品質掃描、手機拍攝、低光源、歪斜、截圖、表格、多語混排與已知失敗案例。
  • 第 2 天:標準答案。不要只標整頁文字;日期、金額、姓名、型號、地址、SKU、章節標題等關鍵欄位要獨立標註。
  • 第 3 天:跑 medium baseline。保存 JSON、視覺化圖片、延遲、記憶體和錯誤樣本。
  • 第 4 天:比較 small / tiny。用同一批樣本看錯誤是否集中在小字、繁中、表格、低解析或特殊符號。
  • 第 5 天:測正式後端。選 Paddle Inference、Transformers 或 ONNX Runtime 中最接近上線環境的路徑測一次。
  • 第 6 天:接下游流程。把 OCR JSON 送進搜尋索引、欄位抽取或 LLM 摘要,觀察下游對錯字與缺欄位的容忍度。
  • 第 7 天:定人工閘門。列出哪些文件能自動通過,哪些要低信心重跑,哪些一定要人工複核。

如果你已經有模型評估流程,可以把這套測法接到 LLM 評估指南 的思路:公開 benchmark 只回答模型可能多強,你的內部樣本才回答流程能不能上線。

上線前不要漏掉資安與維護

OCR 看起來只是影像轉文字,但它常處理個資、財務資料、合約、醫療文件與內部截圖。部署前至少要確認四件事。

資料流向:圖片會不會離開內網或本機?Hugging Face demo 適合快速試用,不適合上傳敏感文件。

版本釘選:記錄 PaddleOCR、模型資產、ONNX Runtime、Transformers、容器與硬體設定。OCR 模型更新後,欄位錯誤率可能會變,不該無聲替換。

錯誤回退:空白輸出、低信心、語言混淆、欄位缺漏要有處理方式。可以重跑、換模型、轉人工複核或拒絕自動化,不要讓錯誤直接進入下游決策。

授權與供應鏈:PaddleOCR GitHub repository 標示 Apache 2.0 授權;正式採用前,仍要讓工程與法務確認模型資產、依賴套件與容器來源。

這些檢查和 AI 安全工程 有關。OCR 模型不會替你處理權限、保留期限、稽核紀錄或敏感資料遮罩;它只是把圖像變成更容易被搜尋、複製與送進下游模型的文字。

常見問題

PP-OCRv6 可以取代 ChatGPT 或 Gemini 看圖嗎? 不能直接取代。PP-OCRv6 的工作是找出文字位置並辨識文字;ChatGPT、Gemini、Claude 這類多模態模型更適合做開放式視覺理解、圖表解釋或推理。實務上可以先用 PP-OCRv6 擷取文字,再把乾淨文本交給多模態模型或 LLM。

small 和 medium 都支援 50 種語言,為什麼還要測 medium? 語言支援不等於準確率相同。官方表格顯示 medium 的偵測 Hmean 與辨識準確率都高於 small。若文件錯字成本高,先用 medium 建 baseline;若成本、延遲或硬體限制更重要,再測 small 是否足夠。

繁體中文可以用嗎? 官方文章列出 small 與 medium 支援 Traditional Chinese。正式導入時仍要用自己的繁中樣本測試,尤其是低解析掃描、直排文字、表格、手寫、印章附近文字與中英數混排。

PP-OCRv6 適合 RAG 嗎? 適合放在 RAG 前處理層,把圖片或掃描文件轉成文字與 JSON,方便切塊、索引與引用。但如果原始文件有表格、頁碼、章節或版面結構,要保留位置資訊或搭配文件解析工具,避免把版面脈絡弄丟。

參考來源

下一步

如果你只有零星截圖需求,先用現成 OCR 工具,不必為 PP-OCRv6 建流程。若你正在把發票、合約、客服附件、產品標籤或掃描文件送進搜尋、RAG 或自動化系統,先拿 50 到 200 份真實樣本測 medium,再用 small / tiny 驗證成本與延遲。

最後看三個數字:關鍵欄位錯誤率、正式環境延遲,以及需要人工複核的比例。這三個數字過關,PP-OCRv6 才值得進入正式流程。

№ · further reading

延伸閱讀