把圖片、掃描 PDF 或截圖送進 AI 系統時,最早拖垮流程的常是 OCR。金額少一個零、統編錯一碼、欄位被切成兩段,後面的搜尋、RAG、摘要與自動分類都會跟著偏掉。
PP-OCRv6 適合放進這個位置:先把圖像穩定轉成文字與 JSON,再交給搜尋、資料庫、檢索增強生成(RAG) 或多模態模型處理。PaddleOCR 在 2026-06-22 於 Hugging Face 發布這個模型系列,提供 1.5M、7.7M、34.5M 三種參數規模,並支援 Paddle Inference、Transformers 與 ONNX Runtime 等推論路徑。
如果你只是偶爾把一張照片轉成文字,手機內建 OCR 或現成 App 可能更省事。PP-OCRv6 比較適合正在做產品、資料管線、內部知識庫、客服附件、表單自動化或文件搜尋的人:你需要知道 OCR 錯在哪裡、能不能離線跑、資料會不會外流,以及錯誤要不要人工複核。
先決定:這是不是你該測的 OCR 層?
可以先用三個問題篩選。
第一,你要處理的是「大量或反覆出現」的文件嗎?例如發票、合約掃描、商品標籤、儀表板截圖、工業標籤、多語表單、客服附件。若答案是 yes,PP-OCRv6 比一次性截圖工具更值得測。
第二,OCR 結果後面會接自動化嗎?如果文字會進入搜尋索引、欄位抽取、RAG、客服回覆或內部審核流程,就不能只看肉眼覺得「大致讀對」。你要測的是欄位級錯誤、低信心輸出和下游容錯。
第三,你需要掌控部署位置嗎?如果資料不能離開內網、桌面或邊緣裝置(edge device),tiny / small / medium 的尺寸差異才有意義。若所有文件都能丟雲端多模態 API,PP-OCRv6 仍可當前處理器,但不一定是第一個要導入的工具。
tiny、small、medium 的選法
官方列出三個模型層級。這些數字可以幫你排測試順序,但不要把官方分數直接換成上線承諾。
| 模型 | 參數規模 | 官方偵測 Hmean | 官方辨識準確率 | 適合先測的情境 |
|---|---|---|---|---|
| PP-OCRv6_tiny | 1.5M | 80.6% | 73.5% | 受限硬體、低延遲 demo、可容忍錯字的本機流程。 |
| PP-OCRv6_small | 7.7M | 84.1% | 81.3% | 桌面、mobile、成本敏感、多語文件量較大的服務。 |
| PP-OCRv6_medium | 34.5M | 86.2% | 83.2% | 伺服器端文件擷取、工業 OCR、準確率優先的多語流程。 |
我的建議是先用 medium 建品質基準。它不一定是最後的部署版本,但可以先告訴你:在比較好的模型尺寸下,你的資料還會錯在哪裡。等你知道錯誤型態,再往 small 或 tiny 降級,才不會一開始就把速度優化建立在錯誤文字上。
small 與 medium 官方標示支援 50 種語言,包含繁中、簡中、英文、日文與 46 種拉丁字母語言。這對台灣常見的中英數混排、日文型號、產品標籤和跨國文件有吸引力,但仍要用自己的樣本驗證。語言名單存在,不代表低解析掃描、直排、印章附近文字、表格線、手寫或特殊符號都會穩。
真正該測的是錯誤成本
OCR 評估最容易看錯的地方,是只盯著整體準確率。真實流程裡,一個錯字的成本不一樣。
公司統編、日期、金額、小數點、英文型號、繁中姓名、地址、SKU、醫療代碼、合約條款,錯一個字可能就會讓下游流程做錯決策。相反地,若只是建立全文搜尋索引或讓客服先看摘要,少量錯字可能可以接受。
所以測 PP-OCRv6 時,請把結果拆成兩層:
- 頁面層:整頁是否讀得出主要文字、表格與段落。
- 欄位層:關鍵欄位是否能被穩定抽出,錯了會不會影響付款、審核、搜尋或自動回覆。
如果你要把 OCR 接到 LLM 或 RAG,欄位層更重要。LLM 可能會把錯字包裝成流暢答案,讓錯誤變得更難發現。比較穩的做法,是保留 OCR JSON、座標、信心分數與原圖連結,讓後續系統可以回查;單純把純文字丟進模型,除錯成本會高很多。
怎麼接進現有 AI 系統?
PP-OCRv6 的導入不需要一開始就做成完整平台。第一輪可以很小:選 50 到 200 份真實文件,先跑 medium,保留輸出圖片和 JSON,再看錯誤集中在哪裡。
官方範例從安裝 PaddleOCR 開始:
pip install paddleocr
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
result = ocr.predict(
"https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
正式評估時,推論後端也要一起測。Paddle 生態可以先看 Paddle Inference;如果團隊習慣 Hugging Face / PyTorch,可以測 Transformers;若你需要跨平台或邊緣部署,可以測 ONNX Runtime。不要只在 notebook 跑通一次就結案,因為正式環境會碰到冷啟動、模型下載、CPU/GPU provider、容器版本和記憶體限制。
一個比較穩的第一版流程是:
- 圖片或 PDF 進入受控儲存區。
- PP-OCRv6 輸出文字、座標、信心資訊與視覺化檢查圖。
- 規則層檢查欄位格式,例如日期、金額、統編、地址或 SKU。
- 低信心或高風險文件進人工複核。
- 通過的文字再送進搜尋、資料庫、RAG 或 LLM 摘要。
這樣做的好處,是你可以把「讀字錯誤」和「推理錯誤」分開除錯。若直接把圖片丟給多模態模型,輸出錯了以後常常很難判斷是模型沒看清楚、沒有理解版面,還是推理時編了答案。
7 天測試流程
PP-OCRv6 最適合先跑一週 bounded evaluation。這週只回答一句話:它在你的文件上能不能穩定進入正式流程。
- 第 1 天:收樣本。準備 50 到 200 份真實圖片,包含高品質掃描、手機拍攝、低光源、歪斜、截圖、表格、多語混排與已知失敗案例。
- 第 2 天:標準答案。不要只標整頁文字;日期、金額、姓名、型號、地址、SKU、章節標題等關鍵欄位要獨立標註。
- 第 3 天:跑 medium baseline。保存 JSON、視覺化圖片、延遲、記憶體和錯誤樣本。
- 第 4 天:比較 small / tiny。用同一批樣本看錯誤是否集中在小字、繁中、表格、低解析或特殊符號。
- 第 5 天:測正式後端。選 Paddle Inference、Transformers 或 ONNX Runtime 中最接近上線環境的路徑測一次。
- 第 6 天:接下游流程。把 OCR JSON 送進搜尋索引、欄位抽取或 LLM 摘要,觀察下游對錯字與缺欄位的容忍度。
- 第 7 天:定人工閘門。列出哪些文件能自動通過,哪些要低信心重跑,哪些一定要人工複核。
如果你已經有模型評估流程,可以把這套測法接到 LLM 評估指南 的思路:公開 benchmark 只回答模型可能多強,你的內部樣本才回答流程能不能上線。
上線前不要漏掉資安與維護
OCR 看起來只是影像轉文字,但它常處理個資、財務資料、合約、醫療文件與內部截圖。部署前至少要確認四件事。
資料流向:圖片會不會離開內網或本機?Hugging Face demo 適合快速試用,不適合上傳敏感文件。
版本釘選:記錄 PaddleOCR、模型資產、ONNX Runtime、Transformers、容器與硬體設定。OCR 模型更新後,欄位錯誤率可能會變,不該無聲替換。
錯誤回退:空白輸出、低信心、語言混淆、欄位缺漏要有處理方式。可以重跑、換模型、轉人工複核或拒絕自動化,不要讓錯誤直接進入下游決策。
授權與供應鏈:PaddleOCR GitHub repository 標示 Apache 2.0 授權;正式採用前,仍要讓工程與法務確認模型資產、依賴套件與容器來源。
這些檢查和 AI 安全工程 有關。OCR 模型不會替你處理權限、保留期限、稽核紀錄或敏感資料遮罩;它只是把圖像變成更容易被搜尋、複製與送進下游模型的文字。
常見問題
PP-OCRv6 可以取代 ChatGPT 或 Gemini 看圖嗎? 不能直接取代。PP-OCRv6 的工作是找出文字位置並辨識文字;ChatGPT、Gemini、Claude 這類多模態模型更適合做開放式視覺理解、圖表解釋或推理。實務上可以先用 PP-OCRv6 擷取文字,再把乾淨文本交給多模態模型或 LLM。
small 和 medium 都支援 50 種語言,為什麼還要測 medium? 語言支援不等於準確率相同。官方表格顯示 medium 的偵測 Hmean 與辨識準確率都高於 small。若文件錯字成本高,先用 medium 建 baseline;若成本、延遲或硬體限制更重要,再測 small 是否足夠。
繁體中文可以用嗎? 官方文章列出 small 與 medium 支援 Traditional Chinese。正式導入時仍要用自己的繁中樣本測試,尤其是低解析掃描、直排文字、表格、手寫、印章附近文字與中英數混排。
PP-OCRv6 適合 RAG 嗎? 適合放在 RAG 前處理層,把圖片或掃描文件轉成文字與 JSON,方便切塊、索引與引用。但如果原始文件有表格、頁碼、章節或版面結構,要保留位置資訊或搭配文件解析工具,避免把版面脈絡弄丟。
參考來源
- Hugging Face Blog:PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters
- Hugging Face:PP-OCRv6 Online Demo
- Hugging Face:PP-OCRv6 Collection
- PaddleOCR Documentation:PP-OCRv6
- GitHub:PaddlePaddle/PaddleOCR
下一步
如果你只有零星截圖需求,先用現成 OCR 工具,不必為 PP-OCRv6 建流程。若你正在把發票、合約、客服附件、產品標籤或掃描文件送進搜尋、RAG 或自動化系統,先拿 50 到 200 份真實樣本測 medium,再用 small / tiny 驗證成本與延遲。
最後看三個數字:關鍵欄位錯誤率、正式環境延遲,以及需要人工複核的比例。這三個數字過關,PP-OCRv6 才值得進入正式流程。