用 AI 看圖說故事：圖片辨識實戰指南

拍張照片讓 AI 幫你辨識植物、翻譯菜單、解數學題、分析圖表。完整教學 GPT-4o、Claude、Gemini 的多模態視覺功能。

發布：2026-03-28

入門多模態工具教學

💡 什麼是「AI 看圖」？ 2024 年起，主流 AI 都支援「上傳圖片」功能。你可以拍一張照片丟給 AI，它能辨識內容、回答問題、甚至提供建議。這就是多模態 AI 的實際應用。

🔥 10 個最實用的「看圖」場景

1. 辨識植物 / 動物 🌿

拍下路邊的花或樹，問 AI：

這是什麼植物？有毒嗎？怎麼照顧？

2. 翻譯外文菜單 🍜

出國旅遊看不懂菜單？拍一張照片：

請翻譯這份菜單，並推薦 3 道適合不吃辣的人的菜。

3. 解數學題 📐

拍下數學課本或考卷：

請解這道題，並用最白話的方式解釋每一步。

4. 分析圖表 📊

拍下簡報裡的圖表：

這張圖表說了什麼？有沒有什麼值得注意的趨勢？幫我寫一段分析。

5. 辨識錯誤 🐛

程式跑出錯誤訊息？截圖丟給 AI：

這個錯誤是什麼意思？怎麼修？

6. 穿搭建議 👔

拍下今天的穿著：

這套搭配怎麼樣？如果要去正式的商務午餐，需要調整什麼？

7. 食品營養分析 🏷️

拍下食品背面的營養標示：

這個食品健不健康？我正在減醣，適合吃嗎？

8. 家具 / 商品辨識 🪑

看到喜歡的家具但不知道品牌：

這是什麼風格的椅子？哪裡可以買到類似的？大概多少錢？

9. 手寫筆記數位化 ✍️

拍下手寫的會議筆記：

幫我把這些手寫內容轉成數位文字，並整理成條列式重點。

10. 維修診斷 🔧

拍下壞掉的東西：

我的洗衣機出現這個符號，是什麼意思？我能自己修嗎？

🛠️ 各工具的圖片能力比較

功能	ChatGPT (GPT-4o)	Claude	Gemini
上傳圖片	✅	✅	✅
圖片中的文字辨識	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
圖表分析	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
物體辨識	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
手寫辨識	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
免費使用	✅（有限額）	✅（有限額）	✅（完全免費）
手機 App	✅	✅	✅

💡 推薦： 日常看圖用 Gemini（完全免費 + 辨識能力強），需要深度分析用 ChatGPT。

📱 怎麼上傳圖片？

手機（最方便）

打開 ChatGPT / Claude / Gemini 的手機 App
點對話框旁的「+」或「📎」按鈕
選擇「拍照」或「從相簿選取」
上傳後打字問問題

電腦

在對話框找到附件按鈕（📎 或 +）
拖拉圖片到對話框
或直接 Ctrl+V 貼上截圖

⚡ 讓 AI 看圖看得更準的技巧

拍清楚

確保圖片不模糊、不反光
文字類的照片盡量正面拍，不要歪斜
光線充足很重要

問具體

❌ 「這是什麼？」 ✅ 「這張照片裡的紅色花是什麼品種？適合種在台灣嗎？」

提供背景

❌ 「幫我分析這張圖」 ✅ 「這是我公司上一季的銷售數據圖。請分析哪個產品線成長最快，以及可能的原因。」

一次一張

上傳太多張圖片反而會降低分析品質。一次一張、一個問題，效果最好。

⚠️ 注意事項

不要上傳包含個人敏感資訊的圖片（身分證、銀行卡、密碼）
AI 辨識植物/動物的準確率約 80-90%，重要判斷（如有毒植物）請再查專業資料
醫療相關的圖片（如皮膚狀況）只能做初步參考，不能取代就醫

延伸閱讀：多模態 AI、AI 安全指南

🎓 學生與家長的實用場景

AI 視覺功能不只是上班族的生產力工具，對學生和家長來說也有非常實用的日常場景。

作業檢查與解題輔導

孩子寫完數學作業後，家長可以拍一張照片丟給 AI，請它「檢查這份作業有沒有算錯的地方，如果有，請指出錯在哪一步，並用小學生能理解的方式解釋正確做法」。這比家長自己重新算一遍快得多，尤其是當孩子的數學程度已經超過家長能力範圍的時候。

外語學習的隨身翻譯

出國旅遊或在國內遇到外文標示時，直接拍照讓 AI 翻譯，同時請它解釋文化背景。例如在日本拍下一張居酒屋的菜單，除了翻譯菜名之外，還可以問「哪些是生食？哪些適合不敢吃生魚片的人？」。比起單純的翻譯 App，AI 能提供更有脈絡的建議。

植物養護日記

如果你是植物愛好者，可以定期拍下同一棵植物的照片丟給 AI，問它「跟上週比，葉子的顏色有什麼變化？是不是缺水或缺肥的徵兆？」。AI 雖然無法取代園藝專家的診斷，但作為日常觀察的輔助工具，能幫你更早發現問題。

進階應用：把 AI 視覺融入工作流

上面介紹的十個場景只是入門。當你熟悉基本操作後，可以把 AI 視覺能力串進更複雜的工作流程，真正提升生產力。

批量處理：發票與收據數位化

如果你是小型公司的會計或行政，每個月要處理幾十張紙本發票和收據，可以這樣做：拍下所有收據的照片，逐張丟給 AI，請它擷取「日期、品項、金額、統一編號」，再整理成表格格式。雖然目前還無法一次上傳幾十張做全自動處理，但比起一張張手動輸入，效率已經提升三到五倍。搭配 AI 試算表工具還能直接生成報表。

設計回饋：用 AI 做初步設計審查

如果你是行銷人員或小型團隊主管，經常需要審核設計稿但又不是專業設計師，可以把設計稿截圖丟給 AI，問它：「這張海報的視覺層次清楚嗎？文字是否容易閱讀？配色是否協調？」AI 不會取代專業設計師的判斷，但能幫你在回饋設計師之前，先整理出具體的修改建議，而不是只會說「感覺怪怪的」。

競品分析：截圖比較產品介面

把你的產品介面和競品的介面各截一張圖，同時丟給 AI（支援多圖的模型如 GPT-4o），請它從使用者體驗的角度比較兩者的差異。這種視覺化的競品分析，比純文字描述更直觀，也更容易在團隊會議中展示討論。

AI 視覺工具分類：四類選型決策

「AI 視覺」其實是一個很大的傘狀詞，底下有四個技術路線，應用場景完全不同。搞清楚分類才能選對工具。

1. 傳統圖像辨識 API（Google Vision / AWS Rekognition / Azure Computer Vision）

這類服務提供結構化的辨識結果——給它一張圖，回傳「物件標籤、位置座標、信心分數」。適合大量、高速、可預測的任務。典型應用是電商商品自動標籤、內容審核（偵測色情 / 暴力圖像）、即時安防監控。

價格參考：Google Vision API 每月前 1,000 次免費，之後每 1,000 次約 $1.50 美元。比 Vision LLM 便宜 5-10 倍，但只能回傳「標籤」，無法「解釋」。

2. OCR 專用工具（Google Document AI / Amazon Textract / ABBYY FineReader）

專門做文字擷取，對發票、收據、表單、手寫文件的辨識率遠高於通用 Vision LLM。支援結構化輸出（自動識別欄位名稱與對應值）。

實測：一張台灣統一發票，用 GPT-5 Vision 辨識需約 8-12 秒且偶爾會漏字，用 Google Document AI 專用發票模板只需 1.5 秒且準確率超過 99%。

3. 物件偵測 / 分割（YOLO / SAM / Detectron2）

開源深度學習模型，做即時物件偵測（Bounding Box）或像素級分割（Segmentation）。適合工業檢測、自動駕駛、運動分析、醫學影像。

特點：這類模型要自己訓練或微調，不像 API 開箱即用，但精度與速度在專業場景無可取代。YOLO v10 在 RTX 4090 上可以跑到 200+ FPS。

4. Vision LLM（GPT-5 Vision / Claude Vision / Gemini / LLaVA）

會「理解」圖片並用自然語言回答問題的模型。這是最靈活的一類——你不用事先定義要辨識什麼，用問的就好。但成本最高、速度最慢、結果最不可預測。

價格參考（每張圖片的成本）：GPT-5 Vision 約 $0.02-0.05 美元，Claude Opus Vision 約 $0.03-0.08 美元，Gemini 1.5 Pro Vision 約 $0.005-0.02 美元（最便宜），開源 LLaVA 自部署約 $0（只需電費）。

三個實戰場景：收據 OCR、商品辨識、無障礙應用

場景一：中小企業的收據 OCR 自動化

需求：每月 100-500 張紙本發票，需要錄入會計系統。

推薦方案：Google Document AI 發票模板（$10-50 元美元/月）+ 試算表整合。一張發票處理成本約 $0.03 美元，準確率 98% 以上。比單純用 GPT-5 Vision 便宜 3-5 倍，且可直接輸出結構化 JSON。

如果預算有限，也可以用 GPT-5 Vision 配合 Prompt Engineering 技巧：在 Prompt 中明確要求 JSON schema 與欄位驗證規則，準確率能達到 90-95%。

場景二：電商商品辨識與自動標籤

需求：每天上架 1,000+ 件新商品，需要自動產生商品標籤、分類、描述。

推薦方案：混合架構——用 Google Vision API 做第一層分類（$1.50/千次），再用 Vision LLM 做細節描述（只對高價值商品）。這樣每月成本可以壓在合理範圍，同時保有靈活性。

如果你的商品類別固定（例如只賣服飾），建議訓練 YOLO 自訂模型，長期來看成本最低、精度最高。搭配 AI 照片編輯工具做自動去背與優化，整條上架流程可以自動化 80% 以上。

場景三：視障者的無障礙輔助

需求：幫視障使用者即時描述周遭環境、閱讀標示、辨識人物表情。

推薦方案：手機端用 Gemini 或 GPT-5 Vision 的 App。實測 Gemini 在免費方案下就能提供即時視覺輔助，延遲約 2-4 秒，描述準確度足以支援日常生活。OpenAI 也與 Be My Eyes 合作推出專門的無障礙版本。這是 Vision LLM 最有社會價值的應用之一。

怎麼選方案：三步驟決策框架

面對這麼多工具，給你一個實用的決策順序：

第一步：問清楚「任務是否重複、結構是否固定」。每天處理一萬張發票 → 用專用 OCR。每天偶爾看一張奇怪的圖 → 用 Vision LLM。

第二步：問清楚「精度要求」。醫療影像、工業檢測 → 專用模型或 API。日常辦公、個人使用 → Vision LLM 夠用。

第三步：問清楚「預算量級」。每月 $0-50 → Gemini 或免費 AI 工具。每月 $50-500 → GPT-5 Vision 或 Claude Vision。每月 $500+ → 混合架構或自部署。

詳細的 API 選型指引可參考多模態 API 整合教學。

常見問題

AI 看得懂中文手寫字嗎？

可以！主流 AI 的中文手寫辨識能力已經很好。**GPT-5 Vision** 在我的實測中，工整的中文手寫辨識準確率約 95%，潦草的約 70-80%。Google Document AI 的手寫辨識略優於通用 Vision LLM。但如果字太潦草，準確率會下降。建議拍清楚、字寫大一點、光線充足、正面拍攝。

可以上傳 PDF 或文件嗎？

ChatGPT 和 Claude 都支援直接上傳 PDF。如果你要處理大量文件，推薦用 NotebookLM，它專門為文件分析設計。對於 100 頁以上的長文件，Claude 的 200K 上下文窗口表現最穩定。

AI 會保存我上傳的圖片嗎？

依各家政策而定。ChatGPT 在「不訓練模式」下不會用你的圖片來訓練（但系統仍會暫存 30 天作為濫用偵測用途）。Claude 預設不保存。Gemini 的免費版會用於訓練，付費版則不會。建議敏感圖片（身分證、財務文件、醫療影像）不要上傳到任何雲端 AI 工具，改用本地部署的開源視覺模型。

GPT-5 Vision、Claude Vision、Gemini 哪個最強？

**GPT-5 Vision**：最全能，圖表分析、OCR、圖像推理都很強，適合複雜任務。**Claude Vision**：細節描述最細膩，適合需要「看懂畫面脈絡」的任務（例如設計稿審查）。**Gemini**：完全免費且速度最快，物件辨識能力特別強。實務上建議三個都試過一輪再決定主力工具，詳見模型比較總覽。

開源視覺模型（如 LLaVA）可以取代 GPT-5 Vision 嗎？

在**特定任務**上可以，但通用能力仍有差距。LLaVA-NeXT 和 Qwen-VL 在物件辨識、簡單問答上已經很接近 GPT-5 Vision，但在複雜推理（例如看圖解數學題、分析多張圖片關聯）上仍落後。如果你有資料隱私需求，或要處理大量圖片想壓低成本，開源方案值得認真評估。

Vision LLM 每張圖的 API 成本怎麼算？

各家計算方式不同，但大致範圍：**Gemini 1.5 Pro** 每張圖 $0.005-0.02 美元（最便宜）。**GPT-5 Vision** 每張圖 $0.02-0.05 美元。**Claude Opus Vision** 每張圖 $0.03-0.08 美元。成本取決於圖片解析度——高解析度會被切成更多 token。大量處理前務必測試預算，以免驚喜賬單。

拍產品照片做電商辨識，該用哪個？

**小量（每月 <1,000 張）**：直接用 GPT-5 Vision 或 Claude Vision，寫好 Prompt 一次搞定描述 + 標籤。**中量（每月 1,000-10,000 張）**：混合 Google Vision API（分類）+ Vision LLM（描述）。**大量（每月 10,000+ 張）**：訓練自己的 YOLO 模型，長期成本最低。搭配 AI 照片編輯工具做自動去背與優化效果更好。