回到頂部
用 AI 看圖說故事:圖片辨識實戰指南 — 封面

用 AI 看圖說故事:圖片辨識實戰指南

拍張照片讓 AI 幫你辨識植物、翻譯菜單、解數學題、分析圖表。完整教學 GPT-4o、Claude、Gemini 的多模態視覺功能。

💡 什麼是「AI 看圖」? 2024 年起,主流 AI 都支援「上傳圖片」功能。你可以拍一張照片丟給 AI,它能辨識內容、回答問題、甚至提供建議。這就是多模態 AI 的實際應用。


🔥 10 個最實用的「看圖」場景

1. 辨識植物 / 動物 🌿

拍下路邊的花或樹,問 AI:

這是什麼植物?有毒嗎?怎麼照顧?

2. 翻譯外文菜單 🍜

出國旅遊看不懂菜單?拍一張照片:

請翻譯這份菜單,並推薦 3 道適合不吃辣的人的菜。

3. 解數學題 📐

拍下數學課本或考卷:

請解這道題,並用最白話的方式解釋每一步。

4. 分析圖表 📊

拍下簡報裡的圖表:

這張圖表說了什麼?有沒有什麼值得注意的趨勢?幫我寫一段分析。

5. 辨識錯誤 🐛

程式跑出錯誤訊息?截圖丟給 AI:

這個錯誤是什麼意思?怎麼修?

6. 穿搭建議 👔

拍下今天的穿著:

這套搭配怎麼樣?如果要去正式的商務午餐,需要調整什麼?

7. 食品營養分析 🏷️

拍下食品背面的營養標示:

這個食品健不健康?我正在減醣,適合吃嗎?

8. 家具 / 商品辨識 🪑

看到喜歡的家具但不知道品牌:

這是什麼風格的椅子?哪裡可以買到類似的?大概多少錢?

9. 手寫筆記數位化 ✍️

拍下手寫的會議筆記:

幫我把這些手寫內容轉成數位文字,並整理成條列式重點。

10. 維修診斷 🔧

拍下壞掉的東西:

我的洗衣機出現這個符號,是什麼意思?我能自己修嗎?


🛠️ 各工具的圖片能力比較

功能ChatGPT (GPT-4o)ClaudeGemini
上傳圖片
圖片中的文字辨識⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
圖表分析⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
物體辨識⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
手寫辨識⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
免費使用✅(有限額)✅(有限額)✅(完全免費)
手機 App

💡 推薦: 日常看圖用 Gemini(完全免費 + 辨識能力強),需要深度分析用 ChatGPT


📱 怎麼上傳圖片?

手機(最方便)

  1. 打開 ChatGPT / Claude / Gemini 的手機 App
  2. 點對話框旁的「+」或「📎」按鈕
  3. 選擇「拍照」或「從相簿選取」
  4. 上傳後打字問問題

電腦

  1. 在對話框找到附件按鈕(📎 或 +)
  2. 拖拉圖片到對話框
  3. 或直接 Ctrl+V 貼上截圖

⚡ 讓 AI 看圖看得更準的技巧

拍清楚

  • 確保圖片不模糊、不反光
  • 文字類的照片盡量正面拍,不要歪斜
  • 光線充足很重要

問具體

「這是什麼?」 「這張照片裡的紅色花是什麼品種?適合種在台灣嗎?」

提供背景

「幫我分析這張圖」 「這是我公司上一季的銷售數據圖。請分析哪個產品線成長最快,以及可能的原因。」

一次一張

上傳太多張圖片反而會降低分析品質。一次一張、一個問題,效果最好。


⚠️ 注意事項

  • 不要上傳包含個人敏感資訊的圖片(身分證、銀行卡、密碼)
  • AI 辨識植物/動物的準確率約 80-90%,重要判斷(如有毒植物)請再查專業資料
  • 醫療相關的圖片(如皮膚狀況)只能做初步參考,不能取代就醫

延伸閱讀:多模態 AIAI 安全指南


🎓 學生與家長的實用場景

AI 視覺功能不只是上班族的生產力工具,對學生和家長來說也有非常實用的日常場景。

作業檢查與解題輔導

孩子寫完數學作業後,家長可以拍一張照片丟給 AI,請它「檢查這份作業有沒有算錯的地方,如果有,請指出錯在哪一步,並用小學生能理解的方式解釋正確做法」。這比家長自己重新算一遍快得多,尤其是當孩子的數學程度已經超過家長能力範圍的時候。

外語學習的隨身翻譯

出國旅遊或在國內遇到外文標示時,直接拍照讓 AI 翻譯,同時請它解釋文化背景。例如在日本拍下一張居酒屋的菜單,除了翻譯菜名之外,還可以問「哪些是生食?哪些適合不敢吃生魚片的人?」。比起單純的翻譯 App,AI 能提供更有脈絡的建議。

植物養護日記

如果你是植物愛好者,可以定期拍下同一棵植物的照片丟給 AI,問它「跟上週比,葉子的顏色有什麼變化?是不是缺水或缺肥的徵兆?」。AI 雖然無法取代園藝專家的診斷,但作為日常觀察的輔助工具,能幫你更早發現問題。


進階應用:把 AI 視覺融入工作流

上面介紹的十個場景只是入門。當你熟悉基本操作後,可以把 AI 視覺能力串進更複雜的工作流程,真正提升生產力。

批量處理:發票與收據數位化

如果你是小型公司的會計或行政,每個月要處理幾十張紙本發票和收據,可以這樣做:拍下所有收據的照片,逐張丟給 AI,請它擷取「日期、品項、金額、統一編號」,再整理成表格格式。雖然目前還無法一次上傳幾十張做全自動處理,但比起一張張手動輸入,效率已經提升三到五倍。搭配 AI 試算表工具 還能直接生成報表。

設計回饋:用 AI 做初步設計審查

如果你是行銷人員或小型團隊主管,經常需要審核設計稿但又不是專業設計師,可以把設計稿截圖丟給 AI,問它:「這張海報的視覺層次清楚嗎?文字是否容易閱讀?配色是否協調?」AI 不會取代專業設計師的判斷,但能幫你在回饋設計師之前,先整理出具體的修改建議,而不是只會說「感覺怪怪的」。

競品分析:截圖比較產品介面

把你的產品介面和競品的介面各截一張圖,同時丟給 AI(支援多圖的模型如 GPT-4o),請它從使用者體驗的角度比較兩者的差異。這種視覺化的競品分析,比純文字描述更直觀,也更容易在團隊會議中展示討論。


AI 視覺工具分類:四類選型決策

「AI 視覺」其實是一個很大的傘狀詞,底下有四個技術路線,應用場景完全不同。搞清楚分類才能選對工具。

1. 傳統圖像辨識 API(Google Vision / AWS Rekognition / Azure Computer Vision)

這類服務提供結構化的辨識結果——給它一張圖,回傳「物件標籤、位置座標、信心分數」。適合大量、高速、可預測的任務。典型應用是電商商品自動標籤、內容審核(偵測色情 / 暴力圖像)、即時安防監控。

價格參考:Google Vision API 每月前 1,000 次免費,之後每 1,000 次約 $1.50 美元。比 Vision LLM 便宜 5-10 倍,但只能回傳「標籤」,無法「解釋」。

2. OCR 專用工具(Google Document AI / Amazon Textract / ABBYY FineReader)

專門做文字擷取,對發票、收據、表單、手寫文件的辨識率遠高於通用 Vision LLM。支援結構化輸出(自動識別欄位名稱與對應值)。

實測:一張台灣統一發票,用 GPT-5 Vision 辨識需約 8-12 秒且偶爾會漏字,用 Google Document AI 專用發票模板只需 1.5 秒且準確率超過 99%。

3. 物件偵測 / 分割(YOLO / SAM / Detectron2)

開源深度學習模型,做即時物件偵測(Bounding Box)或像素級分割(Segmentation)。適合工業檢測、自動駕駛、運動分析、醫學影像。

特點:這類模型要自己訓練或微調,不像 API 開箱即用,但精度與速度在專業場景無可取代。YOLO v10 在 RTX 4090 上可以跑到 200+ FPS。

4. Vision LLM(GPT-5 Vision / Claude Vision / Gemini / LLaVA)

會「理解」圖片並用自然語言回答問題的模型。這是最靈活的一類——你不用事先定義要辨識什麼,用問的就好。但成本最高、速度最慢、結果最不可預測。

價格參考(每張圖片的成本):GPT-5 Vision 約 $0.02-0.05 美元,Claude Opus Vision 約 $0.03-0.08 美元,Gemini 1.5 Pro Vision 約 $0.005-0.02 美元(最便宜),開源 LLaVA 自部署約 $0(只需電費)。


三個實戰場景:收據 OCR、商品辨識、無障礙應用

場景一:中小企業的收據 OCR 自動化

需求:每月 100-500 張紙本發票,需要錄入會計系統。

推薦方案:Google Document AI 發票模板($10-50 元美元/月)+ 試算表整合。一張發票處理成本約 $0.03 美元,準確率 98% 以上。比單純用 GPT-5 Vision 便宜 3-5 倍,且可直接輸出結構化 JSON。

如果預算有限,也可以用 GPT-5 Vision 配合 Prompt Engineering 技巧:在 Prompt 中明確要求 JSON schema 與欄位驗證規則,準確率能達到 90-95%。

場景二:電商商品辨識與自動標籤

需求:每天上架 1,000+ 件新商品,需要自動產生商品標籤、分類、描述。

推薦方案:混合架構——用 Google Vision API 做第一層分類($1.50/千次),再用 Vision LLM 做細節描述(只對高價值商品)。這樣每月成本可以壓在合理範圍,同時保有靈活性。

如果你的商品類別固定(例如只賣服飾),建議訓練 YOLO 自訂模型,長期來看成本最低、精度最高。搭配 AI 照片編輯工具 做自動去背與優化,整條上架流程可以自動化 80% 以上。

場景三:視障者的無障礙輔助

需求:幫視障使用者即時描述周遭環境、閱讀標示、辨識人物表情。

推薦方案:手機端用 Gemini 或 GPT-5 Vision 的 App。實測 Gemini 在免費方案下就能提供即時視覺輔助,延遲約 2-4 秒,描述準確度足以支援日常生活。OpenAI 也與 Be My Eyes 合作推出專門的無障礙版本。這是 Vision LLM 最有社會價值的應用之一。


怎麼選方案:三步驟決策框架

面對這麼多工具,給你一個實用的決策順序:

第一步:問清楚「任務是否重複、結構是否固定」。每天處理一萬張發票 → 用專用 OCR。每天偶爾看一張奇怪的圖 → 用 Vision LLM。

第二步:問清楚「精度要求」。醫療影像、工業檢測 → 專用模型或 API。日常辦公、個人使用 → Vision LLM 夠用。

第三步:問清楚「預算量級」。每月 $0-50 → Gemini 或 免費 AI 工具。每月 $50-500 → GPT-5 Vision 或 Claude Vision。每月 $500+ → 混合架構或自部署。

詳細的 API 選型指引可參考 多模態 API 整合教學


常見問題

AI 看得懂中文手寫字嗎?
可以!主流 AI 的中文手寫辨識能力已經很好。**GPT-5 Vision** 在我的實測中,工整的中文手寫辨識準確率約 95%,潦草的約 70-80%。Google Document AI 的手寫辨識略優於通用 Vision LLM。但如果字太潦草,準確率會下降。建議拍清楚、字寫大一點、光線充足、正面拍攝。
可以上傳 PDF 或文件嗎?
ChatGPTClaude 都支援直接上傳 PDF。如果你要處理大量文件,推薦用 NotebookLM,它專門為文件分析設計。對於 100 頁以上的長文件,Claude 的 200K 上下文窗口表現最穩定。
AI 會保存我上傳的圖片嗎?
依各家政策而定。ChatGPT 在「不訓練模式」下不會用你的圖片來訓練(但系統仍會暫存 30 天作為濫用偵測用途)。Claude 預設不保存。Gemini 的免費版會用於訓練,付費版則不會。建議敏感圖片(身分證、財務文件、醫療影像)不要上傳到任何雲端 AI 工具,改用本地部署的 開源視覺模型
GPT-5 Vision、Claude Vision、Gemini 哪個最強?
**GPT-5 Vision**:最全能,圖表分析、OCR、圖像推理都很強,適合複雜任務。**Claude Vision**:細節描述最細膩,適合需要「看懂畫面脈絡」的任務(例如設計稿審查)。**Gemini**:完全免費且速度最快,物件辨識能力特別強。實務上建議三個都試過一輪再決定主力工具,詳見 模型比較總覽
開源視覺模型(如 LLaVA)可以取代 GPT-5 Vision 嗎?
在**特定任務**上可以,但通用能力仍有差距。LLaVA-NeXT 和 Qwen-VL 在物件辨識、簡單問答上已經很接近 GPT-5 Vision,但在複雜推理(例如看圖解數學題、分析多張圖片關聯)上仍落後。如果你有資料隱私需求,或要處理大量圖片想壓低成本,開源方案值得認真評估。
Vision LLM 每張圖的 API 成本怎麼算?
各家計算方式不同,但大致範圍:**Gemini 1.5 Pro** 每張圖 $0.005-0.02 美元(最便宜)。**GPT-5 Vision** 每張圖 $0.02-0.05 美元。**Claude Opus Vision** 每張圖 $0.03-0.08 美元。成本取決於圖片解析度——高解析度會被切成更多 token。大量處理前務必測試預算,以免驚喜賬單。
拍產品照片做電商辨識,該用哪個?
**小量(每月 <1,000 張)**:直接用 GPT-5 Vision 或 Claude Vision,寫好 Prompt 一次搞定描述 + 標籤。**中量(每月 1,000-10,000 張)**:混合 Google Vision API(分類)+ Vision LLM(描述)。**大量(每月 10,000+ 張)**:訓練自己的 YOLO 模型,長期成本最低。搭配 AI 照片編輯工具做自動去背與優化效果更好。

📚 延伸閱讀