💡 什麼是「AI 看圖」? 2024 年起,主流 AI 都支援「上傳圖片」功能。你可以拍一張照片丟給 AI,它能辨識內容、回答問題、甚至提供建議。這就是多模態 AI 的實際應用。
🔥 10 個最實用的「看圖」場景
1. 辨識植物 / 動物 🌿
拍下路邊的花或樹,問 AI:
這是什麼植物?有毒嗎?怎麼照顧?
2. 翻譯外文菜單 🍜
出國旅遊看不懂菜單?拍一張照片:
請翻譯這份菜單,並推薦 3 道適合不吃辣的人的菜。
3. 解數學題 📐
拍下數學課本或考卷:
請解這道題,並用最白話的方式解釋每一步。
4. 分析圖表 📊
拍下簡報裡的圖表:
這張圖表說了什麼?有沒有什麼值得注意的趨勢?幫我寫一段分析。
5. 辨識錯誤 🐛
程式跑出錯誤訊息?截圖丟給 AI:
這個錯誤是什麼意思?怎麼修?
6. 穿搭建議 👔
拍下今天的穿著:
這套搭配怎麼樣?如果要去正式的商務午餐,需要調整什麼?
7. 食品營養分析 🏷️
拍下食品背面的營養標示:
這個食品健不健康?我正在減醣,適合吃嗎?
8. 家具 / 商品辨識 🪑
看到喜歡的家具但不知道品牌:
這是什麼風格的椅子?哪裡可以買到類似的?大概多少錢?
9. 手寫筆記數位化 ✍️
拍下手寫的會議筆記:
幫我把這些手寫內容轉成數位文字,並整理成條列式重點。
10. 維修診斷 🔧
拍下壞掉的東西:
我的洗衣機出現這個符號,是什麼意思?我能自己修嗎?
🛠️ 各工具的圖片能力比較
| 功能 | ChatGPT (GPT-4o) | Claude | Gemini |
|---|---|---|---|
| 上傳圖片 | ✅ | ✅ | ✅ |
| 圖片中的文字辨識 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 圖表分析 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 物體辨識 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 手寫辨識 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 免費使用 | ✅(有限額) | ✅(有限額) | ✅(完全免費) |
| 手機 App | ✅ | ✅ | ✅ |
💡 推薦: 日常看圖用 Gemini(完全免費 + 辨識能力強),需要深度分析用 ChatGPT。
📱 怎麼上傳圖片?
手機(最方便)
- 打開 ChatGPT / Claude / Gemini 的手機 App
- 點對話框旁的「+」或「📎」按鈕
- 選擇「拍照」或「從相簿選取」
- 上傳後打字問問題
電腦
- 在對話框找到附件按鈕(📎 或 +)
- 拖拉圖片到對話框
- 或直接 Ctrl+V 貼上截圖
⚡ 讓 AI 看圖看得更準的技巧
拍清楚
- 確保圖片不模糊、不反光
- 文字類的照片盡量正面拍,不要歪斜
- 光線充足很重要
問具體
❌ 「這是什麼?」 ✅ 「這張照片裡的紅色花是什麼品種?適合種在台灣嗎?」
提供背景
❌ 「幫我分析這張圖」 ✅ 「這是我公司上一季的銷售數據圖。請分析哪個產品線成長最快,以及可能的原因。」
一次一張
上傳太多張圖片反而會降低分析品質。一次一張、一個問題,效果最好。
⚠️ 注意事項
- 不要上傳包含個人敏感資訊的圖片(身分證、銀行卡、密碼)
- AI 辨識植物/動物的準確率約 80-90%,重要判斷(如有毒植物)請再查專業資料
- 醫療相關的圖片(如皮膚狀況)只能做初步參考,不能取代就醫
🎓 學生與家長的實用場景
AI 視覺功能不只是上班族的生產力工具,對學生和家長來說也有非常實用的日常場景。
作業檢查與解題輔導
孩子寫完數學作業後,家長可以拍一張照片丟給 AI,請它「檢查這份作業有沒有算錯的地方,如果有,請指出錯在哪一步,並用小學生能理解的方式解釋正確做法」。這比家長自己重新算一遍快得多,尤其是當孩子的數學程度已經超過家長能力範圍的時候。
外語學習的隨身翻譯
出國旅遊或在國內遇到外文標示時,直接拍照讓 AI 翻譯,同時請它解釋文化背景。例如在日本拍下一張居酒屋的菜單,除了翻譯菜名之外,還可以問「哪些是生食?哪些適合不敢吃生魚片的人?」。比起單純的翻譯 App,AI 能提供更有脈絡的建議。
植物養護日記
如果你是植物愛好者,可以定期拍下同一棵植物的照片丟給 AI,問它「跟上週比,葉子的顏色有什麼變化?是不是缺水或缺肥的徵兆?」。AI 雖然無法取代園藝專家的診斷,但作為日常觀察的輔助工具,能幫你更早發現問題。
進階應用:把 AI 視覺融入工作流
上面介紹的十個場景只是入門。當你熟悉基本操作後,可以把 AI 視覺能力串進更複雜的工作流程,真正提升生產力。
批量處理:發票與收據數位化
如果你是小型公司的會計或行政,每個月要處理幾十張紙本發票和收據,可以這樣做:拍下所有收據的照片,逐張丟給 AI,請它擷取「日期、品項、金額、統一編號」,再整理成表格格式。雖然目前還無法一次上傳幾十張做全自動處理,但比起一張張手動輸入,效率已經提升三到五倍。搭配 AI 試算表工具 還能直接生成報表。
設計回饋:用 AI 做初步設計審查
如果你是行銷人員或小型團隊主管,經常需要審核設計稿但又不是專業設計師,可以把設計稿截圖丟給 AI,問它:「這張海報的視覺層次清楚嗎?文字是否容易閱讀?配色是否協調?」AI 不會取代專業設計師的判斷,但能幫你在回饋設計師之前,先整理出具體的修改建議,而不是只會說「感覺怪怪的」。
競品分析:截圖比較產品介面
把你的產品介面和競品的介面各截一張圖,同時丟給 AI(支援多圖的模型如 GPT-4o),請它從使用者體驗的角度比較兩者的差異。這種視覺化的競品分析,比純文字描述更直觀,也更容易在團隊會議中展示討論。
AI 視覺工具分類:四類選型決策
「AI 視覺」其實是一個很大的傘狀詞,底下有四個技術路線,應用場景完全不同。搞清楚分類才能選對工具。
1. 傳統圖像辨識 API(Google Vision / AWS Rekognition / Azure Computer Vision)
這類服務提供結構化的辨識結果——給它一張圖,回傳「物件標籤、位置座標、信心分數」。適合大量、高速、可預測的任務。典型應用是電商商品自動標籤、內容審核(偵測色情 / 暴力圖像)、即時安防監控。
價格參考:Google Vision API 每月前 1,000 次免費,之後每 1,000 次約 $1.50 美元。比 Vision LLM 便宜 5-10 倍,但只能回傳「標籤」,無法「解釋」。
2. OCR 專用工具(Google Document AI / Amazon Textract / ABBYY FineReader)
專門做文字擷取,對發票、收據、表單、手寫文件的辨識率遠高於通用 Vision LLM。支援結構化輸出(自動識別欄位名稱與對應值)。
實測:一張台灣統一發票,用 GPT-5 Vision 辨識需約 8-12 秒且偶爾會漏字,用 Google Document AI 專用發票模板只需 1.5 秒且準確率超過 99%。
3. 物件偵測 / 分割(YOLO / SAM / Detectron2)
開源深度學習模型,做即時物件偵測(Bounding Box)或像素級分割(Segmentation)。適合工業檢測、自動駕駛、運動分析、醫學影像。
特點:這類模型要自己訓練或微調,不像 API 開箱即用,但精度與速度在專業場景無可取代。YOLO v10 在 RTX 4090 上可以跑到 200+ FPS。
4. Vision LLM(GPT-5 Vision / Claude Vision / Gemini / LLaVA)
會「理解」圖片並用自然語言回答問題的模型。這是最靈活的一類——你不用事先定義要辨識什麼,用問的就好。但成本最高、速度最慢、結果最不可預測。
價格參考(每張圖片的成本):GPT-5 Vision 約 $0.02-0.05 美元,Claude Opus Vision 約 $0.03-0.08 美元,Gemini 1.5 Pro Vision 約 $0.005-0.02 美元(最便宜),開源 LLaVA 自部署約 $0(只需電費)。
三個實戰場景:收據 OCR、商品辨識、無障礙應用
場景一:中小企業的收據 OCR 自動化
需求:每月 100-500 張紙本發票,需要錄入會計系統。
推薦方案:Google Document AI 發票模板($10-50 元美元/月)+ 試算表整合。一張發票處理成本約 $0.03 美元,準確率 98% 以上。比單純用 GPT-5 Vision 便宜 3-5 倍,且可直接輸出結構化 JSON。
如果預算有限,也可以用 GPT-5 Vision 配合 Prompt Engineering 技巧:在 Prompt 中明確要求 JSON schema 與欄位驗證規則,準確率能達到 90-95%。
場景二:電商商品辨識與自動標籤
需求:每天上架 1,000+ 件新商品,需要自動產生商品標籤、分類、描述。
推薦方案:混合架構——用 Google Vision API 做第一層分類($1.50/千次),再用 Vision LLM 做細節描述(只對高價值商品)。這樣每月成本可以壓在合理範圍,同時保有靈活性。
如果你的商品類別固定(例如只賣服飾),建議訓練 YOLO 自訂模型,長期來看成本最低、精度最高。搭配 AI 照片編輯工具 做自動去背與優化,整條上架流程可以自動化 80% 以上。
場景三:視障者的無障礙輔助
需求:幫視障使用者即時描述周遭環境、閱讀標示、辨識人物表情。
推薦方案:手機端用 Gemini 或 GPT-5 Vision 的 App。實測 Gemini 在免費方案下就能提供即時視覺輔助,延遲約 2-4 秒,描述準確度足以支援日常生活。OpenAI 也與 Be My Eyes 合作推出專門的無障礙版本。這是 Vision LLM 最有社會價值的應用之一。
怎麼選方案:三步驟決策框架
面對這麼多工具,給你一個實用的決策順序:
第一步:問清楚「任務是否重複、結構是否固定」。每天處理一萬張發票 → 用專用 OCR。每天偶爾看一張奇怪的圖 → 用 Vision LLM。
第二步:問清楚「精度要求」。醫療影像、工業檢測 → 專用模型或 API。日常辦公、個人使用 → Vision LLM 夠用。
第三步:問清楚「預算量級」。每月 $0-50 → Gemini 或 免費 AI 工具。每月 $50-500 → GPT-5 Vision 或 Claude Vision。每月 $500+ → 混合架構或自部署。
詳細的 API 選型指引可參考 多模態 API 整合教學。