你問 AI:「推薦幾篇關於 AI 教育的學術論文」 AI 回答:「Smith, J. (2024). The Impact of AI on Higher Education Pedagogy. Journal of Educational Technology, 45(3), 112-128.」
格式完美、看起來超專業——但你去查,這篇論文根本不存在。
這就是「AI 幻覺」。
AI 幻覺的定義
AI 幻覺(AI Hallucination) 是指 AI 模型生成看起來合理、格式正確、語氣自信,但實際上是錯誤、虛構或誤導的內容。
它不是 AI「故意騙你」——AI 沒有「故意」的概念。它只是在做它最擅長的事:預測下一個最可能的字。
我實際的用法:什麼情況下我會/不會信 AI
寫了 1,600 多篇文章、天天用 AI 工作,這是我的分類標準:
我會直接信的(不特別查核)
- 概念解釋、原理說明(「什麼是 Docker?」、「解釋 JWT 怎麼運作」)——這類 AI 讀過幾百萬次,錯的機率低
- 程式碼片段——跑不過就會立刻知道,不需事前查核
- 翻譯、語法修正、文體轉換——可以直接看輸出判斷
我永遠會查的(不管模型多強)
- 具體數字(日期、金額、百分比、統計數據)——這是 AI 幻覺最常出現的地方
- 論文引用(作者名 + 論文標題 + 年份)——幻覺率極高,而且非常難肉眼分辨
- 法條、判例、醫療建議——錯誤成本太高
- 冷門人物的生平細節、公司具體資料——訓練資料稀少,AI 最容易硬掰
我根本不用 AI 做的
- 任何需要「事實正確性」勝過「看起來專業」的任務(例如:寫學術論文引用、給客戶的財務報告)
- 如果用 AI 做,要設計流程:AI 出草稿 → 你逐點查核 → 才能用
最常忽略但最該記住的事:AI 幻覺最危險的不是「明顯瞎扯」,而是「聽起來很合理的錯誤」——語氣自信、格式完美、人名日期都有,但就是假的。遇到 AI 答得太順、太像教科書時,反而要更警覺。
為什麼會這樣?
AI 的本質是「文字接龍」
想像一個超級厲害的文字接龍選手。你說「今天天氣」,他會說「很好」,因為這個組合最常出現。但他不是看了窗外才說「很好」——他只是根據「統計上最可能的下一個字」在接龍。
AI 也一樣。當你問它一個問題,它不是去「查資料庫的正確答案」,而是:
- 看你的問題
- 根據訓練時讀過的大量文字
- 預測「最可能的回答應該長什麼樣子」
所以它能產出格式完美的論文引用——因為它讀過成千上萬的論文引用格式。但「格式正確」不代表「內容真實」。
幻覺的 5 種類型
1. 捏造事實 🏗️
AI 創造完全不存在的事實。
範例: 「愛因斯坦在 1920 年發表了《量子意識論》」← 這篇論文不存在
2. 張冠李戴 🔄
把不同事件、人物、數據混在一起。
範例: 把 A 公司的營收數據套在 B 公司上
3. 過度推論 📈
從有限的資訊做出過度自信的結論。
範例: 「根據趨勢分析,AI 市場在 2027 年必定達到 5000 億美元」
4. 偽造來源 📚
編造看起來很專業的參考來源、網址或論文。
範例: 給你一個完美格式的 DOI 碼和期刊引用,但連結打開是 404
5. 過時資訊 📅
用訓練資料截止日之前的舊資訊回答現在的問題。
範例: 2026 年問它某公司 CEO 是誰,它回答的是 2024 年的 CEO
哪些情況最容易幻覺?
| 容易幻覺 | 不容易幻覺 |
|---|---|
| 冷門知識、小眾領域 | 常識性知識 |
| 具體日期、數字 | 概念性解釋 |
| 即時新聞、最新事件 | 基礎科學原理 |
| 特定人物的具體言論 | 通用技能教學 |
| 學術論文引用 | 程式碼(可以直接測試) |
怎麼防範?
詳細的防範技巧請看 AI 事實查核指南。這裡列出 3 個最重要的原則:
原則 1:越重要的事越要查核
AI 說的料理食譜錯了?頂多不好吃。AI 說的醫療建議錯了?可能出大事。
原則 2:看到數字就懷疑
AI 給你的具體數字(百分比、金額、日期)有很高的幻覺機率。用搜尋引擎驗證。
原則 3:用搜尋型 AI 交叉驗證
Perplexity 等搜尋增強型 AI 的幻覺率明顯較低,因為它們基於即時搜尋結果回答,而且附上來源連結。
好消息:AI 在進步
AI 幻覺問題正在快速改善:
- RAG 技術: 讓 AI 先檢索資料再回答,大幅降低幻覺
- 搜尋增強: ChatGPT 搜尋模式、Perplexity 即時搜尋
- 自我檢查: 新模型會先「想一想」再回答,減少衝動性錯誤
- 信心指標: 未來可能標示「這個回答我有 90% 把握」
但在完全解決之前,你的判斷力就是最好的防線。這也呼應了 AI 時代最重要的三項能力:邏輯、審美、後設認知。
不同場景下的幻覺風險與應對策略
了解幻覺的「類型」還不夠,你更需要知道在你的實際工作場景中,幻覺會以什麼形式出現,以及對應的防範方法。
寫文章或報告
AI 最愛在「數據佐證」的環節幻覺。它可能寫出:「根據 2025 年 McKinsey 報告,全球 AI 市場規模達 1.2 兆美元」——但這個數字是它自己編的。
應對方法: 要求 AI 在每個數據點旁邊標注來源。如果它標不出來,就當作那個數字不存在。需要精確數據時,改用搜尋增強型 AI 取得有來源連結的答案。
寫程式碼
程式碼的幻覺比較容易發現——因為跑不過就是跑不過。但有一種更危險的幻覺:AI 引用了一個「不存在的函式庫」或「已經廢棄的 API」。你裝不上去,卻花了半小時 debug 才發現問題出在 AI 給了你一個幻想中的套件名稱。
應對方法: 拿到 AI 建議的套件或 API 名稱後,先去 npm / PyPI / GitHub 確認它真的存在。這個習慣可以省你大量的除錯時間。
法律或醫療諮詢
這是幻覺風險最高的場景。AI 可能引用一條「看起來很真」但其實不存在的法條,或建議一個「聽起來合理」但醫學上沒有根據的療法。
應對方法: 在這類高風險領域,AI 的角色只能是「初步整理資訊」,最終判斷必須交給專業人士。絕對不要把 AI 的法律或醫療建議當作最終答案。
用 Prompt 技巧主動降低幻覺
除了事後查核,你也可以在問問題的階段就「預防」幻覺。以下是幾個經過驗證的Prompt 技巧:
1. 要求 AI 承認不確定性
在 Prompt 結尾加上:「如果你不確定答案,請直接說『我不確定』,不要猜測。」大部分現代模型在收到這個指示後,會明顯減少瞎掰的行為。
2. 用 Chain-of-Thought 強制推理
要求 AI 「先列出推理步驟,再給出結論」。當 AI 需要一步步展示邏輯時,幻覺率會顯著下降,因為每一步都是可以被檢驗的。
3. 提供參考資料
如果你手邊有正確的資料,直接貼給 AI 當作參考。這相當於手動版的 RAG——AI 有了真實資料,就不需要靠「記憶」來編故事。
4. 限縮回答範圍
「請只根據以下內容回答,不要加入你自己的知識」——這句話可以大幅降低 AI 在知識庫場景中的幻覺。特別適合[客服機器人](/career/ai-cs-automation/)和[企業知識庫](/tech/rag/)的應用。
幻覺率的演進:各代模型的進步幅度
AI 幻覺不是一個「有或沒有」的問題,而是一個「比例高低」的問題。了解各代模型的幻覺率變化,能幫你更務實地評估風險。
從 GPT-3 到 2026 年的進步曲線
早期的 GPT-3(2020 年)在事實性問答的幻覺率高達 20-30%,幾乎每問五題就有一題是瞎掰的。到了 GPT-4(2023 年),幻覺率降到約 5-10%。2026 年的最新模型(如 GPT-5.4、Claude 4)在搭配搜尋增強和 Chain-of-Thought 推理後,幻覺率已經壓低到 1-3%。
但請注意:1-3% 不代表「可以完全信任」。如果你每天問 AI 100 個問題,平均還是會有 1-3 個答案是有問題的。在低風險場景(寫社群貼文、腦力激盪)這個比例完全可以接受;在高風險場景(法律意見、醫療建議、財務報告),即使只有 1% 的錯誤率也可能造成嚴重後果。
衡量幻覺風險的實用框架
在決定「要不要信任 AI 的回答」之前,快速問自己兩個問題:第一,如果這個答案是錯的,最壞的結果是什麼?第二,我有沒有能力在 30 秒內驗證這個答案?如果最壞結果很嚴重,而且你無法快速驗證,那就一定要走完整的查核流程,不要偷懶。
📰 真實案例:AI 幻覺造成的公開事件
紐約律師事件(2023)
一位紐約律師用 ChatGPT 撰寫法律摘要,AI 引用了 6 個完全不存在的判例——當事人公司名、案件編號、法官裁決全都是虛構的。律師沒查證就交給法院,被罰 $5,000 並公開道歉。這是 AI 幻覺進入主流新聞的標誌性事件。
Air Canada 退款判例(2024)
Air Canada 的 AI chatbot 跟客戶說「喪親機票可事後申請折扣」——但這是 AI 編的政策,公司官網寫的是「必須在購票時申請」。客戶上訴後,加拿大法院裁定 Air Canada 要為自家 AI 的幻覺負法律責任。這判例影響深遠:企業部署 chatbot 前必須嚴格限制它能說什麼。
學術界的 ChatGPT 論文污染(2024–2026)
多起事件:研究者用 ChatGPT 寫論文未刪除痕跡,被發現「As of my knowledge cutoff」、「I am an AI language model」等字樣出現在已發表的論文中。部分已撤稿。Elsevier、Springer 陸續建立 AI 內容偵測 + 強制揭露政策。
🧪 動手測:你的 AI 會怎麼幻覺?
試試這三個經典「幻覺誘導」題目(在你常用的 AI 上問看看):
測試 1:冷門人物的具體細節
「請告訴我台灣作家 ○○○(編個不存在的名字)的代表作和出版年份」
觀察:AI 會不會「很有自信」地編出完整書名 + 年份?
測試 2:虛構的技術規格
「請告訴我 NVIDIA RTX 6090(註:目前不存在)的記憶體容量和售價」
觀察:AI 會不會根據 RTX 4090、5090 的規律「推理出」一個假規格?
測試 3:混淆的事實
「請介紹 2023 年諾貝爾物理獎得主張三的研究」(註:張三是編的)
觀察:AI 會不會硬編一個得獎人的研究內容?
現代強化過的模型(Claude Opus 4.7、GPT-5.4)在這類誘導題上有顯著進步——會直接說「我找不到相關資訊」而不是亂編。但仍有 20–30% 機率會失守——提醒你不能完全信任。
❓ FAQ
所有 AI 都會幻覺嗎?連付費版也會?
會,但程度差很多:
- 免費版 ChatGPT / Gemini:幻覺率約 5–10%
- 付費旗艦(Claude Opus 4.7、GPT-5.4、Gemini 3 Pro):幻覺率 1–3%
- 搜尋增強模式(Perplexity、ChatGPT 搜尋、Claude + web search):幻覺率 <1%
- RAG 應用(企業知識庫):幻覺率極低但不為 0
付費不是「買安心」,是「買更低的幻覺率」。任何模型都仍需查核。
為什麼 AI 有時會說「我不確定」但有時硬編?
取決於三個因素:
- 訓練方式:Anthropic 的 Claude Constitutional AI 比 OpenAI 早 2 年訓練「不知道就說不知道」的行為,Claude 這方面表現較好
- 提示詞:明確加上「如果不確定請直接說不知道,不要編造」能顯著改善
- 問題類型:問「我認識的張三家住哪?」AI 通常會拒答;問「愛因斯坦的鄰居是誰?」AI 反而可能硬編
實務建議:永遠在 prompt 加上「不確定就說不確定」。
我怎麼快速驗證 AI 給的資訊?
30 秒驗證流程:
- 有具體數字? → Google 搜尋該數字 + 關鍵字
- 有論文引用? → Google Scholar 搜尋標題
- 有法條? → 全國法規資料庫 查條文
- 有公司 / 人物名? → 官網或維基百科交叉驗證
- 有網址 / DOI? → 直接點開看是否能打開
超過 30 秒驗證不了的資訊,就假設它可能是錯的。
AI 幻覺會被完全解決嗎?
短期內不會完全消除,但會越來越少。原因:
- LLM 的本質是機率預測——有預測就有錯誤
- RAG、搜尋增強等技術只能降低、不能消除幻覺
- 新模型(Thinking、Constitutional AI)在減少,但邊際改善遞減
未來走向:
- 2028 年前:幻覺率可能降到 <0.5%(關鍵任務下)
- 但「AI 完全可信」可能永遠不會發生——這是工程權衡,不是技術極限
使用者的終極策略:把 AI 當「聰明但偶爾出錯的實習生」,而不是「絕對正確的百科全書」。
Agent 模式的 AI 幻覺風險更大嗎?
是的,因為 AI 不只是回答,還會執行動作。潛在風險:
- 虛構 API:Agent 想呼叫某個不存在的 function
- 錯誤參數:幻覺出使用者沒提供的資訊,拿去執行
- 連鎖錯誤:多步驟 Agent 每一步都有幻覺機率,累積放大
防護方法(Claude Managed Agents 已內建):
- 人工確認關鍵動作
- Tool schema 嚴格驗證
- 每步驟可追蹤稽核日誌
Agent 幻覺是 2026 企業導入 AI 最常見的踩雷點——務必設「重要動作需人工確認」的閘門。