🧩 基礎知識 · 理解 AI 的核心
AI 如何「思考」?Token · 語意 · 上下文 · 後設認知
從 AI 讀取文字的最小單位,到它學會「反思自己的推理」——一篇讀懂 AI 的思考邏輯。
🔤 Token — AI 讀取語言的最小單位
當你在 ChatGPT 輸入一句話,AI 的第一步不是「讀字」,而是把你的文字拆成一個個小碎片——這些碎片就叫做 Token。
💡 一句話理解 Token
Token 就像積木。AI 不是一個字一個字讀的——它把文字拆成「意義碎片」,每個碎片就是一個 Token。
英文例子:
"I love artificial intelligence"
→ ["I", " love", " artificial", " intelligence"] = 4 個 Token
中文例子:
"我喜歡人工智慧"
→ ["我", "喜", "歡", "人工", "智", "慧"] = 6 個 Token
⚠️ 為什麼中文比英文花更多 Token?
大多數 AI 使用的分詞器(BPE — Byte Pair Encoding)主要在英文語料中訓練。英文單詞被高效壓縮,但中文字種類多、出現頻率分散,所以同樣的內容,中文需要英文 1.5-2 倍的 Token。
這直接影響:
-
費用 — API 以 Token 計費,中文更貴
-
上下文 — 同樣的 Token 限制下,中文能放的內容更少
-
速度 — 更多 Token = 更慢的回應時間
📊 Token 數量級感覺
| 內容 | 約多少 Token |
|---|---|
| 一句話(中文) | 15-30 |
| 一頁 A4 文字 | 500-800 |
| 一篇部落格文章 | 2,000-5,000 |
| 一本小說(中文) | 150,000-300,000 |
| GPT-5.4 上下文上限 | 1,000,000 |
💡 語意 — AI 如何「理解」意思
AI 拆完 Token 後,接下來的挑戰是:如何從這些碎片中理解「意思」?
🎯 詞嵌入(Word Embedding)— 把文字變成數字地圖
AI 無法直接理解文字,所以它把每個 Token 轉換成一組數字——一個高維度的向量。這個過程叫做「詞嵌入」。
想像一個巨大的 3D 地圖:
-
「國王」和「皇帝」靠在一起(意思相近)
-
「國王」和「蘋果」離得很遠(意思無關)
-
「國王」−「男人」+「女人」≈「女王」(語意關係被保留)
這就是 AI 的「語意空間」——意思相近的詞,在數字空間中距離越近。
🧩 語意相似度的應用
- 搜尋引擎 — 搜「番茄怎麼種」也能找到「西紅柿種植方法」
- 翻譯 — AI 能在不同語言的語意空間之間「對齊」
- 文件分類 — 自動判斷客服信件是投訴、詢問還是感謝
- 推薦系統 — 根據語意相似度推薦相關文章
🤔 AI 真的「理解」了嗎?
這是 AI 界最大的辯論之一。AI 的「理解」本質上是極為精細的統計關聯——它不像人類那樣有真正的「感覺」或「認知」。
但就實際效果而言,AI 的語意判斷在很多任務上已經接近甚至超越人類,例如情感分析、文本摘要、翻譯品質等。
📚 上下文(Context Window)— AI 的記憶力
你跟 AI 聊天時,它能記住你前面說的話嗎?答案是:可以,但有限制。這個限制就是「上下文視窗」。
📏 什麼是上下文視窗?
上下文視窗 = AI 一次能「看到」的 Token 數量上限。
想像你在讀一本書,但只能透過一個視窗看一定數量的字。視窗越大,你越能理解整本書的脈絡。
上下文大小的進化:
| 模型 | 上下文大小 | 約等於 |
|---|---|---|
| GPT-3(2020) | 4K Token | 3 頁 A4 |
| GPT-4(2023) | 128K Token | 一本薄書 |
| Claude 4(2025) | 200K → 1M Token | 一本厚書 → 一整套百科全書 |
| GPT-5.4 / Gemini 3.1 Pro | 1M Token | 一整套百科全書 |
⚡ Attention 機制 — AI 如何在上下文中找重點
上下文可以很大,但 AI 不是平均「看」每個 Token。Attention(注意力)機制讓 AI 能自動判斷哪些 Token 最重要。
生活比喻:
想像你在吵雜的咖啡廳裡聽朋友說話。雖然周圍有很多聲音,你的大腦會自動「聚焦」在朋友的聲音上,過濾掉背景噪音。Attention 就是 AI 的「聚焦能力」。
**「Attention Is All You Need」**這篇 2017 年的論文提出了 Transformer 架構,從此開啟了 ChatGPT、Gemini、Claude 等所有現代 AI 模型的時代。想深入了解?看看深度學習入門。
💡 上下文大小為什麼重要?
- 📖 百萬 Token = 你可以把一整本書丟進去問問題
- 💼 長對話 = AI 能記住 3 小時前的對話內容
- 💻 大型程式碼庫 = AI 能理解整個專案的代碼結構
- 📊 數據分析 = 一次分析數百頁的報告
這就是為什麼 GPT-5.4 和 Gemini 3.1 Pro 的百萬 Token 是重大新聞——它從根本上改變了 AI 能處理的任務複雜度。
🪞 後設認知 — AI 學會「思考自己的思考」
這是 AI 最前沿的能力。**後設認知(Metacognition)**是「思考自己的思考」——而 AI 正在學會這件事。
🧠 人類的後設認知 vs AI 的後設認知
👤 人類
考試時你可能會想:「這題我不確定,我先跳過,回來再想」或「讓我用另一種方法驗算」。這種對自己思考過程的反思就是後設認知。
🤖 AI
推理模型(如 o3)在回答前會產生一段「思考鏈」:「讓我先理解問題→分解步驟→逐步推理→驗證答案→確認結果」。這就是 AI 版本的後設認知。
⛓️ Chain of Thought(CoT)— 思考鏈
思考鏈是實現 AI 後設認知的核心技術。比較:
❌ 傳統模型(直覺回答)
問:「15 × 17 = ?」
答:「255」(直接給答案,可能出錯)
✅ 推理模型(思考鏈)
問:「15 × 17 = ?」
想:「15×17 = 15×(10+7) = 150+105 = 255」
答:「255」(逐步推理,更可靠)
🏆 推理模型的表現
- OpenAI o3 — 在國際數學奧林匹克級的問題上取得突破性成績
- DeepSeek R1 — 開源推理模型,成本極低但表現卓越
- Google Gemini Deep Think — 高級推理模式
- Claude Extended Thinking — Anthropic 的深度推理功能
推理模型在數學、程式設計、科學推理、法律分析等需要深度思考的任務上,表現遠超傳統模型。
🔗 四者的完整邏輯鏈 — AI 的認知過程
🧠 AI 認知四步驟
當你問 AI「人工智慧的未來發展方向是什麼?」,背後發生了什麼?
Step 1 — Token(拆解)
「人工智慧的未來發展方向是什麼?」→ 被拆成若干 Token 碎片
Step 2 — 語意(理解)
每個 Token 被轉換成向量 → AI 理解「人工智慧」和「AI」是同一個概念,「未來發展方向」表示趨勢預測
Step 3 — 上下文(串連)
Attention 機制掃描所有 Token → 結合你之前的對話、設定、系統提示 → 決定哪些資訊最相關
Step 4 — 後設認知(反思)
推理模型會先思考:「這是一個趨勢分析問題→我需要涵蓋技術、商業、社會層面→讓我組織結構…」→ 才開始生成回答
Token 🔤 → 語意 💡 → 上下文 📚 → 後設認知 🪞
拆解語言 → 理解意思 → 串連前後 → 反思推理
💡 為什麼理解這些概念很重要?
- 👉 理解 Token,你就知道為什麼 AI 有字數限制、為什麼中文比較貴
- 👉 理解 語意,你就知道為什麼 AI 能「聽懂」你的問題(以及為什麼有時候會誤解)
- 👉 理解 上下文,你就知道為什麼長對話時 AI 會「忘記」之前的內容,以及百萬 Token 為什麼是大新聞
- 👉 理解 後設認知,你就知道為什麼推理模型比較慢但更準確,以及什麼時候該用推理模型
❓ 常見問題
什麼是 Token?
Token 是 AI 處理語言的最小單位。英文 “unhappiness” 可能被拆成 “un”、“happiness” 兩個 Token;中文的「人工智慧」可能是 2-4 個 Token。AI 的計費、上下文限制、處理速度都以 Token 為單位計算。
AI 真的能理解語意嗎?
AI 透過詞嵌入將 Token 轉換成高維向量來捕捉語意。意思相近的詞在向量空間中距離越近。這不是人類式的「理解」,而是極為精細的統計關聯,但實際效果已接近人類的語意判斷。
什麼是上下文視窗?
上下文視窗是 AI 一次能「記住」的 Token 數量上限。GPT-5.4 和 Gemini 3.1 Pro 已達 100 萬 Token(約一整本書)。上下文越大,AI 越能理解複雜的長篇對話和文件。
什麼是 AI 的後設認知?
後設認知是「思考自己的思考」。AI 透過 Chain of Thought(思考鏈)和推理模型(如 o3、DeepSeek R1)實現——在回答前先產生內部推理過程,逐步分析問題後才回答,大幅提升數學、邏輯等任務的準確度。
為什麼中文比英文花更多 Token?
因為 BPE 分詞器主要在英文語料上訓練,英文單詞被高效壓縮,但中文字種類多、出現頻率分散,需要更多 Token 表示。同樣內容,中文約需要英文 1.5-2 倍的 Token。
Attention 機制是什麼?
Attention 是 Transformer 模型的核心技巧,讓 AI 在處理每個 Token 時能同時「看」到上下文中所有其他 Token,並決定哪些最相關——就像你在吵雜環境中自動聚焦朋友的聲音。
推理模型和傳統模型有什麼不同?
傳統模型看到問題直接回答(像閃電搶答)。推理模型會先產生「思考鏈」逐步推理再回答(像深度解題)。推理模型在數學、程式設計等任務上表現遠超傳統模型,但速度較慢、成本較高。
Token、語意、上下文、後設認知有什麼關係?
它們構成 AI 的認知鏈:Token(拆解語言)→ 語意(理解意思)→ 上下文(串連前後語意)→ 後設認知(反思推理過程)。就像人類先看字、理解意思、聯繫上下文、再深度思考。