AI 如何「思考」？

從 AI 讀取文字的最小單位 Token，到它學會反思推理——一篇讀懂 AI 的思考邏輯。

發布：2026-03-01

中級 token semantics attention

🧩 基礎知識 · 理解 AI 的核心

AI 如何「思考」？Token · 語意 · 上下文 · 後設認知

從 AI 讀取文字的最小單位，到它學會「反思自己的推理」——一篇讀懂 AI 的思考邏輯。

🔤 Token — AI 讀取語言的最小單位

當你在 ChatGPT 輸入一句話，AI 的第一步不是「讀字」，而是把你的文字拆成一個個小碎片——這些碎片就叫做 Token。

💡 一句話理解 Token

Token 就像積木。AI 不是一個字一個字讀的——它把文字拆成「意義碎片」，每個碎片就是一個 Token。

英文例子：

"I love artificial intelligence"

→ ["I", " love", " artificial", " intelligence"] = 4 個 Token

中文例子：

"我喜歡人工智慧"

→ ["我", "喜", "歡", "人工", "智", "慧"] = 6 個 Token

⚠️ 為什麼中文比英文花更多 Token？

大多數 AI 使用的分詞器（BPE — Byte Pair Encoding）主要在英文語料中訓練。英文單詞被高效壓縮，但中文字種類多、出現頻率分散，所以同樣的內容，中文需要英文 1.5-2 倍的 Token。

這直接影響：

費用 — API 以 Token 計費，中文更貴
上下文 — 同樣的 Token 限制下，中文能放的內容更少
速度 — 更多 Token = 更慢的回應時間

📊 Token 數量級感覺

內容	約多少 Token
一句話（中文）	15-30
一頁 A4 文字	500-800
一篇部落格文章	2,000-5,000
一本小說（中文）	150,000-300,000
GPT-5.4 上下文上限	1,000,000

💡 語意 — AI 如何「理解」意思

AI 拆完 Token 後，接下來的挑戰是：如何從這些碎片中理解「意思」？

🎯 詞嵌入（Word Embedding）— 把文字變成數字地圖

AI 無法直接理解文字，所以它把每個 Token 轉換成一組數字——一個高維度的向量。這個過程叫做「詞嵌入」。

想像一個巨大的 3D 地圖：

「國王」和「皇帝」靠在一起（意思相近）
「國王」和「蘋果」離得很遠（意思無關）
「國王」−「男人」+「女人」≈「女王」（語意關係被保留）

這就是 AI 的「語意空間」——意思相近的詞，在數字空間中距離越近。

🧩 語意相似度的應用

搜尋引擎 — 搜「番茄怎麼種」也能找到「西紅柿種植方法」
翻譯 — AI 能在不同語言的語意空間之間「對齊」
文件分類 — 自動判斷客服信件是投訴、詢問還是感謝
推薦系統 — 根據語意相似度推薦相關文章

🤔 AI 真的「理解」了嗎？

這是 AI 界最大的辯論之一。AI 的「理解」本質上是極為精細的統計關聯——它不像人類那樣有真正的「感覺」或「認知」。

但就實際效果而言，AI 的語意判斷在很多任務上已經接近甚至超越人類，例如情感分析、文本摘要、翻譯品質等。

📚 上下文（Context Window）— AI 的記憶力

你跟 AI 聊天時，它能記住你前面說的話嗎？答案是：可以，但有限制。這個限制就是「上下文視窗」。

📏 什麼是上下文視窗？

上下文視窗 = AI 一次能「看到」的 Token 數量上限。

想像你在讀一本書，但只能透過一個視窗看一定數量的字。視窗越大，你越能理解整本書的脈絡。

上下文大小的進化：

模型	上下文大小	約等於
GPT-3（2020）	4K Token	3 頁 A4
GPT-4（2023）	128K Token	一本薄書
Claude 4（2025）	200K → 1M Token	一本厚書 → 一整套百科全書
GPT-5.4 / Gemini 3.1 Pro	1M Token	一整套百科全書

⚡ Attention 機制 — AI 如何在上下文中找重點

上下文可以很大，但 AI 不是平均「看」每個 Token。Attention（注意力）機制讓 AI 能自動判斷哪些 Token 最重要。

生活比喻：

想像你在吵雜的咖啡廳裡聽朋友說話。雖然周圍有很多聲音，你的大腦會自動「聚焦」在朋友的聲音上，過濾掉背景噪音。Attention 就是 AI 的「聚焦能力」。

「Attention Is All You Need」這篇 2017 年的論文提出了 Transformer 架構，從此開啟了 ChatGPT、Gemini、Claude 等所有現代 AI 模型的時代。想深入了解？看看深度學習入門。

💡 上下文大小為什麼重要？

📖 百萬 Token = 你可以把一整本書丟進去問問題
💼 長對話 = AI 能記住 3 小時前的對話內容
💻 大型程式碼庫 = AI 能理解整個專案的代碼結構
📊 數據分析 = 一次分析數百頁的報告

這就是為什麼 GPT-5.4 和 Gemini 3.1 Pro 的百萬 Token 是重大新聞——它從根本上改變了 AI 能處理的任務複雜度。

🪞 後設認知 — AI 學會「思考自己的思考」

這是 AI 最前沿的能力。後設認知（Metacognition）是「思考自己的思考」——而 AI 正在學會這件事。

🧠 人類的後設認知 vs AI 的後設認知

👤 人類

考試時你可能會想：「這題我不確定，我先跳過，回來再想」或「讓我用另一種方法驗算」。這種對自己思考過程的反思就是後設認知。

🤖 AI

推理模型（如 o3）在回答前會產生一段「思考鏈」：「讓我先理解問題→分解步驟→逐步推理→驗證答案→確認結果」。這就是 AI 版本的後設認知。

⛓️ Chain of Thought（CoT）— 思考鏈

思考鏈是實現 AI 後設認知的核心技術。比較：

❌ 傳統模型（直覺回答）

問：「15 × 17 = ?」

答：「255」（直接給答案，可能出錯）

✅ 推理模型（思考鏈）

問：「15 × 17 = ?」

想：「15×17 = 15×(10+7) = 150+105 = 255」

答：「255」（逐步推理，更可靠）

🏆 推理模型的表現

OpenAI o3 — 在國際數學奧林匹克級的問題上取得突破性成績
DeepSeek R1 — 開源推理模型，成本極低但表現卓越
Google Gemini Deep Think — 高級推理模式
Claude Extended Thinking — Anthropic 的深度推理功能

推理模型在數學、程式設計、科學推理、法律分析等需要深度思考的任務上，表現遠超傳統模型。

🔗 四者的完整邏輯鏈 — AI 的認知過程

🧠 AI 認知四步驟

當你問 AI「人工智慧的未來發展方向是什麼？」，背後發生了什麼？

Step 1 — Token（拆解）

「人工智慧的未來發展方向是什麼？」→ 被拆成若干 Token 碎片

Step 2 — 語意（理解）

每個 Token 被轉換成向量 → AI 理解「人工智慧」和「AI」是同一個概念，「未來發展方向」表示趨勢預測

Step 3 — 上下文（串連）

Attention 機制掃描所有 Token → 結合你之前的對話、設定、系統提示 → 決定哪些資訊最相關

Step 4 — 後設認知（反思）

推理模型會先思考：「這是一個趨勢分析問題→我需要涵蓋技術、商業、社會層面→讓我組織結構…」→ 才開始生成回答

Token 🔤 → 語意 💡 → 上下文 📚 → 後設認知 🪞

拆解語言 → 理解意思 → 串連前後 → 反思推理

💡 為什麼理解這些概念很重要？

👉 理解 Token，你就知道為什麼 AI 有字數限制、為什麼中文比較貴
👉 理解語意，你就知道為什麼 AI 能「聽懂」你的問題（以及為什麼有時候會誤解）
👉 理解上下文，你就知道為什麼長對話時 AI 會「忘記」之前的內容，以及百萬 Token 為什麼是大新聞
👉 理解後設認知，你就知道為什麼推理模型比較慢但更準確，以及什麼時候該用推理模型

❓ 常見問題

什麼是 Token？

Token 是 AI 處理語言的最小單位。英文 “unhappiness” 可能被拆成 “un”、“happiness” 兩個 Token；中文的「人工智慧」可能是 2-4 個 Token。AI 的計費、上下文限制、處理速度都以 Token 為單位計算。

AI 真的能理解語意嗎？

AI 透過詞嵌入將 Token 轉換成高維向量來捕捉語意。意思相近的詞在向量空間中距離越近。這不是人類式的「理解」，而是極為精細的統計關聯，但實際效果已接近人類的語意判斷。

什麼是上下文視窗？

上下文視窗是 AI 一次能「記住」的 Token 數量上限。GPT-5.4 和 Gemini 3.1 Pro 已達 100 萬 Token（約一整本書）。上下文越大，AI 越能理解複雜的長篇對話和文件。

什麼是 AI 的後設認知？

後設認知是「思考自己的思考」。AI 透過 Chain of Thought（思考鏈）和推理模型（如 o3、DeepSeek R1）實現——在回答前先產生內部推理過程，逐步分析問題後才回答，大幅提升數學、邏輯等任務的準確度。

為什麼中文比英文花更多 Token？

因為 BPE 分詞器主要在英文語料上訓練，英文單詞被高效壓縮，但中文字種類多、出現頻率分散，需要更多 Token 表示。同樣內容，中文約需要英文 1.5-2 倍的 Token。

Attention 機制是什麼？

Attention 是 Transformer 模型的核心技巧，讓 AI 在處理每個 Token 時能同時「看」到上下文中所有其他 Token，並決定哪些最相關——就像你在吵雜環境中自動聚焦朋友的聲音。

推理模型和傳統模型有什麼不同？

傳統模型看到問題直接回答（像閃電搶答）。推理模型會先產生「思考鏈」逐步推理再回答（像深度解題）。推理模型在數學、程式設計等任務上表現遠超傳統模型，但速度較慢、成本較高。

Token、語意、上下文、後設認知有什麼關係？

它們構成 AI 的認知鏈：Token（拆解語言）→ 語意（理解意思）→ 上下文（串連前後語意）→ 後設認知（反思推理過程）。就像人類先看字、理解意思、聯繫上下文、再深度思考。