回到頂部

🧩 AI 如何「思考」?

從 AI 讀取文字的最小單位 Token,到它學會反思推理——一篇讀懂 AI 的思考邏輯。

🧩 基礎知識 · 理解 AI 的核心

AI 如何「思考」?Token · 語意 · 上下文 · 後設認知

從 AI 讀取文字的最小單位,到它學會「反思自己的推理」——一篇讀懂 AI 的思考邏輯。

🔤 Token — AI 讀取語言的最小單位

當你在 ChatGPT 輸入一句話,AI 的第一步不是「讀字」,而是把你的文字拆成一個個小碎片——這些碎片就叫做 Token

💡 一句話理解 Token

Token 就像積木。AI 不是一個字一個字讀的——它把文字拆成「意義碎片」,每個碎片就是一個 Token。

英文例子:

"I love artificial intelligence"

["I", " love", " artificial", " intelligence"] = 4 個 Token

中文例子:

"我喜歡人工智慧"

["我", "喜", "歡", "人工", "智", "慧"] = 6 個 Token

⚠️ 為什麼中文比英文花更多 Token?

大多數 AI 使用的分詞器(BPE — Byte Pair Encoding)主要在英文語料中訓練。英文單詞被高效壓縮,但中文字種類多、出現頻率分散,所以同樣的內容,中文需要英文 1.5-2 倍的 Token

這直接影響:

  • 費用 — API 以 Token 計費,中文更貴

  • 上下文 — 同樣的 Token 限制下,中文能放的內容更少

  • 速度 — 更多 Token = 更慢的回應時間

📊 Token 數量級感覺

內容約多少 Token
一句話(中文)15-30
一頁 A4 文字500-800
一篇部落格文章2,000-5,000
一本小說(中文)150,000-300,000
GPT-5.4 上下文上限1,000,000

💡 語意 — AI 如何「理解」意思

AI 拆完 Token 後,接下來的挑戰是:如何從這些碎片中理解「意思」?

🎯 詞嵌入(Word Embedding)— 把文字變成數字地圖

AI 無法直接理解文字,所以它把每個 Token 轉換成一組數字——一個高維度的向量。這個過程叫做「詞嵌入」。

想像一個巨大的 3D 地圖:

  • 「國王」和「皇帝」靠在一起(意思相近)

  • 「國王」和「蘋果」離得很遠(意思無關)

  • 「國王」−「男人」+「女人」≈「女王」(語意關係被保留)

這就是 AI 的「語意空間」——意思相近的詞,在數字空間中距離越近

🧩 語意相似度的應用

  • 搜尋引擎 — 搜「番茄怎麼種」也能找到「西紅柿種植方法」
  • 翻譯 — AI 能在不同語言的語意空間之間「對齊」
  • 文件分類 — 自動判斷客服信件是投訴、詢問還是感謝
  • 推薦系統 — 根據語意相似度推薦相關文章

🤔 AI 真的「理解」了嗎?

這是 AI 界最大的辯論之一。AI 的「理解」本質上是極為精細的統計關聯——它不像人類那樣有真正的「感覺」或「認知」。

但就實際效果而言,AI 的語意判斷在很多任務上已經接近甚至超越人類,例如情感分析、文本摘要、翻譯品質等。

📚 上下文(Context Window)— AI 的記憶力

你跟 AI 聊天時,它能記住你前面說的話嗎?答案是:可以,但有限制。這個限制就是「上下文視窗」。

📏 什麼是上下文視窗?

上下文視窗 = AI 一次能「看到」的 Token 數量上限。

想像你在讀一本書,但只能透過一個視窗看一定數量的字。視窗越大,你越能理解整本書的脈絡。

上下文大小的進化:

模型上下文大小約等於
GPT-3(2020)4K Token3 頁 A4
GPT-4(2023)128K Token一本薄書
Claude 4(2025)200K → 1M Token一本厚書 → 一整套百科全書
GPT-5.4 / Gemini 3.1 Pro1M Token一整套百科全書

⚡ Attention 機制 — AI 如何在上下文中找重點

上下文可以很大,但 AI 不是平均「看」每個 Token。Attention(注意力)機制讓 AI 能自動判斷哪些 Token 最重要。

生活比喻:

想像你在吵雜的咖啡廳裡聽朋友說話。雖然周圍有很多聲音,你的大腦會自動「聚焦」在朋友的聲音上,過濾掉背景噪音。Attention 就是 AI 的「聚焦能力」。

**「Attention Is All You Need」**這篇 2017 年的論文提出了 Transformer 架構,從此開啟了 ChatGPT、Gemini、Claude 等所有現代 AI 模型的時代。想深入了解?看看深度學習入門

💡 上下文大小為什麼重要?

  • 📖 百萬 Token = 你可以把一整本書丟進去問問題
  • 💼 長對話 = AI 能記住 3 小時前的對話內容
  • 💻 大型程式碼庫 = AI 能理解整個專案的代碼結構
  • 📊 數據分析 = 一次分析數百頁的報告

這就是為什麼 GPT-5.4 和 Gemini 3.1 Pro 的百萬 Token 是重大新聞——它從根本上改變了 AI 能處理的任務複雜度。

🪞 後設認知 — AI 學會「思考自己的思考」

這是 AI 最前沿的能力。**後設認知(Metacognition)**是「思考自己的思考」——而 AI 正在學會這件事。

🧠 人類的後設認知 vs AI 的後設認知

👤 人類

考試時你可能會想:「這題我不確定,我先跳過,回來再想」或「讓我用另一種方法驗算」。這種對自己思考過程的反思就是後設認知。

🤖 AI

推理模型(如 o3)在回答前會產生一段「思考鏈」:「讓我先理解問題→分解步驟→逐步推理→驗證答案→確認結果」。這就是 AI 版本的後設認知。

⛓️ Chain of Thought(CoT)— 思考鏈

思考鏈是實現 AI 後設認知的核心技術。比較:

❌ 傳統模型(直覺回答)

問:「15 × 17 = ?」

答:「255」(直接給答案,可能出錯)

✅ 推理模型(思考鏈)

問:「15 × 17 = ?」

想:「15×17 = 15×(10+7) = 150+105 = 255」

答:「255」(逐步推理,更可靠)

🏆 推理模型的表現

  • OpenAI o3 — 在國際數學奧林匹克級的問題上取得突破性成績
  • DeepSeek R1 — 開源推理模型,成本極低但表現卓越
  • Google Gemini Deep Think — 高級推理模式
  • Claude Extended Thinking — Anthropic 的深度推理功能

推理模型在數學、程式設計、科學推理、法律分析等需要深度思考的任務上,表現遠超傳統模型。

🔗 四者的完整邏輯鏈 — AI 的認知過程

🧠 AI 認知四步驟

當你問 AI「人工智慧的未來發展方向是什麼?」,背後發生了什麼?

Step 1 — Token(拆解)

「人工智慧的未來發展方向是什麼?」→ 被拆成若干 Token 碎片

Step 2 — 語意(理解)

每個 Token 被轉換成向量 → AI 理解「人工智慧」和「AI」是同一個概念,「未來發展方向」表示趨勢預測

Step 3 — 上下文(串連)

Attention 機制掃描所有 Token → 結合你之前的對話、設定、系統提示 → 決定哪些資訊最相關

Step 4 — 後設認知(反思)

推理模型會先思考:「這是一個趨勢分析問題→我需要涵蓋技術、商業、社會層面→讓我組織結構…」→ 才開始生成回答

Token 🔤 → 語意 💡 → 上下文 📚 → 後設認知 🪞

拆解語言 → 理解意思 → 串連前後 → 反思推理

💡 為什麼理解這些概念很重要?

  • 👉 理解 Token,你就知道為什麼 AI 有字數限制、為什麼中文比較貴
  • 👉 理解 語意,你就知道為什麼 AI 能「聽懂」你的問題(以及為什麼有時候會誤解)
  • 👉 理解 上下文,你就知道為什麼長對話時 AI 會「忘記」之前的內容,以及百萬 Token 為什麼是大新聞
  • 👉 理解 後設認知,你就知道為什麼推理模型比較慢但更準確,以及什麼時候該用推理模型

❓ 常見問題

什麼是 Token?

Token 是 AI 處理語言的最小單位。英文 “unhappiness” 可能被拆成 “un”、“happiness” 兩個 Token;中文的「人工智慧」可能是 2-4 個 Token。AI 的計費、上下文限制、處理速度都以 Token 為單位計算。

AI 真的能理解語意嗎?

AI 透過詞嵌入將 Token 轉換成高維向量來捕捉語意。意思相近的詞在向量空間中距離越近。這不是人類式的「理解」,而是極為精細的統計關聯,但實際效果已接近人類的語意判斷。

什麼是上下文視窗?

上下文視窗是 AI 一次能「記住」的 Token 數量上限。GPT-5.4 和 Gemini 3.1 Pro 已達 100 萬 Token(約一整本書)。上下文越大,AI 越能理解複雜的長篇對話和文件。

什麼是 AI 的後設認知?

後設認知是「思考自己的思考」。AI 透過 Chain of Thought(思考鏈)和推理模型(如 o3、DeepSeek R1)實現——在回答前先產生內部推理過程,逐步分析問題後才回答,大幅提升數學、邏輯等任務的準確度。

為什麼中文比英文花更多 Token?

因為 BPE 分詞器主要在英文語料上訓練,英文單詞被高效壓縮,但中文字種類多、出現頻率分散,需要更多 Token 表示。同樣內容,中文約需要英文 1.5-2 倍的 Token。

Attention 機制是什麼?

Attention 是 Transformer 模型的核心技巧,讓 AI 在處理每個 Token 時能同時「看」到上下文中所有其他 Token,並決定哪些最相關——就像你在吵雜環境中自動聚焦朋友的聲音。

推理模型和傳統模型有什麼不同?

傳統模型看到問題直接回答(像閃電搶答)。推理模型會先產生「思考鏈」逐步推理再回答(像深度解題)。推理模型在數學、程式設計等任務上表現遠超傳統模型,但速度較慢、成本較高。

Token、語意、上下文、後設認知有什麼關係?

它們構成 AI 的認知鏈:Token(拆解語言)→ 語意(理解意思)→ 上下文(串連前後語意)→ 後設認知(反思推理過程)。就像人類先看字、理解意思、聯繫上下文、再深度思考。

📚 延伸閱讀