🧬 Level 3

深度學習

ChatGPT、Stable Diffusion 背後的黑科技是什麼？深入淺出地解說神經網路、CNN、RNN 到 Transformer 架構，讓你搞懂深度學習的核心原理。

發布：2026-03-01

中級深度學習神經網路 transformer

神經網路基礎

深度學習（Deep Learning）是機器學習的一個分支，它使用一種叫「人工神經網路」的架構，靈感來自於人類大腦的神經元。

🧠 什麼是人工神經網路？

我們的大腦由數十億個神經元（Neuron）組成，它們互相連接，傳遞電訊號。人工神經網路模仿了這個結構：

💡 神經網路的三層結構 輸入層：接收原始數據（像是你的眼睛接收光線） 隱藏層：處理和提取特徵（像大腦的思考過程） 輸出層：產生結果（像大腦做出的判斷）

「深度」學習的「深」，指的就是隱藏層很多層（有時多達數百層）。

⚡ 神經元怎麼運作？

每個人工神經元做的事情很簡單：

接收多個輸入信號
給每個信號一個「權重」（重要性）
把加權後的信號加總
通過一個「激活函數」決定是否要傳遞信號

🍕 比喻：決定午餐吃什麼 想像你在決定中午要不要吃披薩：

「有多餓」→ 權重高（很重要）

「離多遠」→ 權重中

「價格如何」→ 權重低這些因素加權後，超過某個門檻就會「激活」→ 決定去吃！神經元就是用類似的邏輯在做數學運算。

📈 為什麼深度學習這麼強？

傳統機器學習需要人類手動設計特徵（還記得機器學習的特徵工程嗎？）。但深度學習可以自動學習特徵——第一層可能學到線條和邊緣，第二層學到形狀，更深的層學到複雜的概念。層數越多，能捕捉的抽象概念越複雜。

「深度」學習的「深」指的是什麼？

CNN — 讓 AI 看懂圖片

卷積神經網路（CNN, Convolutional Neural Network）是讓 AI 能「看見」和理解圖片的關鍵技術。

🖼️ 電腦怎麼「看」圖片？

對電腦來說，一張圖片就是一堆數字陣列——每個像素都有自己的數值（RGB 色彩值）。CNN 的任務就是從這些數字中找出有意義的模式。

💡 CNN 的核心：卷積 卷積就像用一個小小的「放大鏡」在圖片上滑動，每次只看一小塊區域，偵測特定的模式（比如邊線、角落、紋理）。多層卷積堆疊後，AI 就能從「線條」→「形狀」→「部件」→「物體」逐步認出整張圖的內容。

🔎 CNN 學到了什麼？

第 1 層：邊緣、線條、色彩漸變
第 2-3 層：角落、紋理、簡單形狀
第 4-5 層：部件（輪子、眼睛、嘴巴）
更深層：完整物體（車子、人臉、狗）

📱 CNN 的應用

手機臉部辨識解鎖
自動駕駛（辨識交通號誌、行人）
醫學影像分析（X 光、CT 掃描）
IG/FB 的照片自動標記
Google 以圖搜圖

CNN 中「卷積」操作的作用是？

RNN — 讓 AI 理解序列

如果說 CNN 讓 AI 看懂圖片，那 RNN（Recurrent Neural Network, 循環神經網路）就是讓 AI 看懂有順序的東西。

📝 為什麼需要 RNN？

很多數據是有「順序」的：

文字：每個字的意義取決於前後文
語音：聲音訊號隨時間變化
股票：今天的價格跟昨天有關
天氣：明天的天氣跟今天有關

普通的神經網路把每筆輸入當成獨立的，但 RNN 有「記憶」能力，能記住之前看過的東西。

💡 比喻：看小說 普通神經網路看文字就像隨機翻開小說的每一頁，每頁都獨立理解。RNN 就像從第一頁開始讀，記住前面的劇情，所以讀到「他」的時候知道指的是誰。

🔄 RNN 的運作方式

RNN 在處理序列時，每一步都會：

接收當前的輸入
結合上一步的「記憶」（隱藏狀態）
產生輸出，同時更新記憶傳給下一步

🧩 LSTM — 記憶力升級

基本版 RNN 的記憶力其實很差——序列太長就會「忘記」前面的。所以後來出現了 LSTM（Long Short-Term Memory），加入了「遺忘門」和「記憶門」，讓 AI 決定什麼該記、什麼該忘。

🎵 應用實例 Apple 的語音辨識（Siri）、音樂自動生成、機器翻譯（較早期版本）、股票走勢預測——都曾仰賴 RNN/LSTM 技術。不過。..下一節你會看到一個更強大的替代者！

RNN 和普通神經網路最大的差異是什麼？

Transformer — 改變一切的架構

如果要選一個改變 AI 歷史的技術，那就是 Transformer。ChatGPT、Claude、BERT、GPT-5、Gemini……目前幾乎所有最厲害的 AI 都建立在它之上。

📜 Attention Is All You Need

2017 年，Google 團隊發表了一篇名為「Attention Is All You Need」的論文，提出了 Transformer 架構。這篇論文徹底改變了自然語言處理（NLP）的發展方向。

💡 核心機制：注意力（Attention） Transformer 的核心是注意力機制。它讓模型在處理每個字的時候，能「看到」整個句子的所有字，並決定要對哪些字「多加注意」。

例如：在「那隻狗追著牠的尾巴跑」中，Transformer 能理解「牠」指的是「狗」，因為注意力機制讓「牠」跟「狗」之間建立了強連結。

🆚 Transformer vs RNN

RNN：一個字一個字地處理（像排隊），速度慢，長距離記憶差
Transformer：一次看全部（像拍團體照），可以平行處理，速度快很多

🌍 Transformer 的家族

GPT 系列（OpenAI）：單向生成，擅長「接下來說什麼」→ ChatGPT
BERT（Google）：雙向理解，擅長「這段話什麼意思」→ Google 搜尋
T5、PaLM、Gemini（Google）：結合兩者優勢
Claude（Anthropic）：強調安全和有用性 → Claude vs Gemini 比較
LLaMA（Meta）：開源大語言模型

⚠️ 重要觀念 GPT 裡的 T 就是 Transformer！Generative Pre-trained Transformer —「基於 Transformer 架構的預訓練生成模型」。所以每次你用 ChatGPT，背後都是 Transformer 在工作。

Transformer 的核心機制叫什麼？

遷移學習與預訓練

訓練一個強大的深度學習模型需要海量的數據和算力。那如果每次要解決新問題都從頭訓練，成本也太高了吧？這就是「遷移學習」要解決的問題。

🏗️ 什麼是遷移學習？

遷移學習（Transfer Learning）就是把一個已經訓練好的模型的「知識」，轉移到新的任務上。

💡 比喻 你已經會騎腳踏車了，現在要學騎機車。你不需要從「什麼是輪子」開始學——平衡感、方向控制這些技能可以直接遷移過來。你只需要學習新的部分（油門、離合器）就好。

遷移學習的模型也是這樣：一個在大量數據上「預訓練」好的模型已經學會了很多基礎知識，我們只需要在自己的數據上做少量「微調」即可。

📋 預訓練 + 微調的流程

預訓練（Pre-training）：用超大量的通用數據訓練一個基礎模型（這步驟通常由大公司完成，成本數百萬美元）
微調（Fine-tuning）：用你自己的少量特定數據，在預訓練模型上做調整（這步驟成本低很多）

🏥 實例 一個在數百萬張圖片上預訓練的 CNN 模型（如 ImageNet），已經學會辨識各種物體。醫院只需要用幾千張 X 光片對它做微調，就能做出一個很準確的肺炎偵測 AI——不需要從零開始。

🤖 大型語言模型也是遷移學習！

ChatGPT 的 GPT 系列就是遷移學習的經典案例：

預訓練：讀完整個網際網路的文字（數兆個字），學會「語言」這件事
微調：用人類回饋（RLHF）教它怎麼好好回答問題

正是「預訓練 + 微調」的模式，讓現代 AI 變得如此強大又容易客製化。

遷移學習的主要好處是什麼？

常見問題

深度學習和機器學習有什麼差別？

深度學習是機器學習的一個子集，使用多層神經網路來學習複雜的模式。如果說機器學習是「從資料學習」，深度學習就是「用很深的神經網路從資料學習」。

Transformer 是什麼？

Transformer 是 2017 年 Google 論文「Attention Is All You Need」提出的神經網路架構。它的核心是注意力機制，能讓模型同時看到整段文字的前後文關係。ChatGPT、BERT、GPT-5 等現代大型語言模型都建立在 Transformer 之上。

學深度學習需要 GPU 嗎？

理解概念完全不需要！但如果要自己訓練模型，確實需要 GPU 加速——深度學習的大量數學運算在 GPU 上會快幾十倍。不過現在有很多雲端服務（Google Colab、AWS）提供免費或低成本的 GPU。