回到頂部
🧬 Level 3

🧬 深度學習

ChatGPT、Stable Diffusion 背後的黑科技是什麼?深入淺出地解說神經網路、CNN、RNN 到 Transformer 架構,讓你搞懂深度學習的核心原理。

神經網路基礎

深度學習(Deep Learning)是機器學習的一個分支,它使用一種叫「人工神經網路」的架構,靈感來自於人類大腦的神經元。

🧠 什麼是人工神經網路?

我們的大腦由數十億個神經元(Neuron)組成,它們互相連接,傳遞電訊號。人工神經網路模仿了這個結構:

💡 神經網路的三層結構 輸入層:接收原始數據(像是你的眼睛接收光線) 隱藏層:處理和提取特徵(像大腦的思考過程) 輸出層:產生結果(像大腦做出的判斷)

「深度」學習的「深」,指的就是隱藏層很多層(有時多達數百層)。

⚡ 神經元怎麼運作?

每個人工神經元做的事情很簡單:

  1. 接收多個輸入信號
  2. 給每個信號一個「權重」(重要性)
  3. 把加權後的信號加總
  4. 通過一個「激活函數」決定是否要傳遞信號

🍕 比喻:決定午餐吃什麼 想像你在決定中午要不要吃披薩:

  • 「有多餓」→ 權重高(很重要)
  • 「離多遠」→ 權重中
  • 「價格如何」→ 權重低 這些因素加權後,超過某個門檻就會「激活」→ 決定去吃! 神經元就是用類似的邏輯在做數學運算。

📈 為什麼深度學習這麼強?

傳統機器學習需要人類手動設計特徵(還記得機器學習的特徵工程嗎?)。但深度學習可以自動學習特徵——第一層可能學到線條和邊緣,第二層學到形狀,更深的層學到複雜的概念。層數越多,能捕捉的抽象概念越複雜。

🧪小測驗

「深度」學習的「深」指的是什麼?


CNN — 讓 AI 看懂圖片

卷積神經網路(CNN, Convolutional Neural Network)是讓 AI 能「看見」和理解圖片的關鍵技術。

🖼️ 電腦怎麼「看」圖片?

對電腦來說,一張圖片就是一堆數字陣列——每個像素都有自己的數值(RGB 色彩值)。CNN 的任務就是從這些數字中找出有意義的模式。

💡 CNN 的核心:卷積 卷積就像用一個小小的「放大鏡」在圖片上滑動,每次只看一小塊區域,偵測特定的模式(比如邊線、角落、紋理)。多層卷積堆疊後,AI 就能從「線條」→「形狀」→「部件」→「物體」逐步認出整張圖的內容。

🔎 CNN 學到了什麼?

  • 第 1 層:邊緣、線條、色彩漸變
  • 第 2-3 層:角落、紋理、簡單形狀
  • 第 4-5 層:部件(輪子、眼睛、嘴巴)
  • 更深層:完整物體(車子、人臉、狗)

📱 CNN 的應用

  • 手機臉部辨識解鎖
  • 自動駕駛(辨識交通號誌、行人)
  • 醫學影像分析(X 光、CT 掃描)
  • IG/FB 的照片自動標記
  • Google 以圖搜圖
🧪小測驗

CNN 中「卷積」操作的作用是?


RNN — 讓 AI 理解序列

如果說 CNN 讓 AI 看懂圖片,那 RNN(Recurrent Neural Network, 循環神經網路)就是讓 AI 看懂有順序的東西

📝 為什麼需要 RNN?

很多數據是有「順序」的:

  • 文字:每個字的意義取決於前後文
  • 語音:聲音訊號隨時間變化
  • 股票:今天的價格跟昨天有關
  • 天氣:明天的天氣跟今天有關

普通的神經網路把每筆輸入當成獨立的,但 RNN 有「記憶」能力,能記住之前看過的東西。

💡 比喻:看小說 普通神經網路看文字就像隨機翻開小說的每一頁,每頁都獨立理解。RNN 就像從第一頁開始讀,記住前面的劇情,所以讀到「他」的時候知道指的是誰。

🔄 RNN 的運作方式

RNN 在處理序列時,每一步都會:

  1. 接收當前的輸入
  2. 結合上一步的「記憶」(隱藏狀態)
  3. 產生輸出,同時更新記憶傳給下一步

🧩 LSTM — 記憶力升級

基本版 RNN 的記憶力其實很差——序列太長就會「忘記」前面的。所以後來出現了 LSTM(Long Short-Term Memory),加入了「遺忘門」和「記憶門」,讓 AI 決定什麼該記、什麼該忘。

🎵 應用實例 Apple 的語音辨識(Siri)、音樂自動生成、機器翻譯(較早期版本)、股票走勢預測——都曾仰賴 RNN/LSTM 技術。不過…下一節你會看到一個更強大的替代者!

🧪小測驗

RNN 和普通神經網路最大的差異是什麼?


Transformer — 改變一切的架構

如果要選一個改變 AI 歷史的技術,那就是 TransformerChatGPTClaude、BERT、GPT-5、Gemini……目前幾乎所有最厲害的 AI 都建立在它之上。

📜 Attention Is All You Need

2017 年,Google 團隊發表了一篇名為「Attention Is All You Need」的論文,提出了 Transformer 架構。這篇論文徹底改變了自然語言處理(NLP)的發展方向。

💡 核心機制:注意力(Attention) Transformer 的核心是注意力機制。它讓模型在處理每個字的時候,能「看到」整個句子的所有字,並決定要對哪些字「多加注意」。

例如:在「那隻追著的尾巴跑」中,Transformer 能理解「牠」指的是「狗」,因為注意力機制讓「牠」跟「狗」之間建立了強連結。

🆚 Transformer vs RNN

  • RNN:一個字一個字地處理(像排隊),速度慢,長距離記憶差
  • Transformer:一次看全部(像拍團體照),可以平行處理,速度快很多

🌍 Transformer 的家族

  • GPT 系列(OpenAI):單向生成,擅長「接下來說什麼」→ ChatGPT
  • BERT(Google):雙向理解,擅長「這段話什麼意思」→ Google 搜尋
  • T5、PaLM、Gemini(Google):結合兩者優勢
  • Claude(Anthropic):強調安全和有用性 → Claude vs Gemini 比較
  • LLaMA(Meta):開源大語言模型

⚠️ 重要觀念 GPT 裡的 T 就是 Transformer!Generative Pre-trained Transformer —「基於 Transformer 架構的預訓練生成模型」。所以每次你用 ChatGPT,背後都是 Transformer 在工作。

🧪小測驗

Transformer 的核心機制叫什麼?


遷移學習與預訓練

訓練一個強大的深度學習模型需要海量的數據和算力。那如果每次要解決新問題都從頭訓練,成本也太高了吧?這就是「遷移學習」要解決的問題。

🏗️ 什麼是遷移學習?

遷移學習(Transfer Learning)就是把一個已經訓練好的模型的「知識」,轉移到新的任務上

💡 比喻 你已經會騎腳踏車了,現在要學騎機車。你不需要從「什麼是輪子」開始學——平衡感、方向控制這些技能可以直接遷移過來。你只需要學習新的部分(油門、離合器)就好。

遷移學習的模型也是這樣:一個在大量數據上「預訓練」好的模型已經學會了很多基礎知識,我們只需要在自己的數據上做少量「微調」即可。

📋 預訓練 + 微調的流程

  1. 預訓練(Pre-training):用超大量的通用數據訓練一個基礎模型(這步驟通常由大公司完成,成本數百萬美元)
  2. 微調(Fine-tuning:用你自己的少量特定數據,在預訓練模型上做調整(這步驟成本低很多)

🏥 實例 一個在數百萬張圖片上預訓練的 CNN 模型(如 ImageNet),已經學會辨識各種物體。醫院只需要用幾千張 X 光片對它做微調,就能做出一個很準確的肺炎偵測 AI——不需要從零開始。

🤖 大型語言模型也是遷移學習!

ChatGPT 的 GPT 系列就是遷移學習的經典案例:

  • 預訓練:讀完整個網際網路的文字(數兆個字),學會「語言」這件事
  • 微調:用人類回饋(RLHF)教它怎麼好好回答問題

正是「預訓練 + 微調」的模式,讓現代 AI 變得如此強大又容易客製化。

🧪小測驗

遷移學習的主要好處是什麼?


常見問題

深度學習和機器學習有什麼差別?
深度學習是機器學習的一個子集,使用多層神經網路來學習複雜的模式。如果說機器學習是「從資料學習」,深度學習就是「用很深的神經網路從資料學習」。
Transformer 是什麼?
Transformer 是 2017 年 Google 論文「Attention Is All You Need」提出的神經網路架構。它的核心是注意力機制,能讓模型同時看到整段文字的前後文關係。ChatGPT、BERT、GPT-5 等現代大型語言模型都建立在 Transformer 之上。
學深度學習需要 GPU 嗎?
理解概念完全不需要!但如果要自己訓練模型,確實需要 GPU 加速——深度學習的大量數學運算在 GPU 上會快幾十倍。不過現在有很多雲端服務(Google Colab、AWS)提供免費或低成本的 GPU。

📚 延伸閱讀