神經網路基礎
深度學習(Deep Learning)是機器學習的一個分支,它使用一種叫「人工神經網路」的架構,靈感來自於人類大腦的神經元。
🧠 什麼是人工神經網路?
我們的大腦由數十億個神經元(Neuron)組成,它們互相連接,傳遞電訊號。人工神經網路模仿了這個結構:
💡 神經網路的三層結構 輸入層:接收原始數據(像是你的眼睛接收光線) 隱藏層:處理和提取特徵(像大腦的思考過程) 輸出層:產生結果(像大腦做出的判斷)
「深度」學習的「深」,指的就是隱藏層很多層(有時多達數百層)。
⚡ 神經元怎麼運作?
每個人工神經元做的事情很簡單:
- 接收多個輸入信號
- 給每個信號一個「權重」(重要性)
- 把加權後的信號加總
- 通過一個「激活函數」決定是否要傳遞信號
🍕 比喻:決定午餐吃什麼 想像你在決定中午要不要吃披薩:
- 「有多餓」→ 權重高(很重要)
- 「離多遠」→ 權重中
- 「價格如何」→ 權重低 這些因素加權後,超過某個門檻就會「激活」→ 決定去吃! 神經元就是用類似的邏輯在做數學運算。
📈 為什麼深度學習這麼強?
傳統機器學習需要人類手動設計特徵(還記得機器學習的特徵工程嗎?)。但深度學習可以自動學習特徵——第一層可能學到線條和邊緣,第二層學到形狀,更深的層學到複雜的概念。層數越多,能捕捉的抽象概念越複雜。
「深度」學習的「深」指的是什麼?
CNN — 讓 AI 看懂圖片
卷積神經網路(CNN, Convolutional Neural Network)是讓 AI 能「看見」和理解圖片的關鍵技術。
🖼️ 電腦怎麼「看」圖片?
對電腦來說,一張圖片就是一堆數字陣列——每個像素都有自己的數值(RGB 色彩值)。CNN 的任務就是從這些數字中找出有意義的模式。
💡 CNN 的核心:卷積 卷積就像用一個小小的「放大鏡」在圖片上滑動,每次只看一小塊區域,偵測特定的模式(比如邊線、角落、紋理)。多層卷積堆疊後,AI 就能從「線條」→「形狀」→「部件」→「物體」逐步認出整張圖的內容。
🔎 CNN 學到了什麼?
- 第 1 層:邊緣、線條、色彩漸變
- 第 2-3 層:角落、紋理、簡單形狀
- 第 4-5 層:部件(輪子、眼睛、嘴巴)
- 更深層:完整物體(車子、人臉、狗)
📱 CNN 的應用
- 手機臉部辨識解鎖
- 自動駕駛(辨識交通號誌、行人)
- 醫學影像分析(X 光、CT 掃描)
- IG/FB 的照片自動標記
- Google 以圖搜圖
CNN 中「卷積」操作的作用是?
RNN — 讓 AI 理解序列
如果說 CNN 讓 AI 看懂圖片,那 RNN(Recurrent Neural Network, 循環神經網路)就是讓 AI 看懂有順序的東西。
📝 為什麼需要 RNN?
很多數據是有「順序」的:
- 文字:每個字的意義取決於前後文
- 語音:聲音訊號隨時間變化
- 股票:今天的價格跟昨天有關
- 天氣:明天的天氣跟今天有關
普通的神經網路把每筆輸入當成獨立的,但 RNN 有「記憶」能力,能記住之前看過的東西。
💡 比喻:看小說 普通神經網路看文字就像隨機翻開小說的每一頁,每頁都獨立理解。RNN 就像從第一頁開始讀,記住前面的劇情,所以讀到「他」的時候知道指的是誰。
🔄 RNN 的運作方式
RNN 在處理序列時,每一步都會:
- 接收當前的輸入
- 結合上一步的「記憶」(隱藏狀態)
- 產生輸出,同時更新記憶傳給下一步
🧩 LSTM — 記憶力升級
基本版 RNN 的記憶力其實很差——序列太長就會「忘記」前面的。所以後來出現了 LSTM(Long Short-Term Memory),加入了「遺忘門」和「記憶門」,讓 AI 決定什麼該記、什麼該忘。
🎵 應用實例 Apple 的語音辨識(Siri)、音樂自動生成、機器翻譯(較早期版本)、股票走勢預測——都曾仰賴 RNN/LSTM 技術。不過…下一節你會看到一個更強大的替代者!
RNN 和普通神經網路最大的差異是什麼?
Transformer — 改變一切的架構
如果要選一個改變 AI 歷史的技術,那就是 Transformer。ChatGPT、Claude、BERT、GPT-5、Gemini……目前幾乎所有最厲害的 AI 都建立在它之上。
📜 Attention Is All You Need
2017 年,Google 團隊發表了一篇名為「Attention Is All You Need」的論文,提出了 Transformer 架構。這篇論文徹底改變了自然語言處理(NLP)的發展方向。
💡 核心機制:注意力(Attention) Transformer 的核心是注意力機制。它讓模型在處理每個字的時候,能「看到」整個句子的所有字,並決定要對哪些字「多加注意」。
例如:在「那隻狗追著牠的尾巴跑」中,Transformer 能理解「牠」指的是「狗」,因為注意力機制讓「牠」跟「狗」之間建立了強連結。
🆚 Transformer vs RNN
- RNN:一個字一個字地處理(像排隊),速度慢,長距離記憶差
- Transformer:一次看全部(像拍團體照),可以平行處理,速度快很多
🌍 Transformer 的家族
- GPT 系列(OpenAI):單向生成,擅長「接下來說什麼」→ ChatGPT
- BERT(Google):雙向理解,擅長「這段話什麼意思」→ Google 搜尋
- T5、PaLM、Gemini(Google):結合兩者優勢
- Claude(Anthropic):強調安全和有用性 → Claude vs Gemini 比較
- LLaMA(Meta):開源大語言模型
⚠️ 重要觀念 GPT 裡的 T 就是 Transformer!Generative Pre-trained Transformer —「基於 Transformer 架構的預訓練生成模型」。所以每次你用 ChatGPT,背後都是 Transformer 在工作。
Transformer 的核心機制叫什麼?
遷移學習與預訓練
訓練一個強大的深度學習模型需要海量的數據和算力。那如果每次要解決新問題都從頭訓練,成本也太高了吧?這就是「遷移學習」要解決的問題。
🏗️ 什麼是遷移學習?
遷移學習(Transfer Learning)就是把一個已經訓練好的模型的「知識」,轉移到新的任務上。
💡 比喻 你已經會騎腳踏車了,現在要學騎機車。你不需要從「什麼是輪子」開始學——平衡感、方向控制這些技能可以直接遷移過來。你只需要學習新的部分(油門、離合器)就好。
遷移學習的模型也是這樣:一個在大量數據上「預訓練」好的模型已經學會了很多基礎知識,我們只需要在自己的數據上做少量「微調」即可。
📋 預訓練 + 微調的流程
- 預訓練(Pre-training):用超大量的通用數據訓練一個基礎模型(這步驟通常由大公司完成,成本數百萬美元)
- 微調(Fine-tuning):用你自己的少量特定數據,在預訓練模型上做調整(這步驟成本低很多)
🏥 實例 一個在數百萬張圖片上預訓練的 CNN 模型(如 ImageNet),已經學會辨識各種物體。醫院只需要用幾千張 X 光片對它做微調,就能做出一個很準確的肺炎偵測 AI——不需要從零開始。
🤖 大型語言模型也是遷移學習!
ChatGPT 的 GPT 系列就是遷移學習的經典案例:
- 預訓練:讀完整個網際網路的文字(數兆個字),學會「語言」這件事
- 微調:用人類回饋(RLHF)教它怎麼好好回答問題
正是「預訓練 + 微調」的模式,讓現代 AI 變得如此強大又容易客製化。
遷移學習的主要好處是什麼?