Fine-tuning 模型微調：LoRA、QLoRA、PEFT 怎麼選？

Fine-tuning 的重點是穩定模型行為，不適合拿來硬灌最新資料。整理 Prompt、RAG、LoRA/QLoRA 與 Hugging Face PEFT 基準，幫你判斷何時微調、怎麼驗證、怎麼控成本。

發佈於： 2026-03-01 | 更新於： 2026-06-19

內容查核： 2026-06-19 價格查核： 2026-06-19 來源查核： 2026-06-19

如果你正在想「要不要把公司資料拿去 fine-tune」，先停在這個問題：你要改的是模型的行為，還是讓模型讀到新知識？前者可能值得微調；後者多半應該先做檢索增強生成（retrieval-augmented generation，RAG）。

Fine-tuning（模型微調）最適合處理穩定、可評估、會重複出現的輸出問題：客服語氣、固定格式、分類規則、程式碼風格、文件摘要規格。它會動到模型權重或新增轉接器（adapter），因此需要資料治理、評估集、成本預算與回滾策略。若只是想讓 AI 讀最新產品目錄、法規、內部文件，RAG 更新快、可追溯，也比較容易維護。

2026-06-18，Hugging Face 發布〈Beyond LoRA: Can you beat the most popular fine-tuning technique?〉，用 PEFT 函式庫的新基準提醒開發者：低秩調適（Low-Rank Adaptation，LoRA）很成熟、支援度高，但微調選型不該停在「大家都用 LoRA」。參數效率微調（parameter-efficient fine-tuning，PEFT）方法已經很多，真正的決策要把品質、顯存、速度、檢查點（checkpoint）大小、量化支援與部署環境一起看。

先做三個判斷：Prompt、RAG，還是 Fine-tuning？

你遇到的問題	先試的方案	進入微調的條件	避免踩雷
指令不穩、輸出格式常跑掉	先改提示工程（prompt engineering），加範例、schema、測試集	已經有固定格式需求，而且 prompt 仍需大量人工修正	不要用微調掩蓋模糊需求；先把理想輸出定義清楚
模型缺少公司文件、最新規範、價格表	先做 RAG	只有在模型需要學會固定寫法或分類邏輯時，再搭配微調	把大量文件壓進權重會更新慢，也難追溯來源
客服、法務、醫療或品牌內容需要固定語氣	Fine-tuning 可列入候選	有 200–500 筆以上高品質範例，且能人工審核輸出	敏感領域要保留人類審核，不要讓模型直接給最終建議
程式碼助手要遵守團隊 style、測試命名、review 規則	LoRA / QLoRA / API 微調可小規模試	有可重跑的 repository 任務、測試與 review checklist	不要只看一次 demo，要看 CI、人工 review 與回歸錯誤
想降低高階模型 API 成本	先量測任務與 token 結構	小模型經微調後能達到可接受品質，且推理成本真的下降	訓練、部署、監控、重試與人工審核都要算進總成本

最穩的路線通常是：先建立固定評估集，再用 prompt / RAG 做 baseline。只有當 baseline 明確卡住，且問題是「行為、格式、風格、分類、流程」而非「新知識」，微調才值得進下一步。

PEFT、LoRA、QLoRA 在解決什麼？

全量微調會更新模型大量權重，顯存與儲存成本高。PEFT 的思路是只訓練少量額外參數，讓大型預訓練模型適應下游任務。Hugging Face PEFT 文件把重點說得很清楚：參數效率微調方法只微調少量模型參數，可以明顯降低運算與儲存成本，並且與 Transformers、Diffusers、Accelerate 等生態整合。

常見方法可以這樣理解：

方法	適合情境	優點	主要限制
LoRA	文字模型、程式碼模型、工具支援要求高的專案	生態最成熟，教學多，vLLM 等部署工具支援度高	不一定是每個任務的最佳品質 / 顯存折衷
QLoRA	想在較小顯存上微調較大模型	量化（quantization）降低顯存門檻，常見於開放權重模型訓練	量化品質、訓練穩定度與推理框架要實測
LoRA 變體（DoRA、rs-LoRA、LoRA-FA 等）	已經決定走 LoRA，但想改善初始化、記憶體或訓練效率	保留 LoRA 生態優勢，調整特定瓶頸	需要理解每個變體改的是哪一段訓練假設
OFT / BOFT / IA3 / Lily / BEFT 等 PEFT 方法	有時間做小型比較，或任務不是典型文字 LoRA 場景	有機會在顯存、品質或 checkpoint 大小上更適合	下游（downstream）工具支援較少，部署前要確認可合併或可轉換
API fine-tuning	團隊不想管理 GPU、資料可上傳供應商	入口簡單，平台代管訓練與推理	單價、支援模型、資料政策與供應商鎖定要回官方文件核對

判斷時不要追求一個永遠最好的方法；請把微調問題拆成幾個可量測軸線：任務品質、VRAM、訓練時間、推理延遲、檢查點大小、轉接器是否可合併、量化模型能否支援、部署工具能否載入。

Hugging Face 這次補上的重點：不要只看 LoRA 名氣

Hugging Face 在 2026-06-18 的文章中給了三組很有用的背景數字：

在 20,834 張只提到一種 PEFT 技術的 Hugging Face model cards 樣本中，20,509 張提到 LoRA，約 98.4%。
另一組影像生成 checkpoint 樣本中，10,000 個 checkpoint 有 7,111 個是 LoRA；如果只看可辨識的 PEFT checkpoint，LoRA 約佔 95.0%。
以 GitHub 上 from peft import <PEFT CONFIG> 這類片段估算，LoRA 相關結果約 71.3%，LoHa 與 AdaLoRA 遠低於它。

這些數字說明 LoRA 已經成為預設語言。預設本身沒有錯，風險在於團隊很容易把「支援度最高」誤讀成「對我任務一定最適合」。

Hugging Face 也指出，單看論文聲稱誰 beat LoRA 並不可靠。不同論文常用不同基準（benchmark）、不同比較對象、不同超參數；有些替代方法看起來贏，可能只是 LoRA 沒有被好好調 learning rate。比較合理的做法，是在同一組基礎模型（base model）、資料集、訓練程式、硬體條件下重跑，並且同時看品質、VRAM、執行期、遺忘 / 漂移與檢查點大小。

基準數字怎麼讀：看帕累托前緣，不要只看第一名

Hugging Face 的 PEFT benchmark 把不同方法放在同一條件下比較。以 LLM math 任務為例，官方文章列出 LoRA 在測試準確率與記憶體使用上仍在帕累托前緣（Pareto frontier）：

方法 / 變體	官方文章中的觀察	對你的意義
rank stabilized LoRA	測試準確率 53.2%，peak VRAM 22.6GB	LoRA 調好後仍很強，適合作為 baseline
BEFT	測試準確率 32.9%，peak VRAM 20.2GB	如果記憶體比準確率更重要，可列入低資源比較
Lily	測試準確率 54.9%，peak VRAM 25.6GB	願意多付顯存，可能換到更高測試分數
normal LoRA	48.1%，22.5GB	「直接套預設 LoRA」可能落後於調整後的 LoRA 變體

在影像概念微調 benchmark，文章給出更直接的例子：LoRA 的 similarity score 是 0.697、VRAM 9.97GB；OFT 是 0.708、VRAM 9.01GB。也就是在該任務與該設定下，OFT 同時取得更高 similarity 與更低記憶體。

這些數字不能被搬去當成所有任務的結論。它們真正有用的地方，是示範比較方法：

先用 LoRA 或 QLoRA 建 baseline。
再挑 1–2 個替代 PEFT 方法小規模重跑。
同時看品質、VRAM、速度、checkpoint 大小與部署支援。
只把在你資料與你硬體上勝出的方案放進正式訓練。

實務情境：兩種團隊應該怎麼試？

情境一：客服團隊想固定品牌語氣

讀者狀況：客服回覆經常需要人工改語氣，知識庫已經用 RAG 接好，但回答口吻與格式不穩。
給 AI / 工具的任務：準備 300 筆人工審核過的對話範例，微調小模型或 API fine-tuning，讓它產出固定開頭、限制承諾語、補上退換貨條件。
預期輸出：更穩定的客服草稿，最終寄出前仍由客服或主管確認。
怎麼驗證：用 80–100 筆未出現在訓練集的測試對話，讓客服主管盲測語氣、正確性、需要修改的比例。
風險與不適合：若產品政策每週變動，政策內容要留在 RAG；微調只處理語氣與格式。

情境二：工程團隊想讓 coding assistant 遵守內部風格

讀者狀況：AI 經常寫出能跑但不符合 repository style 的 PR，例如測試命名、錯誤處理、logging、型別註記不一致。
給 AI / 工具的任務：蒐集已接受的 PR diff、review comment 與修正後版本，建立「輸入 issue / 既有 code → 輸出修正 patch」資料集。
預期輸出：更接近團隊慣例的 patch 草稿，搭配 CI 與人類 review。
怎麼驗證：用真實 repository 任務跑 30–50 題，記錄測試通過率、review 修改輪次、lint 失敗率與人工修正時間。
風險與不適合：如果問題是模型沒讀到正確檔案，先改善檢索、context packing 或 agent workflow；微調不會自動解決上下文選錯。

7 天驗證流程：先小規模比較，再決定投入

這份流程需要搭配LLM 評估觀念：測試集要固定、人工抽查要留紀錄，模型分數與真實工作流都要看。

天數	任務	產出
Day 1	定義任務與失敗條件	10–20 個成功 / 失敗例、不可接受風險、人工審核規則
Day 2	建 baseline	Prompt、RAG 或既有模型表現；至少 50 筆測試集
Day 3	準備訓練資料	去重、清理矛盾答案、切出 train / validation / test
Day 4	跑 LoRA / QLoRA 或 API fine-tuning	第一版 adapter 或平台微調模型
Day 5	加一個替代 PEFT 方法或 LoRA 變體	例如 OFT、IA3、rs-LoRA、LoRA-FA；只挑和任務相關者
Day 6	比較品質、VRAM、速度、部署限制	表格化記錄，不只看一個 accuracy 或 similarity 分數
Day 7	做上線判斷	是否繼續擴大資料、改回 RAG / prompt、或放進受控灰度流程

若 Day 2 的 prompt / RAG baseline 已經達標，微調專案可以暫停。省下來的時間應該拿去補評估、資料品質與產品流程；為了「有微調」繼續訓練，通常會增加維護負擔。

部署前檢查：LoRA 支援度仍是現實優勢

Hugging Face 文章提醒一個很實際的限制：許多下游工具對非 LoRA 轉接器的支援沒有那麼完整。例如文章提到 vLLM 只能載入 LoRA checkpoints。PEFT 現在支援把部分非 LoRA 轉接器轉成 LoRA，官方也用 GraLoRA 轉換案例展示轉換後結果相近，但轉換支援還沒有涵蓋所有方法。

所以選型時要問：

你的推理框架支援這個 adapter 嗎？例如 vLLM、llama.cpp、Ollama、Transformers、TGI 或自家服務。若你還在比較本機與雲端部署，可先看開源 LLM 與本地端 LLM的成本與隱私取捨。
adapter 能不能 merge 回 base model？不能 merge 的方法可能增加 runtime 管理成本。
量化 base model 能不能訓練？Hugging Face 明說不是所有 PEFT 方法都支援 quantized base models。
你的任務在意的是輸出品質、VRAM、延遲、checkpoint size，還是多個客製模型共用同一個 base model？
法務與資安能不能接受資料進入 API fine-tuning 平台，或必須在自家 / 雲端隔離環境訓練？

LoRA 仍然是很好的起點，尤其當你需要快速部署、需要 vLLM 支援，或團隊不想維護冷門 adapter。只是當任務已經證明有商業價值，花一天重跑 1–2 個替代 PEFT 方法，常比盲目堆更多訓練資料更有價值。

成本怎麼估：不要只看訓練費

微調成本至少分成五層：

資料成本：收集、標注、去重、人工審核、清除個資與敏感資料。
訓練成本：API fine-tuning 單價、雲 GPU / NPU 時租、本地硬體折舊、重跑次數。
推理成本：微調後模型的每 token 價格、adapter 載入策略、batching、cache 與延遲。
評估成本：固定測試集、人工抽查、CI / 回歸測試、紅隊測試。
維護成本：資料變更、模型版本更新、供應商 pricing 變動、回滾與監控。

OpenAI 的模型最佳化文件把評估（evals）、提示工程、微調放在同一個迭代流程；OpenAI 也要求使用者回價格頁估算微調模型的訓練與使用費用。這點很重要：不要把舊文章裡某個月的單價當成永遠有效的預算。正式上線前，請回 OpenAI、Hugging Face、雲 GPU 或你的模型供應商重新抓當日價格。

FAQ

Fine-tuning 可以把公司知識灌進模型嗎？

可以讓模型吸收一些固定模式，但不適合作為最新知識庫。產品目錄、合約條款、法規、內部 SOP 這類會更新的內容，應該優先放在 RAG 或文件檢索流程；微調用來穩定語氣、格式、分類與處理習慣。

LoRA 和 QLoRA 該怎麼選？

如果顯存足夠、部署工具支援成熟，先用 LoRA 建 baseline；如果你要在較小顯存上處理較大開放權重模型，再評估 QLoRA。兩者都需要實測品質、推理速度與量化後的錯誤型態。

看到新 PEFT 方法跑分贏 LoRA，就該換嗎？

先不要。確認 benchmark 是否和你的任務、base model、資料量、硬體與部署框架接近。Hugging Face 這次的價值在於提供同條件比較思路；是否換方法，仍要由你的評估集決定。

微調後多久要重訓？

看任務變動速度。品牌語氣、固定格式、分類規則可能半年到一年才需要重看；政策、價格、法規、產品資料更新快，應該讓 RAG 或資料庫負責，避免頻繁重訓。

官方與參考來源

結論：把微調當成可驗證工程，不要當成魔法開關

Fine-tuning 有價值，但它應該出現在清楚的工程流程裡：固定任務、固定測試集、可比較的 baseline、可重跑的訓練資料、明確的部署限制與成本表。Hugging Face 這次的 PEFT 基準提醒我們，LoRA 很常見，也很適合當起點；真正成熟的團隊會在重要任務上把 LoRA、QLoRA、LoRA 變體與少數替代 PEFT 方法放到同一張評估表，再讓數據決定要不要上線。

如果你今天只做一件事，先把「我要微調」改成「我要改善哪一種可量測輸出」。一旦問題被量化，Prompt、RAG、LoRA、QLoRA 或 API fine-tuning 的取捨就會清楚很多。

№ · further reading