為什麼要在本地跑大語言模型?
3 個情境會讓你想離開 ChatGPT、Claude 的雲端訂閱:
- 資料隱私——醫療紀錄、法律文件、半導體設計圖,你不會想丟到 OpenAI 或 Anthropic 的伺服器上做訓練樣本。本地推論完全不離機。
- 訂閱成本——年費 ChatGPT Plus 約台幣 8,000、Claude Pro 約 7,000,如果你開發產品或重度使用,本地部署一年攤提下來通常划算。
- 離線運作——出差、跨國旅行、網路不穩,本地模型不需要連線就能用。
Ollama 是把這 3 件事門檻拉到最低的工具。從 2023 到 2026,本地推論引擎從「只有工程師玩得起」變成「一個 GUI 安裝包搞定」。
Ollama 硬體建議(2026 年版)
| 等級 | 配置 | 預期吞吐量(Llama-3-8B Q4) |
|---|---|---|
| 入門 | RTX 4060 8GB、M2 16GB RAM | 約 30-45 詞元/秒 |
| 進階 | RTX 5070 12GB、M4 Pro 32GB RAM | 約 80-100 詞元/秒 |
| 專業 | RTX 5090 32GB、M4 Max 128GB RAM | 可跑 70B 等級模型 |
Apple Silicon 的隱藏優勢是「統一記憶體架構」——M4 Pro 32GB 的 RAM 可以全部當顯存用,跑得動 30B 模型,這在傳統 PC 上需要 RTX 5090 才做得到。
CPU 推論在 2026 年仍不建議——速度慢到難以實用。最低底線是「有獨立 GPU 或 Apple Silicon」。
安裝步驟(5 分鐘)
- 下載:到 Ollama 官網點 Download,Windows 拿
.exe、Mac 拿.zip - 執行:雙擊安裝,程式自動偵測 GPU 驅動(CUDA 12.x 或 Metal)
- 驗證:打開終端機輸入
ollama run llama3— 第一次會自動下載模型(約 4.7GB)
如果偵測不到 GPU:
- Windows:更新 NVIDIA 驅動到 2025/12 以後版本,確認 BIOS 開了 Re-Size BAR Support
- Mac:確認 macOS 在 Sequoia(15.x)以上
量化模型怎麼選?Q4、Q5、Q8 的取捨
量化是「把模型權重壓縮」的技術,類似 4K 影片壓成 1080p——畫質微降,檔案小一半以上、跑得動的硬體門檻大降。
實測對比(Llama-3-8B 在 RTX 5070 12GB):
| 版本 | 顯存佔用 | 速度 | 精準度損耗 |
|---|---|---|---|
| FP16(未量化) | 15.5GB(會 OOM) | 12 詞元/秒 | 基準 |
| Q4_K_M(主流) | 4.8GB | 65 詞元/秒 | < 1.5% |
| Q8_0(高品質) | 8.5GB | 35 詞元/秒 | < 0.5% |
Mason 的建議:
- 8-12GB 顯存:選 Q4_K_M(社群公認黃金標準)
- 24GB 以上、追求極致推理(寫程式、複雜決策):選 Q8_0
- 內顯或小筆電:選 1B-3B 參數的「蒸餾版」模型
必學指令
ollama run llama3.3 # 直接跑,本地沒有會自動下載
ollama pull deepseek-v3 # 只下載不執行
ollama list # 看裝了哪些模型
ollama rm <模型名> # 刪掉省空間
模型存哪裡也可以改(預設在 C 槽,動輒幾十 GB):
# Windows:設環境變數 OLLAMA_MODELS 指向 D:\Models
# Mac:預設在 ~/.ollama,可用 symlink 改位置
加上 Open WebUI:打造本地版 ChatGPT 介面
純命令列對多數人來說太硬。Open WebUI 是社群最受歡迎的搭配方案,介面跟 ChatGPT 幾乎一樣,支援:
- 對話歷史分類存檔
- 多模型對比(同問題餵兩個模型看誰回得好)
- 文件上傳做 RAG
- 客製 system prompt(透過 Modelfile)
Docker 一行指令裝完:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/data --name open-webui \
ghcr.io/open-webui/open-webui:main
開啟瀏覽器 localhost:3000,連線到本地 Ollama 就好。
Modelfile 範例:強制台灣繁中、特定人設
FROM llama3.3
PARAMETER temperature 0.7
SYSTEM """你是一位台灣資深 SEO 顧問,回覆用繁體中文,
多用在地化術語(行銷、流量),條列清晰。"""
進階:本地 RAG 知識庫
把公司內部文件變成 AI 可查的知識庫,不上雲。架構:
- Embedding 模型(把文字轉成向量):用 Ollama 拉
nomic-embed-text - 向量資料庫:用 ChromaDB 或 Qdrant(本地版)
- 整合:Open WebUI 或自寫腳本串起來
實際應用例:
- 法律事務所:本地查所有過去合約
- 醫療診所:本地查健保條文 + 用藥指引
- 公司財務:本地查所有發票與報表
跟 Claude Code 或 ChatGPT 雲端方案比較,本地 RAG 唯一缺點是「模型不夠強」——但對「規則明確、檢索任務」的場景已經夠用。
💡 Mason 的判斷
用半年的觀察,Ollama 解決的是「裝起來能跑」這個基礎問題。真正的學習曲線在後面:
- 怎麼選模型——不是參數越大越好,要看你的硬體跟任務型態。Llama 4 適合通用文字、DeepSeek 適合程式碼、Gemma 適合輕量化
- 怎麼設提示——本地模型對提示工程的敏感度比 ChatGPT 高很多,提示沒寫好品質差距會放大
- 怎麼整合工作流——單純丟對話框沒意思,要接到既有工具(VS Code、Obsidian、Slack)才有產生力
如果你已經是 ChatGPT、Claude 重度使用者,本地部署是「降低訂閱依賴 + 處理敏感資料」的補充方案,不是替代方案。
❓ FAQ
Ollama 速度太慢怎麼辦?
先檢查是不是誤用 CPU 推論(ollama ps 看模型載入位置)。確認用了 Q4 量化版,並關掉瀏覽器中佔顯存的分頁(尤其 YouTube 高解析度影片)。顯存低於 6GB 改用 1B-3B 的小模型,不要硬撐 8B 以上。
沒有獨顯的筆電可以跑嗎?
可以,但慢。CPU 推論速度通常是 GPU 的 1/10 以下。Mac 用戶即使是基礎 M1、M2 也能透過統一記憶體跑得不錯。Windows 純內顯只建議跑 1B 以下的蒸餾版做語法檢查、輕量摘要。
跟 Claude Code、ChatGPT 比起來,本地大語言模型差多少?
通用任務(寫信、整理筆記、翻譯)的差距越來越小,Llama 4、DeepSeek 等 2026 旗艦開源模型在多數場景已經 80-90% 接近 GPT-5。但複雜推理、多步驟代理、長上下文整合,雲端模型仍領先一個世代。用法:本地跑日常重複任務、雲端跑複雜決策。