回到頂部

Ollama 本地 LLM 部署 2026:Windows、Mac 5 分鐘上手 + 顯存配置

Ollama 完整教學:5 分鐘在 Windows、Mac 部署本地大語言模型,含硬體建議、量化模型選擇、Open WebUI 介面、本地 RAG 知識庫整合。

為什麼要在本地跑大語言模型?

3 個情境會讓你想離開 ChatGPT、Claude 的雲端訂閱:

  1. 資料隱私——醫療紀錄、法律文件、半導體設計圖,你不會想丟到 OpenAI 或 Anthropic 的伺服器上做訓練樣本。本地推論完全不離機。
  2. 訂閱成本——年費 ChatGPT Plus 約台幣 8,000、Claude Pro 約 7,000,如果你開發產品或重度使用,本地部署一年攤提下來通常划算。
  3. 離線運作——出差、跨國旅行、網路不穩,本地模型不需要連線就能用。

Ollama 是把這 3 件事門檻拉到最低的工具。從 2023 到 2026,本地推論引擎從「只有工程師玩得起」變成「一個 GUI 安裝包搞定」。

Ollama 硬體建議(2026 年版)

等級配置預期吞吐量(Llama-3-8B Q4)
入門RTX 4060 8GB、M2 16GB RAM約 30-45 詞元/秒
進階RTX 5070 12GB、M4 Pro 32GB RAM約 80-100 詞元/秒
專業RTX 5090 32GB、M4 Max 128GB RAM可跑 70B 等級模型

Apple Silicon 的隱藏優勢是「統一記憶體架構」——M4 Pro 32GB 的 RAM 可以全部當顯存用,跑得動 30B 模型,這在傳統 PC 上需要 RTX 5090 才做得到。

CPU 推論在 2026 年仍不建議——速度慢到難以實用。最低底線是「有獨立 GPU 或 Apple Silicon」。

安裝步驟(5 分鐘)

  1. 下載:到 Ollama 官網點 Download,Windows 拿 .exe、Mac 拿 .zip
  2. 執行:雙擊安裝,程式自動偵測 GPU 驅動(CUDA 12.x 或 Metal)
  3. 驗證:打開終端機輸入 ollama run llama3 — 第一次會自動下載模型(約 4.7GB)

如果偵測不到 GPU:

  • Windows:更新 NVIDIA 驅動到 2025/12 以後版本,確認 BIOS 開了 Re-Size BAR Support
  • Mac:確認 macOS 在 Sequoia(15.x)以上

量化模型怎麼選?Q4、Q5、Q8 的取捨

量化是「把模型權重壓縮」的技術,類似 4K 影片壓成 1080p——畫質微降,檔案小一半以上、跑得動的硬體門檻大降。

實測對比(Llama-3-8B 在 RTX 5070 12GB):

版本顯存佔用速度精準度損耗
FP16(未量化)15.5GB(會 OOM)12 詞元/秒基準
Q4_K_M(主流)4.8GB65 詞元/秒< 1.5%
Q8_0(高品質)8.5GB35 詞元/秒< 0.5%

Mason 的建議:

  • 8-12GB 顯存:選 Q4_K_M(社群公認黃金標準)
  • 24GB 以上、追求極致推理(寫程式、複雜決策):選 Q8_0
  • 內顯或小筆電:選 1B-3B 參數的「蒸餾版」模型

必學指令

ollama run llama3.3          # 直接跑,本地沒有會自動下載
ollama pull deepseek-v3      # 只下載不執行
ollama list                  # 看裝了哪些模型
ollama rm <模型>            # 刪掉省空間

模型存哪裡也可以改(預設在 C 槽,動輒幾十 GB):

# Windows:設環境變數 OLLAMA_MODELS 指向 D:\Models
# Mac:預設在 ~/.ollama,可用 symlink 改位置

加上 Open WebUI:打造本地版 ChatGPT 介面

純命令列對多數人來說太硬。Open WebUI 是社群最受歡迎的搭配方案,介面跟 ChatGPT 幾乎一樣,支援:

  • 對話歷史分類存檔
  • 多模型對比(同問題餵兩個模型看誰回得好)
  • 文件上傳做 RAG
  • 客製 system prompt(透過 Modelfile)

Docker 一行指令裝完:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/data --name open-webui \
  ghcr.io/open-webui/open-webui:main

開啟瀏覽器 localhost:3000,連線到本地 Ollama 就好。

Modelfile 範例:強制台灣繁中、特定人設

FROM llama3.3
PARAMETER temperature 0.7
SYSTEM """你是一位台灣資深 SEO 顧問,回覆用繁體中文,
多用在地化術語(行銷、流量),條列清晰。"""

進階:本地 RAG 知識庫

把公司內部文件變成 AI 可查的知識庫,不上雲。架構:

  1. Embedding 模型(把文字轉成向量):用 Ollama 拉 nomic-embed-text
  2. 向量資料庫:用 ChromaDB 或 Qdrant(本地版)
  3. 整合:Open WebUI 或自寫腳本串起來

實際應用例:

  • 法律事務所:本地查所有過去合約
  • 醫療診所:本地查健保條文 + 用藥指引
  • 公司財務:本地查所有發票與報表

Claude CodeChatGPT 雲端方案比較,本地 RAG 唯一缺點是「模型不夠強」——但對「規則明確、檢索任務」的場景已經夠用。

💡 Mason 的判斷

用半年的觀察,Ollama 解決的是「裝起來能跑」這個基礎問題。真正的學習曲線在後面:

  1. 怎麼選模型——不是參數越大越好,要看你的硬體跟任務型態。Llama 4 適合通用文字、DeepSeek 適合程式碼、Gemma 適合輕量化
  2. 怎麼設提示——本地模型對提示工程的敏感度比 ChatGPT 高很多,提示沒寫好品質差距會放大
  3. 怎麼整合工作流——單純丟對話框沒意思,要接到既有工具(VS Code、Obsidian、Slack)才有產生力

如果你已經是 ChatGPT、Claude 重度使用者,本地部署是「降低訂閱依賴 + 處理敏感資料」的補充方案,不是替代方案。

❓ FAQ

Ollama 速度太慢怎麼辦?

先檢查是不是誤用 CPU 推論(ollama ps 看模型載入位置)。確認用了 Q4 量化版,並關掉瀏覽器中佔顯存的分頁(尤其 YouTube 高解析度影片)。顯存低於 6GB 改用 1B-3B 的小模型,不要硬撐 8B 以上。

沒有獨顯的筆電可以跑嗎?

可以,但慢。CPU 推論速度通常是 GPU 的 1/10 以下。Mac 用戶即使是基礎 M1、M2 也能透過統一記憶體跑得不錯。Windows 純內顯只建議跑 1B 以下的蒸餾版做語法檢查、輕量摘要。

跟 Claude Code、ChatGPT 比起來,本地大語言模型差多少?

通用任務(寫信、整理筆記、翻譯)的差距越來越小,Llama 4、DeepSeek 等 2026 旗艦開源模型在多數場景已經 80-90% 接近 GPT-5。但複雜推理、多步驟代理、長上下文整合,雲端模型仍領先一個世代。用法:本地跑日常重複任務、雲端跑複雜決策。

№ · further reading

延伸閱讀