Ollama 本地 LLM 部署 2026:Windows、Mac 5 分鐘上手 + 顯存配置

Q: Ollama 速度太慢怎麼辦?

先檢查是不是誤用 CPU 推論(`ollama ps` 看模型載入位置)。確認用了 Q4 量化版,並關掉瀏覽器中佔顯存的分頁(尤其 YouTube 高解析度影片)。顯存低於 6GB 改用 1B-3B 的小模型,不要硬撐 8B 以上。

Q: 沒有獨顯的筆電可以跑嗎?

可以,但慢。CPU 推論速度通常是 GPU 的 1/10 以下。Mac 用戶即使是基礎 M1、M2 也能透過統一記憶體跑得不錯。Windows 純內顯只建議跑 1B 以下的蒸餾版做語法檢查、輕量摘要。

Q: 跟 Claude Code、ChatGPT 比起來,本地大語言模型差多少?

通用任務(寫信、整理筆記、翻譯)的差距越來越小,Llama 4、DeepSeek 等 2026 旗艦開源模型在多數場景已經 80-90% 接近 GPT-5。但複雜推理、多步驟代理、長上下文整合,雲端模型仍領先一個世代。**用法**:本地跑日常重複任務、雲端跑複雜決策。

Ollama 完整教學:5 分鐘在 Windows、Mac 部署本地大語言模型,含硬體建議、量化模型選擇、Open WebUI 介面、本地 RAG 知識庫整合。

發布：2026-02-11 | 更新：2026-05-14

中級 Ollama 本地LLM Open WebUI

為什麼要在本地跑大語言模型？

3 個情境會讓你想離開 ChatGPT、Claude 的雲端訂閱：

資料隱私——醫療紀錄、法律文件、半導體設計圖，你不會想丟到 OpenAI 或 Anthropic 的伺服器上做訓練樣本。本地推論完全不離機。
訂閱成本——年費 ChatGPT Plus 約台幣 8,000、Claude Pro 約 7,000，如果你開發產品或重度使用，本地部署一年攤提下來通常划算。
離線運作——出差、跨國旅行、網路不穩，本地模型不需要連線就能用。

Ollama 是把這 3 件事門檻拉到最低的工具。從 2023 到 2026，本地推論引擎從「只有工程師玩得起」變成「一個 GUI 安裝包搞定」。

Ollama 硬體建議（2026 年版）

等級	配置	預期吞吐量(Llama-3-8B Q4)
入門	RTX 4060 8GB、M2 16GB RAM	約 30-45 詞元/秒
進階	RTX 5070 12GB、M4 Pro 32GB RAM	約 80-100 詞元/秒
專業	RTX 5090 32GB、M4 Max 128GB RAM	可跑 70B 等級模型

Apple Silicon 的隱藏優勢是「統一記憶體架構」——M4 Pro 32GB 的 RAM 可以全部當顯存用，跑得動 30B 模型，這在傳統 PC 上需要 RTX 5090 才做得到。

CPU 推論在 2026 年仍不建議——速度慢到難以實用。最低底線是「有獨立 GPU 或 Apple Silicon」。

安裝步驟（5 分鐘）

下載：到 Ollama 官網點 Download,Windows 拿 .exe、Mac 拿 .zip
執行：雙擊安裝，程式自動偵測 GPU 驅動（CUDA 12.x 或 Metal）
驗證：打開終端機輸入 ollama run llama3 — 第一次會自動下載模型（約 4.7GB）

如果偵測不到 GPU:

Windows：更新 NVIDIA 驅動到 2025/12 以後版本，確認 BIOS 開了 Re-Size BAR Support
Mac：確認 macOS 在 Sequoia(15.x)以上

量化模型怎麼選？Q4、Q5、Q8 的取捨

量化是「把模型權重壓縮」的技術，類似 4K 影片壓成 1080p——畫質微降，檔案小一半以上、跑得動的硬體門檻大降。

實測對比（Llama-3-8B 在 RTX 5070 12GB）:

版本	顯存佔用	速度	精準度損耗
FP16（未量化）	15.5GB（會 OOM）	12 詞元/秒	基準
Q4_K_M（主流）	4.8GB	65 詞元/秒	< 1.5%
Q8_0（高品質）	8.5GB	35 詞元/秒	< 0.5%

Mason 的建議:

8-12GB 顯存：選 Q4_K_M（社群公認黃金標準）
24GB 以上、追求極致推理（寫程式、複雜決策）：選 Q8_0
內顯或小筆電：選 1B-3B 參數的「蒸餾版」模型

必學指令

ollama run llama3.3          # 直接跑,本地沒有會自動下載
ollama pull deepseek-v3      # 只下載不執行
ollama list                  # 看裝了哪些模型
ollama rm <模型名>            # 刪掉省空間

模型存哪裡也可以改（預設在 C 槽，動輒幾十 GB）:

# Windows:設環境變數 OLLAMA_MODELS 指向 D:\Models
# Mac:預設在 ~/.ollama,可用 symlink 改位置

加上 Open WebUI：打造本地版 ChatGPT 介面

純命令列對多數人來說太硬。Open WebUI 是社群最受歡迎的搭配方案，介面跟 ChatGPT 幾乎一樣，支援：

對話歷史分類存檔
多模型對比（同問題餵兩個模型看誰回得好）
文件上傳做 RAG
客製 system prompt（透過 Modelfile）

Docker 一行指令裝完：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/data --name open-webui \
  ghcr.io/open-webui/open-webui:main

開啟瀏覽器 localhost:3000，連線到本地 Ollama 就好。

Modelfile 範例：強制台灣繁中、特定人設

FROM llama3.3
PARAMETER temperature 0.7
SYSTEM """你是一位台灣資深 SEO 顧問,回覆用繁體中文,
多用在地化術語(行銷、流量),條列清晰。"""

進階：本地 RAG 知識庫

把公司內部文件變成 AI 可查的知識庫，不上雲。架構：

Embedding 模型（把文字轉成向量）：用 Ollama 拉 nomic-embed-text
向量資料庫：用 ChromaDB 或 Qdrant（本地版）
整合:Open WebUI 或自寫腳本串起來

實際應用例：

法律事務所：本地查所有過去合約
醫療診所：本地查健保條文 + 用藥指引
公司財務：本地查所有發票與報表

跟 Claude Code 或 ChatGPT 雲端方案比較，本地 RAG 唯一缺點是「模型不夠強」——但對「規則明確、檢索任務」的場景已經夠用。

💡 Mason 的判斷

用半年的觀察，Ollama 解決的是「裝起來能跑」這個基礎問題。真正的學習曲線在後面：

怎麼選模型——不是參數越大越好，要看你的硬體跟任務型態。Llama 4 適合通用文字、DeepSeek 適合程式碼、Gemma 適合輕量化
怎麼設提示——本地模型對提示工程的敏感度比 ChatGPT 高很多，提示沒寫好品質差距會放大
怎麼整合工作流——單純丟對話框沒意思，要接到既有工具(VS Code、Obsidian、Slack)才有產生力

如果你已經是 ChatGPT、Claude 重度使用者，本地部署是「降低訂閱依賴 + 處理敏感資料」的補充方案，不是替代方案。

❓ FAQ

Ollama 速度太慢怎麼辦？

先檢查是不是誤用 CPU 推論(ollama ps 看模型載入位置)。確認用了 Q4 量化版，並關掉瀏覽器中佔顯存的分頁（尤其 YouTube 高解析度影片）。顯存低於 6GB 改用 1B-3B 的小模型，不要硬撐 8B 以上。

沒有獨顯的筆電可以跑嗎？

可以，但慢。CPU 推論速度通常是 GPU 的 1/10 以下。Mac 用戶即使是基礎 M1、M2 也能透過統一記憶體跑得不錯。Windows 純內顯只建議跑 1B 以下的蒸餾版做語法檢查、輕量摘要。

跟 Claude Code、ChatGPT 比起來，本地大語言模型差多少？

通用任務（寫信、整理筆記、翻譯）的差距越來越小，Llama 4、DeepSeek 等 2026 旗艦開源模型在多數場景已經 80-90% 接近 GPT-5。但複雜推理、多步驟代理、長上下文整合，雲端模型仍領先一個世代。用法：本地跑日常重複任務、雲端跑複雜決策。

№ · further reading