回到頂部
LM Studio 本機 API 伺服器教學示意圖

LM Studio 本機 API 教學:怎麼把電腦變成私有 AI 伺服器?

LM Studio 本機 API 教學,整理離線聊天、文件 RAG、OpenAI 相容端點、localhost 伺服器與區網分享設定,適合想在 Windows 或 Mac 跑私有 AI 的讀者。

搜尋「LM Studio 本機 API」、「LM Studio server」、「LM Studio RAG」的人,通常不是只想看工具介紹,而是已經有一個很具體的問題:我能不能不用雲端模型,把公司文件、程式碼或個人資料留在自己的電腦上?

答案是可以,但要先分清楚三件事:

需求LM Studio 適合度注意事項
桌面聊天下載模型後即可離線使用
文件問答中高短文件可直接放進上下文,長文件會走 RAG
本機 API適合開給程式、IDE 或自動化工具
多人共用可開到區網,但需要安全設定
大規模團隊治理中低可能要改用 Open WebUI 或企業級部署

LM Studio 是什麼?

LM Studio 是本機 LLM 桌面工具。你可以在它裡面下載模型、開聊天視窗、把文件丟進去問答,也可以啟動一個本機伺服器,讓其他工具用 OpenAI 相容端點呼叫你的本機模型。

官方文件把「不需要網路」與「需要網路」分得很清楚:下載好模型後,使用已下載模型聊天、和文件對話、啟動本機伺服器都可以離線;但搜尋模型、下載新模型、下載 runtime、檢查更新仍需要連線。

這代表 LM Studio 的核心價值不是「永遠不連網」,而是「推論與文件處理可以留在本機」。

什麼人最適合用 LM Studio?

1.想先玩本機模型,但不想碰太多命令列

如果你覺得 Ollama 很乾淨,但 ollama run、模型名稱、量化版本、port 設定都讓人頭大,LM Studio 會比較像一般桌面軟體。

你可以先從模型搜尋、下載、聊天開始,確認電腦跑得動之後,再開發者模式啟動 server。

2.想讓程式接本機模型

LM Studio 的重點長尾需求是「OpenAI compatible local server」。很多工具只要能改 base URL,就可以從雲端 API 改接本機模型。

常見場景:

  • 在測試環境用本機模型跑摘要。
  • 用 n8n 或自製腳本批次分類文件。
  • 讓支援 OpenAI 相容 API 的工具先接本機端點。
  • 在不能上傳資料的情境下做初步草稿或資料整理。

3.想用本機文件問答,但資料不想上雲端

LM Studio 官方文件說明,拖曳文件進 LM Studio 做文件聊天或 RAG 時,文件會留在本機處理。這對合約、會議紀錄、產品規格、內部 SOP 這類資料很重要。

但要記住一個現實:RAG 不是魔法。文件越長、格式越亂、問題越模糊,越容易查不到重點。

第一步:下載模型前先看硬體

LM Studio 能不能跑得順,主要看三件事:

條件影響
RAM模型能不能載入
VRAM 或 Apple Silicon 統一記憶體推論速度與可用模型大小
模型量化版本品質、速度、記憶體用量的取捨

給一般讀者的保守建議:

電腦建議模型方向
8GB RAM 筆電1B 到 3B 小模型,只做簡單問答
16GB RAM 筆電3B 到 7B 量化模型
32GB RAM 或 M 系列 Mac7B 到 14B,文件問答比較實用
NVIDIA 12GB VRAM 以上可嘗試較大的 7B、14B 或部分 MoE 量化模型

不要一開始就追最大模型。真正的工作流通常是「小模型做分類與整理,大模型做少量高價值推理」。

第二步:啟動 LM Studio 本機伺服器

LM Studio 的本機 API 常見預設 port 是 1234。實務上你會看到類似這樣的概念:

Base URL: http://localhost:1234/v1
API Key: lm-studio
Model: 你在 LM Studio 載入的模型

如果工具支援 OpenAI 相容 API,通常會有 base_urlAPI endpoint 欄位。把它從 OpenAI 官方端點改成 LM Studio 的 localhost,就能讓請求打到自己的電腦。

Python 概念範例

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",
)

response = client.chat.completions.create(
    model="local-model",
    messages=[
        {"role": "user", "content": "請用三點摘要這份會議紀錄。"}
    ],
)

print(response.choices[0].message.content)

實際模型名稱以 LM Studio server 畫面顯示為準。

第三步:把文件丟進 LM Studio 問答

LM Studio 支援把 .docx.pdf.txt 等文件附加到聊天。官方文件說明,如果文件短到可以放進模型上下文,就會直接放入;如果文件很長,系統會改用 RAG,從文件中取出相關片段再提供給模型。

比較穩的問法:

請根據我上傳的文件回答,不要使用文件外資訊。
請先列出你找到的相關段落,再回答:
1.合約終止條件是什麼?
2.付款期限是多少天?
3.有哪些需要人工確認的風險?

不穩的問法:

幫我看一下這份文件有沒有問題。

問題越具體,RAG 找到正確段落的機率越高。

什麼時候該開區網?

LM Studio 可以讓本機 server 不只綁定 localhost,也能開給同一個區網裡其他設備使用。官方文件提醒,只要不是綁定 127.0.0.1,就等於把服務暴露到 localhost 以外,建議啟用認證。

適合開區網的情境:

  • 一台高階桌機跑模型,筆電只負責操作。
  • 小型內部工具需要共用同一台模型機。
  • 家中或辦公室有多台裝置要測試本機 AI。

不建議的情境:

  • 公司網路權限不清楚。
  • 沒有 API key 或存取控制。
  • 模型會處理機密資料,但沒有記錄與稽核機制。

LM Studio、Ollama、Open WebUI 怎麼選?

工具最適合
LM Studio桌面使用者、本機 API 測試、文件問答入門
Ollama命令列、本機模型服務、開發者整合
Open WebUI多使用者介面、知識庫、權限、團隊入口
AnythingLLM私有文件庫、RAG 工作區、非工程使用者

如果你是一人使用,先 LM Studio 或 Ollama 就夠。如果你要讓多人共用文件庫,再考慮 Open WebUI 或 AnythingLLM。

常見錯誤

錯誤一:模型下載越大越好

大模型不一定比較適合你的電腦。只要開始換頁、卡住、回應很慢,工作流就會變得不可用。

錯誤二:把 RAG 當成全文閱讀

RAG 是檢索相關段落,不等於模型完整讀完每一頁。重要文件仍要要求模型引用段落、標示不確定處。

錯誤三:把本機等於絕對安全

本機推論降低了上傳雲端的風險,但如果你開了區網、用了第三方外掛、把資料同步到雲端硬碟,資料仍可能離開原本的安全邊界。

參考資料

№ · further reading

延伸閱讀