回到頂部
Mason AI Lab tech article hero for Agent Development Lifecycle 是什麼?AI Agent 從 demo 到 production 的流程

Agent Development Lifecycle 是什麼?AI Agent 從 demo 到 production 的流程

LangChain 在 2026-05-09 提出 Agent Development Lifecycle。整理 Build、Test、Deploy、Monitor 與 governance 的實務重點。

LangChain 在 2026 年 5 月 9 日提出 Agent Development Lifecycle,也就是 ADLC。它把 AI agent 的開發流程整理成四個主要階段:Build、Test、Deploy、Monitor,外層再加上 Governance。

這個概念重要,是因為很多公司已經過了「做出 agent demo」的階段,真正問題變成:如何穩定地做第二個、第三個、第十個 agent,而且每次都能測試、上線、觀察、改善。

ADLC 的四個階段

階段要解決的問題
Buildagent 用什麼框架、工具、prompt、skills、MCP、context?
Test怎麼知道 agent 比上一版更好,而不是只是看起來更會說話?
Deployagent 在哪裡執行?怎麼保存狀態、等待審核、恢復中斷?
Monitor上線後怎麼看 tool calls、成本、失敗模式、使用者回饋?

ADLC 的核心不是流程圖,而是把 agent 變成一種可以被工程化管理的系統。

Build:先定義 agent 的工作邊界

Build 階段不是立刻寫 prompt,而是先釐清 agent 屬於哪一種系統。

常見選擇包括:

  • Agent framework:組合模型、工具、retrieval、structured output 和 agent loop。
  • Agent runtime:支援 state、branch、pause、resume、durable execution。
  • Agent harness:提供 prompts、skills、MCP servers、hooks、middleware、filesystem。
  • No-code 或 low-code agent builder:讓流程擁有者也能參與設計。

如果只是單回合查詢,簡單 tool calling 可能夠用。如果是多步驟、跨系統、會改資料的任務,就需要更明確的 runtime 和治理設計。

Test:不要靠感覺判斷 agent 好不好

Agent 測試的難點是:很多任務沒有唯一正解。

例如客服 agent 的回答可能有多種合格方式;coding agent 可能用不同路徑修同一個 bug;研究 agent 可能引用不同資料但都能形成合理結論。

因此測試通常需要混合幾種方法:

  • Ground truth eval:有明確答案的任務,例如分類、抽取欄位、更新指定資料。
  • Criteria-based eval:檢查是否有引用來源、是否遵守政策、是否有問清楚需求。
  • LLM-as-judge:評估語氣、完整度、任務完成度與 groundedness。
  • Code-based checks:檢查格式、schema、工具呼叫、權限與 forbidden pattern。
  • Multi-turn simulation:模擬多輪對話和實際任務流程。

測試集不需要第一天就完美,但要能抓住明顯退步。Production trace 之後也應該逐步回流,補成更強的 eval dataset。

Deploy:agent 不一定適合傳統 stateless server

很多 agent 不是單次 request-response,而是會跑很久、會暫停、會等人、會寫檔案、會恢復。

部署時要看:

  • Durable execution:中斷後能不能接續?
  • Human-in-the-loop:高風險操作前能不能停下來?
  • Sandbox:程式執行和檔案操作是否隔離?
  • Context hub:prompt、skills、流程知識是否能版本化?
  • Tool access:agent 可以代表誰呼叫哪些工具?
  • Audit trail:每個工具呼叫是否能追到 agent、使用者和授權條件?

如果 agent 會接觸財務、客戶、內部文件或 production 系統,這些部署條件不是可選項。

Monitor:agent 成功回應不等於任務成功

傳統系統監控常看 latency、error rate、uptime。Agent 還需要看更多東西。

例如:

  • 它是否呼叫了正確工具?
  • 它是否用了錯誤 context?
  • 它是否跳過必要批准?
  • 它是否完成了使用者真正目標?
  • 它是否花太多步驟才完成任務?
  • 它是否在特定情境下反覆失敗?

這就是 trace 的價值。Trace 不是只看 log,而是看 agent 的整條 trajectory:輸入、model calls、tool calls、retrieval、context、輸出和最後 action。

Governance:規模化之後一定會出現

當公司只有一個 agent 時,治理可以很輕。但當不同部門都開始建立 agent,就會出現幾個問題:

  • 成本誰負責?
  • 哪些 agent 正在運作?
  • 哪些工具被哪些 agent 使用?
  • 哪些 prompts、skills、policies 可以重用?
  • 哪些 agent 有權接觸敏感資料?
  • 發生錯誤時誰能追蹤和停用?

治理的目的不是讓團隊變慢,而是避免 agent 數量增加後變成不可見、不可控、不可比較。

實務導入清單

如果要把 ADLC 用進公司流程,可以先做一版簡化清單:

項目最低要求
Build spec說清楚 agent 任務、工具、資料來源、禁止行為
Eval dataset至少 20 到 50 個代表性任務與已知 edge cases
Deployment plan說明 runtime、sandbox、審核點與 rollback
Trace policy定義 trace 保存、遮罩和存取權限
Cost dashboard追 agent、team、model、tool call 的成本
Review cadence定期檢查失敗案例並回補 eval

這樣不會太重,但能避免 agent 只靠個人經驗維護。

官方來源

結論

ADLC 的價值,是把 AI agent 從「能跑一次」提升到「能重複開發、測試、部署、監控、治理」。

未來企業比較成熟的 agent 團隊,不會只看模型榜單或單一工具功能,而會建立一套自己的 agent development lifecycle:每次改 prompt、換模型、加工具,都能被測試、被觀察、被審核,最後回到下一輪改善。

№ · further reading

延伸閱讀