回到頂部
Mason AI Lab tech article hero for LangSmith Engine 是什麼?把 production trace 變成 Agent 修正和 eval

LangSmith Engine 是什麼?把 production trace 變成 Agent 修正和 eval

LangChain 在 2026-05-13 推出 LangSmith Engine public beta。整理 failure clustering、root cause、PR、online evaluator 與 eval dataset。

LangChain 在 2026 年 5 月 13 日推出 LangSmith Engine public beta。它的定位,是把 production traces 裡的失敗模式整理成可處理的問題,再協助產生修正和 eval coverage。

這切中 agent 上線後最痛的問題:不是不知道有 trace,而是 trace 太多,看不出模式,也很難把失敗案例穩定轉成測試。

LangSmith Engine 做什麼?

Engine 會監看 LangSmith 裡的 traces、online evaluator 結果和使用者回饋。當它看到多個類似失敗時,不是每條 trace 都丟給你,而是把它們分群成 named issue。

每個 issue 可能包含:

  • 問題名稱。
  • 影響範圍。
  • 出現時間線。
  • 對應 traces。
  • 可能 root cause。
  • 修正建議。
  • 自動產生的 evaluator。
  • 可加入 offline eval dataset 的失敗案例。

如果 repo 已連接,Engine 還可以讀相關程式碼,草擬 prompt 或 code change,讓團隊 review。

為什麼 agent 需要這種工具?

傳統 observability 會告訴你 error rate、latency、uptime。Agent 則常常「技術上成功,但任務失敗」。

例如:

  • 客服 agent 回答了,但沒有解決取消訂閱問題。
  • Coding agent 跑完測試,但修錯 root cause。
  • Research agent 有引用來源,但引用不支持結論。
  • Workflow agent 呼叫工具成功,卻跳過必要審核。

這些問題不一定會觸發系統 alert,需要 evaluator、trace pattern 和使用者回饋一起看。

Engine 的三個輸出

輸出作用
Proposed PR修 prompt、tool description、code 或 workflow
Custom online evaluator讓同類問題再次出現時被偵測
Offline eval examples把 production failure 變成 regression tests

這個流程的價值,是讓每次 production failure 都能增加 eval coverage,而不是修完就忘。

對團隊流程的影響

原本 agent improvement loop 可能是:

  1. 人工看 trace。
  2. 猜測失敗原因。
  3. 改 prompt 或 tool schema。
  4. 手動整理測試案例。
  5. 跑 eval。
  6. 上線後再觀察。

Engine 嘗試把中間幾步加速:

  • 自動分群。
  • 自動找 pattern。
  • 自動提出 evaluator。
  • 自動抽 failing traces。
  • 自動草擬修正。

但最後仍然應該由人 review,尤其是會影響客戶、資料或付款流程的 agent。

導入前要注意

企業要先確認:

  • Trace 裡是否含敏感資料。
  • Repo access 權限如何控管。
  • 自動開 PR 是否需要 branch policy。
  • Evaluator 是否會造成錯誤阻擋。
  • 哪些 issue 可以自動修,哪些必須人工核准。
  • Failures 是否要依 severity 排序。

Engine 的價值在於縮短診斷時間,不是替代責任歸屬。

官方來源

結論

LangSmith Engine 代表 agent observability 正在從「看見發生什麼」進一步走向「整理問題、提出修正、補上 eval」。

對 production agent 團隊來說,這是重要方向。未來成熟的 agent 工程流程,會把 trace、issue、PR、evaluator 和 offline dataset 串成一個循環,讓每次失敗都變成下一次不再重犯的測試。

№ · further reading

延伸閱讀