LangChain 在 2026 年 5 月 13 日推出 LangSmith Engine public beta。它的定位,是把 production traces 裡的失敗模式整理成可處理的問題,再協助產生修正和 eval coverage。
這切中 agent 上線後最痛的問題:不是不知道有 trace,而是 trace 太多,看不出模式,也很難把失敗案例穩定轉成測試。
LangSmith Engine 做什麼?
Engine 會監看 LangSmith 裡的 traces、online evaluator 結果和使用者回饋。當它看到多個類似失敗時,不是每條 trace 都丟給你,而是把它們分群成 named issue。
每個 issue 可能包含:
- 問題名稱。
- 影響範圍。
- 出現時間線。
- 對應 traces。
- 可能 root cause。
- 修正建議。
- 自動產生的 evaluator。
- 可加入 offline eval dataset 的失敗案例。
如果 repo 已連接,Engine 還可以讀相關程式碼,草擬 prompt 或 code change,讓團隊 review。
為什麼 agent 需要這種工具?
傳統 observability 會告訴你 error rate、latency、uptime。Agent 則常常「技術上成功,但任務失敗」。
例如:
- 客服 agent 回答了,但沒有解決取消訂閱問題。
- Coding agent 跑完測試,但修錯 root cause。
- Research agent 有引用來源,但引用不支持結論。
- Workflow agent 呼叫工具成功,卻跳過必要審核。
這些問題不一定會觸發系統 alert,需要 evaluator、trace pattern 和使用者回饋一起看。
Engine 的三個輸出
| 輸出 | 作用 |
|---|---|
| Proposed PR | 修 prompt、tool description、code 或 workflow |
| Custom online evaluator | 讓同類問題再次出現時被偵測 |
| Offline eval examples | 把 production failure 變成 regression tests |
這個流程的價值,是讓每次 production failure 都能增加 eval coverage,而不是修完就忘。
對團隊流程的影響
原本 agent improvement loop 可能是:
- 人工看 trace。
- 猜測失敗原因。
- 改 prompt 或 tool schema。
- 手動整理測試案例。
- 跑 eval。
- 上線後再觀察。
Engine 嘗試把中間幾步加速:
- 自動分群。
- 自動找 pattern。
- 自動提出 evaluator。
- 自動抽 failing traces。
- 自動草擬修正。
但最後仍然應該由人 review,尤其是會影響客戶、資料或付款流程的 agent。
導入前要注意
企業要先確認:
- Trace 裡是否含敏感資料。
- Repo access 權限如何控管。
- 自動開 PR 是否需要 branch policy。
- Evaluator 是否會造成錯誤阻擋。
- 哪些 issue 可以自動修,哪些必須人工核准。
- Failures 是否要依 severity 排序。
Engine 的價值在於縮短診斷時間,不是替代責任歸屬。
官方來源
結論
LangSmith Engine 代表 agent observability 正在從「看見發生什麼」進一步走向「整理問題、提出修正、補上 eval」。
對 production agent 團隊來說,這是重要方向。未來成熟的 agent 工程流程,會把 trace、issue、PR、evaluator 和 offline dataset 串成一個循環,讓每次失敗都變成下一次不再重犯的測試。