AWS 在 2026 年 5 月 28 日發表一篇 deep agent evaluation 實作,示範如何用 LangSmith on AWS、pytest、Amazon Bedrock 和 text-to-SQL agent,建立從開發到 production monitoring 的評估流程。
這類文章很重要,因為 agent 真正上線後,最大問題不是「能不能回答一次」,而是「能不能穩定完成多步驟任務」。
為什麼 deep agent evaluation 比一般 LLM eval 難?
一般 LLM eval 常常是:
- 給模型一個輸入。
- 收到一個輸出。
- 判斷答案是否正確。
Agent eval 複雜很多。因為 agent 可能會:
- 規劃。
- 調用工具。
- 查資料。
- 寫入 state。
- 讀取 filesystem。
- 多輪互動。
- 中途修正。
- 產生 artifacts。
一個 agent 最後答對,不代表過程安全;最後答錯,也需要知道錯在哪一步。
需要評估哪些層面?
AWS 文章把 agent run 的評估拆成幾個面向:
| 面向 | 要看什麼 |
|---|---|
| Trajectory | agent 調用了哪些工具、順序是否合理、參數是否正確 |
| Final response | 最後回答是否正確、完整、格式清楚 |
| State | 中間產物、檔案、TODO、查詢結果是否正確 |
| Outcome | 任務是否真的完成,而不是只聲稱完成 |
| Reliability | 多次 trial 是否穩定 |
這對 agent 很關鍵。因為一個錯誤工具呼叫可能讓後面整串流程都失準。
三種 grader 怎麼選?
Code-based graders
適合可以用明確規則判斷的條件。
例如:
- 是否呼叫了指定工具。
- 是否禁止執行 DELETE 或 INSERT。
- 回答是否包含正確數字。
- 是否產生了某個檔案。
- tool call arguments 是否符合 schema。
優點是便宜、快、可重現。缺點是對開放式回答不夠彈性。
LLM-as-judge
適合比較開放的任務。
例如:
- 回答是否完整。
- 分析是否合理。
- 格式是否清楚。
- 是否符合 rubric。
- 是否把資料解釋成可用 insight。
缺點是成本較高,也可能不穩定。所以最好用 human calibration 校準評分規則。
Human graders
適合高風險、主觀、專業領域的評估。
例如法務、財務、醫療、資安、企業政策判斷。Human graders 不適合每次都跑,但很適合用來校準 LLM judge,避免自動評分逐漸漂移。
Deep agent eval 的幾種模式
1. Custom test logic per datapoint
不是每個題目都能用同一套評分規則。簡單題可以用字串或數字檢查,複雜分析題可能需要 LLM judge。
這代表 evaluation suite 要允許每個 datapoint 有不同 assertions。
2. Single-step evaluations
測 agent 在某個輸入後第一步是否正確。
例如 text-to-SQL agent 應該先查 schema,不應該直接猜 SQL。Single-step eval 很像 agent 的 unit test,便宜、快速、能抓早期 decision regressions。
3. Full-turn evaluations
讓 agent 從頭跑到尾,再同時檢查 trajectory 和 final answer。
這能看完整行為,但成本更高。
4. Multi-turn evaluations
測試多輪對話或上下文延續。例如使用者先問 top 5 artists,再追問第一名有多少 albums。若第一輪失敗,第二輪也會受到影響。
這類 eval 要設計 early failure 和 conditional logic。
5. Production monitoring
上線後要追蹤 real traffic:
- 哪些任務常失敗。
- 哪些工具呼叫常錯。
- 哪些 model version 表現退步。
- 哪些 prompt version 成本升高。
- 哪些 edge cases 應加入 regression suite。
Production monitoring 的資料會反過來讓 eval suite 成長。
適合用在哪些 agent?
特別適合:
- text-to-SQL agent。
- customer support agent。
- code agent。
- data analysis agent。
- workflow automation agent。
- compliance investigation agent。
- internal tool-use agent。
只要 agent 會多步驟調工具,就需要這種評估方式。
官方來源
- AWS Machine Learning Blog,Evaluating Deep Agents using LangSmith on AWS,2026-05-28。
結論
AWS 的 LangSmith deep agent evaluation 示範,重點不是某個單一工具,而是 agent 工程正在走向 software testing。
未來成熟的 agent 團隊會像測軟體一樣測 agent:有 unit tests、integration tests、regression tests、production traces、human calibration 和 failure analysis。只靠人工試幾題,已經不足以支撐 production agents。