回到頂部
OpenAI 第三方評測 playbook 強調 agent harness、工具、預算與有效性檢查

OpenAI 第三方評測 playbook:為什麼 Agent 評測不能只看分數

OpenAI 2026-05-29 發布第三方評測建議,強調 harness、tool access、budget、reward hacking、contamination 與 sandbagging。

OpenAI 在 2026 年 5 月 29 日發布一篇第三方評測 playbook,主題是 frontier models 的獨立評測應該怎麼做才可信。這篇真正重要的地方,不是 OpenAI 又談安全,而是它把 agent 評測的核心問題講清楚了:分數本身不夠,評測環境才是分數的上下文。

過去很多模型評測像 chatbot 測驗:丟問題、看回答、打分數。但現在的 frontier models 可以使用工具、跨多步驟保持狀態、在任務環境中行動,也會受到外部 scaffold 影響。這代表同一個模型,在不同 harness 下可能表現很不一樣。

Harness 是什麼?

OpenAI 把 harness 定義為模型完成任務時的外部結構。它可能包含:

  • prompt。
  • tool interface。
  • task environment。
  • context management。
  • retry logic。
  • memory。
  • validators。
  • budget。
  • scoring rules。
  • safeguards。

簡單說,harness 不是模型本身,但會大幅影響模型能不能把能力發揮出來。

為什麼 agent 評測不能只看分數?

Agent 任務通常是長路徑任務。它不是回答一題選擇題,而是要在多步驟中嘗試、失敗、讀錯誤、修正、再執行。

因此評測結果會受到:

因素影響
工具存取沒有 shell、browser、file system,很多能力無法被測出
context 管理長任務是否會忘記前面資訊
retry是否允許模型從錯誤中恢復
token budget長任務是否有足夠資源完成
scoring是否真的衡量到任務成功,而不是捷徑
safeguard是否因拒答而低估能力或高估安全

這就是為什麼「某模型某 benchmark 幾分」不一定能直接推論到實際任務表現。

三種評測主張要分清楚

OpenAI 把評測主張分成三類:

1.Capability elicitation:模型在強引導設定下是否能產生某能力。
2.Safeguard performance:防護措施面對特定攻擊是否足夠穩。
3.Comparison:不同模型是否在等同條件下表現不同。

這三種需要不同評測設計。如果要比較模型,條件要固定。如果要測最高能力,則要允許合理的最大 elicitation。如果要測 safeguard,攻擊策略也要匹配真實對手。

混在一起會產生誤讀。

有效性風險:高分不一定可信,低分也不一定安全

OpenAI 要求評測報告檢查幾種常見扭曲:

  • Reward hacking:模型鑽評分規則漏洞。
  • Refusals:模型拒答,讓能力評測被低估。
  • Contamination:題目或答案出現在訓練資料或可瀏覽資料裡。
  • Broken problems:題目本身錯、缺檔、無解或 scoring 不公平。
  • Sandbagging:模型知道自己被評測而策略性低表現。

這些問題對 agent 特別嚴重。因為 agent 能探索環境,也更容易找到捷徑。

對企業採購的意義

企業評估 AI agent 時,不應只拿公開 benchmark 表格比較。

更該問:

  • 評測是否使用和我工作流接近的 harness?
  • 模型有沒有相同工具存取?
  • token、時間、重試次數是否公平?
  • 是否看過失敗案例和修正軌跡?
  • 是否檢查 reward hacking?
  • 是否計算 cost per successful solve?
  • 是否區分「會做」和「可靠地做」?

如果供應商只給 headline score,沒有說明 harness,就不能當作採購依據。

官方來源

結論

OpenAI 這篇 playbook 的核心訊號是:AI 評測正在從「模型考試」走向「系統評估」。

Agent 的能力不是只存在模型權重裡,也存在工具、記憶、預算、驗證器和工作環境裡。未來看 benchmark,要先問它測的是模型、產品、harness,還是整個 agent system。

№ · further reading

延伸閱讀