OpenAI 在 2026 年 5 月 29 日發布一篇第三方評測 playbook,主題是 frontier models 的獨立評測應該怎麼做才可信。這篇真正重要的地方,不是 OpenAI 又談安全,而是它把 agent 評測的核心問題講清楚了:分數本身不夠,評測環境才是分數的上下文。
過去很多模型評測像 chatbot 測驗:丟問題、看回答、打分數。但現在的 frontier models 可以使用工具、跨多步驟保持狀態、在任務環境中行動,也會受到外部 scaffold 影響。這代表同一個模型,在不同 harness 下可能表現很不一樣。
Harness 是什麼?
OpenAI 把 harness 定義為模型完成任務時的外部結構。它可能包含:
- prompt。
- tool interface。
- task environment。
- context management。
- retry logic。
- memory。
- validators。
- budget。
- scoring rules。
- safeguards。
簡單說,harness 不是模型本身,但會大幅影響模型能不能把能力發揮出來。
為什麼 agent 評測不能只看分數?
Agent 任務通常是長路徑任務。它不是回答一題選擇題,而是要在多步驟中嘗試、失敗、讀錯誤、修正、再執行。
因此評測結果會受到:
| 因素 | 影響 |
|---|---|
| 工具存取 | 沒有 shell、browser、file system,很多能力無法被測出 |
| context 管理 | 長任務是否會忘記前面資訊 |
| retry | 是否允許模型從錯誤中恢復 |
| token budget | 長任務是否有足夠資源完成 |
| scoring | 是否真的衡量到任務成功,而不是捷徑 |
| safeguard | 是否因拒答而低估能力或高估安全 |
這就是為什麼「某模型某 benchmark 幾分」不一定能直接推論到實際任務表現。
三種評測主張要分清楚
OpenAI 把評測主張分成三類:
1.Capability elicitation:模型在強引導設定下是否能產生某能力。
2.Safeguard performance:防護措施面對特定攻擊是否足夠穩。
3.Comparison:不同模型是否在等同條件下表現不同。
這三種需要不同評測設計。如果要比較模型,條件要固定。如果要測最高能力,則要允許合理的最大 elicitation。如果要測 safeguard,攻擊策略也要匹配真實對手。
混在一起會產生誤讀。
有效性風險:高分不一定可信,低分也不一定安全
OpenAI 要求評測報告檢查幾種常見扭曲:
- Reward hacking:模型鑽評分規則漏洞。
- Refusals:模型拒答,讓能力評測被低估。
- Contamination:題目或答案出現在訓練資料或可瀏覽資料裡。
- Broken problems:題目本身錯、缺檔、無解或 scoring 不公平。
- Sandbagging:模型知道自己被評測而策略性低表現。
這些問題對 agent 特別嚴重。因為 agent 能探索環境,也更容易找到捷徑。
對企業採購的意義
企業評估 AI agent 時,不應只拿公開 benchmark 表格比較。
更該問:
- 評測是否使用和我工作流接近的 harness?
- 模型有沒有相同工具存取?
- token、時間、重試次數是否公平?
- 是否看過失敗案例和修正軌跡?
- 是否檢查 reward hacking?
- 是否計算 cost per successful solve?
- 是否區分「會做」和「可靠地做」?
如果供應商只給 headline score,沒有說明 harness,就不能當作採購依據。
官方來源
結論
OpenAI 這篇 playbook 的核心訊號是:AI 評測正在從「模型考試」走向「系統評估」。
Agent 的能力不是只存在模型權重裡,也存在工具、記憶、預算、驗證器和工作環境裡。未來看 benchmark,要先問它測的是模型、產品、harness,還是整個 agent system。