回到頂部
Microsoft RAMPART 與 Clarity:AI Agent 安全開始進入 CI 測試

Microsoft RAMPART 與 Clarity:AI Agent 安全開始進入 CI 測試

Microsoft 5月20日開源 RAMPART 與 Clarity,把 agent red-team 發現轉成可重複跑的測試,並把設計假設寫進 repo。AI 安全正在變成工程流程。

5月20日,Microsoft 開源兩個 AI agent 安全工具:RAMPARTClarity

這件事比一般工具發布更重要。因為它代表 agent 安全開始從「安全團隊做一次 red team」走向「工程團隊每天在 CI 裡跑測試」。

過去很多 AI 安全流程像是上線前健檢:找紅隊測一輪、修掉幾個問題、寫一份報告,然後產品繼續迭代。問題是 agent 會一直變:新工具、新資料源、新 prompt、新 memory、新 workflow、新權限,任何一個改動都可能讓舊漏洞復活。

Microsoft 這次的訊號很清楚:

AI agent 安全不能是週期性審查,要變成持續工程 discipline。


RAMPART 和 Clarity 是什麼?

Microsoft 的兩個工具分工很明確。

工具作用放在流程哪裡
RAMPART把 adversarial scenario、red-team findings、prompt injection 與事故重現轉成可執行測試開發中、CI/CD、回歸測試
Clarity在寫程式前釐清需求、架構假設、失敗模式與決策紀錄設計階段、PR 討論、架構審查

RAMPART 偏「測」。
Clarity 偏「想清楚」。

兩者合在一起,就是把 AI 安全從一份報告變成 repo 裡的工程資產。


RAMPART:把 red-team 發現變成測試

RAMPART 建在 Microsoft 既有的 PyRIT 上,但定位不同。

PyRIT 比較像紅隊與安全研究者用來探索模型與系統弱點的工具;RAMPART 則更貼近工程師,讓團隊把攻擊情境寫成類似 integration test 的測試,放進 CI 裡持續跑。

Microsoft 的設計重點有幾個:

1.針對 cross-prompt injection

Agent 會讀 email、文件、ticket、網頁、CRM 記錄。這些外部內容可能藏有指令,間接操控 agent 行為。RAMPART 目前成熟覆蓋的重點就是這類跨 prompt 注入。

例如:

  • 客服 agent 讀到惡意客服信件後,把內部資料外送。
  • Coding agent 讀到惡意 issue 後,新增後門依賴。
  • 研究 agent 讀到被污染網頁後,覆寫原本任務。

這些都不是單純輸入框測試能抓到的。

2.支援機率式測試

LLM 行為不是 deterministic。一次測試安全,不代表十次都安全。

RAMPART 支援 statistical trials,讓團隊可以設定「同一場景跑多次,安全行為至少要達到某個比例」。這比單次 pass/fail 更接近 production agent 的現實。

3.把事故變成 regression test

如果某次 red team 發現 agent 會把 CRM 資料貼到外部 ticket,修完後不該只關 issue。更好的做法是把這個情境變成 RAMPART test,之後每次改 prompt、改工具、改資料源都跑一次,避免回歸。

這是 AI 安全工程化的關鍵。


Clarity:先檢查「為什麼要這樣設計」

RAMPART 處理已經有系統可測的問題,Clarity 則往更早一步走:在寫程式前,先檢查團隊是不是正在做錯東西。

Microsoft 對 Clarity 的描述很像「架構師+產品經理+安全工程師」的結構化對話工具。它會帶團隊釐清:

  • 問題到底是什麼?
  • 這個功能真的需要 agent 嗎?
  • Agent 應該有哪些工具?
  • 權限邊界在哪?
  • 什麼情境會失敗?
  • 人類審批在哪裡?
  • 哪些設計假設可能之後變舊?

Clarity 會把結果寫進 repo 裡的 .clarity-protocol/ 目錄,用 markdown 保存。這點很務實:它不是把安全討論鎖在某個 SaaS 儀表板,而是變成可以 commit、review、diff 的專案檔案。

這會讓 agent 安全討論更接近工程文化。


為什麼這剛好接上「agent 安全是系統問題」?

5月25日 CSO 另一篇整理提到,研究者主張 AI agent 安全要從模型問題轉成系統問題

RAMPART/Clarity 正好是這個觀念的實作版本。

如果模型本身不能被完全信任,那安全就要放到外層:

  • 工具呼叫要被觀察。
  • 資料流要被限制。
  • 權限要被拆小。
  • 失敗案例要能重現。
  • 設計假設要被記錄。
  • 修補後要能回歸測試。

RAMPART 處理「能不能重現與測」。
Clarity 處理「當初為什麼這樣設計」。

這比單純喊「加強 guardrails」有用,因為它把安全拉進工程流程。


對企業導入 agent 的影響

未來企業導入 AI agent,安全審查可能會多三個新要求。

1.Agent PR 要包含安全測試

如果一個 PR 新增 agent 工具或資料源,它不只要有功能測試,也要有 agent safety tests。例如:agent 讀到惡意文件時,不能外送內部資料;agent 遇到要求改權限的 ticket 時,不能直接執行。

2.Red-team findings 要轉成可跑測試

紅隊報告不能只是一份 PDF。每個可重現問題都應該被轉成測試,進入 CI,成為未來變更的防回歸網。

3.設計假設要能被 review

Agent 為什麼能讀 CRM?為什麼能寄信?為什麼能改 repo?為什麼能讀客戶個資?這些問題不能只存在會議記錄裡,要和程式碼一起被 review。

Clarity 的 .clarity-protocol/ 方向就是把這些假設版本化。


台灣團隊可以怎麼用這個概念?

不一定要馬上導入 RAMPART 或 Clarity 本身,但可以先採用它們背後的工作流。

最低限度可以做四件事:

1.每個 agent 功能都附一份 threat model。
2.每個外部資料源都設計 prompt injection 測試。
3.每次新增工具權限,都要新增一個失敗情境測試。
4.每次 red team 或事故,都轉成 regression test。

如果公司已經有 CI/CD,這套流程其實不陌生。只是測的不是傳統函式輸入輸出,而是 agent 在真實資料、工具與外部內容下的行為邊界。

這會是 2026 年企業 AI 導入的分水嶺:只會 demo 的 agent,和能進 production 的 agent,差別就在這裡。


這件事的真正訊號

Microsoft 開源 RAMPART 與 Clarity,說明大廠已經承認一件事:

AI safety 不能只靠安全團隊,也不能只靠模型團隊。它要變成軟體工程流程。

這也是 agent 時代的安全成熟度標準。未來問一家企業 agent 安不安全,不該只問「有沒有 red team」,而要問:

  • Red-team 發現有沒有進 CI?
  • Prompt injection 測試是否能重複跑?
  • 設計假設是否版本化?
  • 高風險工具新增時是否同步新增 safety test?
  • 修補後是否能證明問題沒有回歸?

能回答這些問題的 agent,才有資格進正式環境。


來源

№ · further reading

延伸閱讀