Amazon Bedrock AgentCore Browser OS Actions 是什麼？AI Agent 為什麼要能操作系統層 UI

AWS 推出 AgentCore Browser OS Level Actions，讓 AI Agent 不只操作 DOM，也能處理原生對話框、快捷鍵、右鍵選單與完整桌面截圖。

發佈於： 2026-05-31 | 更新於： 2026-05-31

AWS 在 2026 年 5 月介紹 Amazon Bedrock AgentCore Browser 的 OS Level Actions。

這個功能的重點是：AI Agent 不只看得到網頁 DOM，也能操作作業系統層級的畫面。

傳統 browser automation 常靠 Playwright 或 Chrome DevTools Protocol。這些工具很適合填表、點按鈕、抓 DOM 內容，但碰到瀏覽器外的原生 UI 就會卡住。

OS Level Actions 解決什麼問題？

很多真實瀏覽器流程不只發生在網頁裡。

例如：

這些 UI 不是 DOM 的一部分，Playwright 不一定能直接操作。

AgentCore Browser OS Actions 讓 agent 可以透過滑鼠、鍵盤與完整桌面截圖處理這些情境。

AWS 文件列出三類能力。

這讓 agent 可以形成一個循環：

截圖 → 模型理解畫面 → 發出滑鼠或鍵盤 action → 再截圖 → 繼續判斷

這對 vision agent 很重要。過去 agent 可能看得到畫面上的原生對話框，但沒有辦法操作。現在它可以根據座標點擊、輸入或按快捷鍵。

面向	Playwright／CDP	AgentCore Browser OS Actions
操作層	Web DOM	OS desktop
強項	網頁自動化、測試、資料擷取	原生 UI、對話框、快捷鍵、完整畫面
風險	主要在瀏覽器頁面內	可能碰到更廣的系統操作
適合	可預測 web workflow	複雜視覺與混合 UI workflow

兩者不是互斥。更合理的做法是：DOM 能解的交給 Playwright，只有遇到原生 UI 才用 OS actions。

OS-level control 代表 agent 的操作範圍變大。

導入時至少要有：

不要把這類 agent 放在真正員工桌面上自由操作。

AgentCore Browser OS Actions 讓 browser agent 更接近真正的人類操作能力。

它補上了瀏覽器自動化長期的缺口，但也把安全邊界從網頁推到桌面。

對開發者來說，這是很有用的能力；對企業來說，這是必須被治理的能力。

№ · further reading