AWS 在 2026 年 5 月介紹 Amazon Bedrock AgentCore Browser 的 OS Level Actions。
這個功能的重點是:AI Agent 不只看得到網頁 DOM,也能操作作業系統層級的畫面。
傳統 browser automation 常靠 Playwright 或 Chrome DevTools Protocol。這些工具很適合填表、點按鈕、抓 DOM 內容,但碰到瀏覽器外的原生 UI 就會卡住。
OS Level Actions 解決什麼問題?
很多真實瀏覽器流程不只發生在網頁裡。
例如:
- 列印對話框。
- 憑證選擇視窗。
- 系統安全提示。
- 右鍵選單。
- 瀏覽器設定頁。
- 鍵盤快捷鍵。
- 原生檔案選擇器。
這些 UI 不是 DOM 的一部分,Playwright 不一定能直接操作。
AgentCore Browser OS Actions 讓 agent 可以透過滑鼠、鍵盤與完整桌面截圖處理這些情境。
支援哪些操作?
AWS 文件列出三類能力。
| 類型 | 能力 |
|---|---|
| Mouse | click、move、drag、scroll |
| Keyboard | type、press、shortcut |
| Visual | full desktop screenshot |
這讓 agent 可以形成一個循環:
截圖 → 模型理解畫面 → 發出滑鼠或鍵盤 action → 再截圖 → 繼續判斷
這對 vision agent 很重要。過去 agent 可能看得到畫面上的原生對話框,但沒有辦法操作。現在它可以根據座標點擊、輸入或按快捷鍵。
它和 Playwright 差在哪?
| 面向 | Playwright/CDP | AgentCore Browser OS Actions |
|---|---|---|
| 操作層 | Web DOM | OS desktop |
| 強項 | 網頁自動化、測試、資料擷取 | 原生 UI、對話框、快捷鍵、完整畫面 |
| 風險 | 主要在瀏覽器頁面內 | 可能碰到更廣的系統操作 |
| 適合 | 可預測 web workflow | 複雜視覺與混合 UI workflow |
兩者不是互斥。更合理的做法是:DOM 能解的交給 Playwright,只有遇到原生 UI 才用 OS actions。
企業要注意什麼風險?
OS-level control 代表 agent 的操作範圍變大。
導入時至少要有:
- 隔離瀏覽器 session。
- 限制可連網站。
- 完整截圖與 action log。
- 高風險操作人工確認。
- 禁止碰 production credential。
- 設定 session timeout。
- 失敗時能回收環境。
不要把這類 agent 放在真正員工桌面上自由操作。
結論
AgentCore Browser OS Actions 讓 browser agent 更接近真正的人類操作能力。
它補上了瀏覽器自動化長期的缺口,但也把安全邊界從網頁推到桌面。
對開發者來說,這是很有用的能力;對企業來說,這是必須被治理的能力。