回到頂部
Mason AI Lab tech article hero for Amazon Bedrock AgentCore Browser OS Actions 是什麼?AI Agent 為什麼要能操作系統層 UI

Amazon Bedrock AgentCore Browser OS Actions 是什麼?AI Agent 為什麼要能操作系統層 UI

AWS 推出 AgentCore Browser OS Level Actions,讓 AI Agent 不只操作 DOM,也能處理原生對話框、快捷鍵、右鍵選單與完整桌面截圖。

AWS 在 2026 年 5 月介紹 Amazon Bedrock AgentCore Browser 的 OS Level Actions。

這個功能的重點是:AI Agent 不只看得到網頁 DOM,也能操作作業系統層級的畫面。

傳統 browser automation 常靠 Playwright 或 Chrome DevTools Protocol。這些工具很適合填表、點按鈕、抓 DOM 內容,但碰到瀏覽器外的原生 UI 就會卡住。

OS Level Actions 解決什麼問題?

很多真實瀏覽器流程不只發生在網頁裡。

例如:

  • 列印對話框。
  • 憑證選擇視窗。
  • 系統安全提示。
  • 右鍵選單。
  • 瀏覽器設定頁。
  • 鍵盤快捷鍵。
  • 原生檔案選擇器。

這些 UI 不是 DOM 的一部分,Playwright 不一定能直接操作。

AgentCore Browser OS Actions 讓 agent 可以透過滑鼠、鍵盤與完整桌面截圖處理這些情境。

支援哪些操作?

AWS 文件列出三類能力。

類型能力
Mouseclick、move、drag、scroll
Keyboardtype、press、shortcut
Visualfull desktop screenshot

這讓 agent 可以形成一個循環:

截圖 → 模型理解畫面 → 發出滑鼠或鍵盤 action → 再截圖 → 繼續判斷

這對 vision agent 很重要。過去 agent 可能看得到畫面上的原生對話框,但沒有辦法操作。現在它可以根據座標點擊、輸入或按快捷鍵。

它和 Playwright 差在哪?

面向Playwright/CDPAgentCore Browser OS Actions
操作層Web DOMOS desktop
強項網頁自動化、測試、資料擷取原生 UI、對話框、快捷鍵、完整畫面
風險主要在瀏覽器頁面內可能碰到更廣的系統操作
適合可預測 web workflow複雜視覺與混合 UI workflow

兩者不是互斥。更合理的做法是:DOM 能解的交給 Playwright,只有遇到原生 UI 才用 OS actions。

企業要注意什麼風險?

OS-level control 代表 agent 的操作範圍變大。

導入時至少要有:

  • 隔離瀏覽器 session。
  • 限制可連網站。
  • 完整截圖與 action log。
  • 高風險操作人工確認。
  • 禁止碰 production credential。
  • 設定 session timeout。
  • 失敗時能回收環境。

不要把這類 agent 放在真正員工桌面上自由操作。

結論

AgentCore Browser OS Actions 讓 browser agent 更接近真正的人類操作能力。

它補上了瀏覽器自動化長期的缺口,但也把安全邊界從網頁推到桌面。

對開發者來說,這是很有用的能力;對企業來說,這是必須被治理的能力。

參考來源

№ · further reading

延伸閱讀