回到頂部
GitHub 上 AI coding agent 採用率與 agentic PR 研究示意圖

GitHub 研究顯示 AI Coding Agent 已經不是小眾玩具:2026 年開發流程正在改寫

多篇 arXiv 研究追蹤 GitHub 上的 AI coding agent 使用痕跡,從採用率、PR 數量到任務接受率,說明 Codex、Claude Code、Cursor 類工具已進入真實軟體工程。

AI coding agent 的討論常常卡在兩種極端。

一邊說它只是 hype,demo 很漂亮,真實專案不可靠。
另一邊說它會快速取代工程師,從此軟體開發全面自動化。

GitHub 上的實證研究讓這件事變得比較冷靜:AI coding agent 既不是玩具,也不是魔法。它已經進入真實開發流程,但效果高度依賴任務類型、review 品質與導入方式。

這比單看 Codex、Claude Code、Cursor 的新功能更重要,因為它回答的是另一個問題:開發者到底有沒有真的把 agent 用在工作裡?


研究開始看「真實痕跡」,不是問卷感受

傳統 AI 寫程式討論常靠三種材料:

  • 廠商 demo
  • benchmark 排名
  • 開發者主觀心得

這些都有價值,但都不夠。Demo 可以挑任務,benchmark 通常太乾淨,主觀心得又很容易受新鮮感影響。

2026 年初出現一批更有意思的研究:直接看 GitHub 上留下的 agent 使用痕跡。

例如:

  • commit 是否標示 agent co-author
  • PR 是否由 agent 建立或提交
  • 任務類型是 feature、fix、docs 還是 test
  • PR 最後有沒有被接受
  • human reviewer 如何回應 agent 產出
  • agent 產出的 commit 是否比人類 commit 更大、更複雜

這種研究不完美,因為不是所有 agent 都會留下相同標記,也可能漏掉私有 repo。但它至少開始把討論從「感覺很強」推向「真實軟體工程裡發生了什麼」。


採用率已經不像小眾工具

論文 Agentic Much?Adoption of Coding Agents on GitHub 分析 129,134 個活躍 GitHub 專案,估計 coding agent 採用率落在 15.85% 到 22.60%

這個數字的重點不是精準到小數點,而是量級。

如果一個只流行幾個月的開發工具,已經能在大量開源專案中留下可觀測使用痕跡,那它就不是單純的嘗鮮現象。

研究也指出,採用不是只集中在玩具專案。它橫跨:

  • 不同成熟度的專案
  • 不同程式語言
  • 不同主題
  • 已建立的組織
  • feature 與 bug fix 類任務

這代表 AI coding agent 的滲透方式不是「少數人拿來玩」,而是逐步嵌進一般開發流程。


AIDev:93 萬個 agentic PR 代表什麼?

另一篇論文 AIDev:Studying AI Coding Agents on GitHub 建立了一個大型資料集,整理 932,791 個 Agentic-PR

這些 PR 來自五類常見 coding agent:

  • OpenAI Codex
  • GitHub Copilot
  • Devin
  • Cursor
  • Claude Code

資料集涵蓋 116,211 個 repo、72,189 名開發者,另外也整理一個更細緻的子集,保留 comments、reviews、commits 與 related issues。

這件事很重要,因為 AI coding agent 的研究正在從「工具評測」變成「軟體工程資料研究」。

未來比較有價值的問題不會只是:

  • 哪個模型 benchmark 高?
  • 哪個 agent 寫 code 較快?
  • 哪個工具最熱門?

而會是:

  • 哪種任務最適合交給 agent?
  • 哪種任務最容易產生不可靠 PR?
  • reviewer 需要花多少時間修 agent 的輸出?
  • agent 產出的 code 是否比較難維護?
  • agent 是否會放大既有測試不足與架構混亂?

這才是企業真的需要的答案。


沒有單一工具永遠最好,任務類型更關鍵

論文 Comparing AI Coding Agents:A Task-Stratified Analysis of Pull Request Acceptance 分析 7,156 個 PR,結論很值得注意:沒有單一 agent 在所有任務類型都最好。

研究指出,任務類型對 PR 接受率影響很大。文件任務接受率較高,新功能任務接受率較低;不同 agent 在不同任務上的表現也不同。

根據摘要:

發現意義
文件任務接受率達 82.1%agent 做 docs、說明、補文件通常比較穩
新功能任務接受率為 66.1%feature 牽涉產品判斷與架構,難度明顯更高
Codex 在多個任務類別保持高接受率通用性可能較強,但仍需看 repo 情境
Claude Code 在文件與 feature 任務表現突出深入互動式 coding workflow 可能有優勢
Cursor 在 fix 任務表現突出AI IDE 型態可能更貼近日常修 bug 工作

這對讀者很有用,因為它提醒一件事:不要用單一榜單決定工具。

企業應該把任務拆開看。
文件、測試、簡單 bug、重構、新 feature、安全修補,應該分別評估。


為什麼這些研究對一般開發者也重要?

如果你是個人開發者,這些研究不是要你讀統計模型,而是提醒你如何把 agent 用得更有效。

比較穩的任務包括:

  • 解釋陌生 codebase
  • 補文件與 README
  • 寫測試草稿
  • 修小型 bug
  • 重構重複邏輯
  • 產生 migration 或型別補強的初稿
  • 根據 failing test 找可能原因

比較不適合完全放手的任務包括:

  • 新增核心架構
  • 牽涉產品判斷的新 feature
  • 資安敏感改動
  • 金流、權限、認證流程
  • production config
  • 大範圍重構
  • 測試覆蓋不足的 legacy code

換句話說,AI coding agent 最適合當成會動手的 junior pair,不適合當成不用 review 的 senior engineer。


對企業來說,重點是建立任務分級

企業導入 AI coding agent 時,不應該只用「開或不開」來管理。

更好的做法是把任務分級:

任務級別可以怎麼用 agent
低風險文件、註解、測試草稿、code explanation,可廣泛開放
中風險小型 bug、型別修正、lint、低耦合重構,可要求 PR review
高風險auth、payment、infra、資料庫 migration,需要 approval gate
禁止自動化secrets、production access、刪除資料、法遵敏感流程,不讓 agent 自主操作

這比「全部禁用」或「全部開放」都合理。

AI coding agent 的價值會出現在大量中低風險任務裡。真正該被嚴格控管的是權限邊界,而不是把所有 AI 輔助都當成同一件事。


接下來讀者該追哪些問題?

這些研究也說明 AI coding 不是短期話題。它會繼續拆成工具選擇、工作流程、風險治理與職涯影響。

接下來需要持續追蹤的問題包括:

  • Codex 是什麼
  • Claude Code 怎麼用
  • Cursor vs Claude Code
  • AI coding agent 評估
  • coding agent 安全風險
  • AI 產生 PR 怎麼 review
  • 企業導入 AI coding agent checklist
  • AI coding agent 會不會取代工程師
  • GitHub Copilot、Codex、Claude Code 差異

這些不是單日新聞,而是開發者與企業會反覆遇到的長期問題。單看新功能發布不夠,還要看 agent 在真實 repo、真實 PR、真實 review 裡能不能穩定交付。


結論:AI coding agent 正在從「能寫」走向「能交付」

GitHub 上的研究讓 AI coding agent 的討論更務實。

不是所有任務都適合交給 agent。
不是所有 agent 都在同一類任務表現最好。
不是所有 AI 產出的 PR 都能降低 reviewer 負擔。

但有一件事已經很清楚:AI coding agent 已經進入真實軟體工程,不再只是 demo 與社群 hype。

2026 年真正要看的問題,不是「AI 會不會寫 code」,而是:

它能不能在真實 repo 裡,針對合適任務,產出可 review、可測試、可合併的變更。

這會是接下來 AI coding 需要持續追蹤的主線。


Sources

№ · further reading

延伸閱讀