回到頂部
GPT-Rosalind 生科 AI 評估艙把 DNA、分子、實驗孔盤、評分規準檢查與可信存取邊界放進同一個受控研究證據庫

GPT-Rosalind 與 LifeSciBench:生科 AI 要看懂研究證據

OpenAI 公布 LifeSciBench 與 AI 化學家實驗,讓 GPT-Rosalind 的焦點回到研究證據、實驗驗證、可信存取與安全邊界。

內容查核: 來源查核:

OpenAI 近期把 GPT-Rosalind 往兩個方向推進:一邊用 LifeSciBench 量測生命科學研究任務,一邊把模型接到高通量實驗室,測試它能否提出可被化學家驗證的實驗假說。對生技公司、醫療研究團隊與 AI 治理負責人來說,這比單純爭論「封閉或開放」更值得看。

如果你正在評估生科 AI,先把問題拆開:模型是否能讀懂論文、圖表、序列與實驗資料?它提出的判斷能不能被評分規準(rubric)、專家與實驗重跑檢查?若能力涉及藥物研發、生物安全或雙重用途風險,誰能使用、誰負責審查、哪些結果不能自動放進正式研究流程?

這次更新改變了什麼?

OpenAI 這波訊號有三層。

層級官方公開的重點讀者要怎麼判斷
GPT-Rosalind 能力更新OpenAI 說新版 GPT-Rosalind 結合 GPT-5.5 的代理式寫程式與工具使用能力,並強化藥物化學、基因體、定量生物與濕實驗支援。看它能否處理真實研究任務、工具產物與專家審查,不要只看行銷名稱。
LifeSciBench750 個專家任務、1,062 個附件、19,020 條評分規準(rubric criteria),用來評估生命科學研究工作流。把通過率、部分得分、附件弱項與任務類型分開看。
AI 化學家實驗GPT-5.4 搭配 Molecule.one 的 Maria AI 與高通量實驗室,提出並測試 Chan–Lam coupling 改良方案。這是受控研究案例,需要看假說、實驗、驗證與限制,不能直接當成全自動製藥。

OpenAI 也說 GPT-Rosalind 透過可信存取部署結構(trusted-access deployment structure)提供給符合資格的組織,並擴大到全球 eligible organizations。這代表它仍然不是一般大眾可以直接下載權重或任意呼叫的模型。對研究機構來說,要追的是申請條件、資料保護、用途限制、可審計性與研究成果能否被外部驗證。

LifeSciBench 在測什麼?

LifeSciBench 想解決的問題是:生命科學研究很少像單題考試。研究者常要讀不完整的證據、處理互相衝突的結果、設計實驗、排除實驗測定(assay)限制、評估轉譯風險,再決定下一步。

OpenAI 將任務整理成七類常見工作流:證據處理、分析、設計與最佳化、科學推理、驗證與操作、轉譯、科學溝通。每個任務像是科學家交給合作夥伴的請求:有科學題目(prompt)、脈絡與附件,回答則用專家撰寫的評分規準評分。

幾個設計細節值得注意:

  • 79% 任務需要多步推理或決策,平均每題約四個步驟。
  • 1,062 個任務附件包含圖、PDF、表格、序列檔、結構或化學檔案與網頁引用。
  • 53% 任務要求模型解讀或整合至少一個研究附件(artifact)。
  • 173 位任務作者具備博士層級訓練與生技或製藥產業經驗。
  • 453 位未參與出題的審查者(reviewer)做獨立審查;OpenAI 說各項審查同意率都超過 96%。

這種設計會把「答案對不對」以外的細節也放進評分。一個模型可能抓到大方向,卻漏掉關鍵實驗測定限制、臨床轉譯風險或實驗設計缺口;LifeSciBench 的評分規準會把這些細節拆成可評分項目。

分數怎麼讀:進步明顯,弱點也很清楚

OpenAI 公布的結果顯示,GPT-Rosalind 在 LifeSciBench 上比 GPT-5.5 進步,但整體能力還沒有接近「可以直接交付研究決策」的程度。

指標或任務類型OpenAI 公布的結果對研究團隊的意思
LifeSciBench 完整通過率(exact pass rate)GPT-Rosalind 36.1%,GPT-5.5 25.7%。有進步,但多數任務仍未完整通過;不能只看提升幅度。
科學溝通(Scientific Communication)GPT-Rosalind 71.1%,GPT-5.5 56.3%,但類別樣本 n=9,需保守解讀。模型較擅長整理證據與產出專家可讀說明。
轉譯(Translation)GPT-Rosalind 57.7%,GPT-5.5 36.8%。從前臨床證據連到臨床意涵的判斷在改善。
專家可用/可行動輸出GPT-Rosalind 44.7%,GPT-5.5 29.1%。可用性提升,但仍需要科學家檢查下一步是否合理。
不確定性與限制處理GPT-Rosalind 44.8%,GPT-5.5 29.3%。模型較能補限制與 caveat,這對高風險研究很重要。
附件密集任務(artifact-heavy)GPT-Rosalind 從純文字任務 45.1% 降到含附件或 URL 的 28.1%。圖表、序列、結構檔與大型附件仍是明顯瓶頸。
數值、序列、結構、construct 輸出GPT-Rosalind 在 numeric tasks 14.8%,sequence/structure outputs 24.0%,construct-generation 27.3%。對需要精確輸出的任務,不能把模型回答直接交給實驗或合成流程。

最實用的讀法是:GPT-Rosalind 比一般模型更接近研究助理,但它的強項偏向證據整理、溝通、轉譯判斷與部分研究推理;當任務需要精確數值、序列、結構或複雜附件抽取時,仍要有工具驗證、專家審查與重跑機制。

如果你正在建立自己的模型驗收流程,可以把這篇和 Agent 評測不能只看分數 放在一起看:前者處理生命科學任務,後者提醒工具使用、成本、trace 與測試框架也會改變結果。

AI 化學家實驗說明了哪一段能力?

同週另一個 OpenAI 來源把評估從基準測試推到實驗室。OpenAI 與 Molecule.one 合作,把 GPT-5.4 接到 Maria:一套能設計、執行、分析高通量化學實驗的代理式化學 AI(agentic chemistry AI)與實驗室系統。

這個研究的目標是改善一類藥物化學常見反應。最後最有前景的 proposal OAI-M1-03 聚焦 primary sulfonamides 的 Chan–Lam coupling。Chan–Lam coupling 用來形成碳氮鍵,對藥物化學有用;primary sulfonamides 和 boronic acids 的這類反應過去常有低收率問題。

OpenAI 公布的結果包括:

  • Maria Lab 在 OAI-M1-03 中跑了 10,080 個反應。
  • 在最佳化條件下,88% 的 boronic acids 與 83% 的 sulfonamides 測試組合收率改善。
  • 平均收率從 16.6% 提高到 25.2%。
  • 超過 30% 收率的反應比例從 15.6% 提高到 37.5%。
  • 人類化學家手動重跑 14 組代表性 substrate pairs,其中 11 組收率提高,8 組增加超過兩倍。

這些數字讓案例有研究意義:模型提出假說、設計實驗、讀取資料,再由人類化學家驗證其中一段結果。

限制也要同時放在第一層理解。OpenAI 自己稱它為近自主(near-autonomous),因為人類仍然負責 high-level steering、選出要測的 proposal、修正實驗計畫、協助實驗室操作,並獨立驗證結果。這項結果也尚未證明方法能推廣到所有 coupling reactions、substrate classes 或製造條件;下一步還需要更廣的 substrate scope、機理研究與獨立實驗室重現。

若你想把這類實驗放回產業脈絡,可再看 AI 製藥 2026:模型能加速假說與候選路徑,但臨床、法規、製程與商業化仍會決定最後價值。

研究機構應該怎麼用這些訊號?

如果你是生技公司、醫院研究中心、藥物研發團隊或政策單位,可以用下面這張表把評估拆成五層。

評估層先問什麼不該直接下的結論
基準測試LifeSciBench 任務是否接近你的研究流程?哪些類型通過率低?不要把 36.1% 通過率包裝成可獨立做研究。
附件能力模型能否處理你的 PDF、圖表、表格、序列、結構與實驗記錄?不要用文字任務表現推論它能讀懂所有實驗室附件。
工具與工作流是否能保留 provenance、版本、附件、分析 notebook、錯誤與審查紀錄?不要讓答案只停在聊天視窗裡。
濕實驗驗證模型提出的假說能否被小規模實驗、實驗台尺度(bench-scale)重跑或外部實驗室檢查?不要把高通量平台結果直接等同於可量產或臨床價值。
安全與存取是否需要可信存取(trusted access)、用途審核、雙重用途風險控管與資料隔離?不要把「能用」和「可以給任何人用」混在一起。

第一步可以從一段可驗證、可審查、低風險的研究流程開始:文獻證據整理、實驗設計初稿、實驗測定除錯(assay troubleshooting)、體學資料分析(omics)品質控管,或候選假說排序。每一步都要留下來源、研究附件、程式碼、評分規準或專家註記,方便回頭查錯。

Trusted access 的問題要問得更具體

GPT-Rosalind 的可信存取路線有合理風險考量,也會帶來分配與透明度問題。生命科學模型可能碰到雙重用途風險;把高能力生物工具無差別公開,確實可能增加危險使用門檻下降的疑慮。另一方面,如果只有少數大型機構能用到最好的工具,小型研究團隊、公共衛生單位與非核心市場也可能被排除。

比較有用的審查問題包括:

  1. 申請資格如何定義?是否納入研究目的、治理、安全與公共利益,而非只看公司規模?
  2. 使用者能否知道哪些資料會被保存、訓練、稽核或分享?
  3. 模型輸出如何限制高風險生物或化學用途?
  4. 外部研究者能否審查基準測試、系統行為(system behavior)或失敗案例?
  5. 學術、公衛與低資源研究團隊是否有透明申請管道?
  6. 若模型接入實驗室、序列分析或合成流程,人類審查點在哪裡?

如果重點是生物安全,可以延伸看 Rosalind Biodefense 與 Trusted Access;如果關心下游合成供應鏈風險,則可對照 AI DNA 合成篩查 的治理入口。

台灣與一般研究團隊的實務路線

台灣生技公司、醫院研究中心與大學實驗室未必能立刻取得 GPT-Rosalind。即使能取得,也不應把它當成單一替代方案。比較穩的路線是把能力拆成可替換元件。

  • 證據整理:用可引用、可追蹤的研究助理流程處理文獻、圖表與內部實驗紀錄。
  • 生物資訊分析:把 NGS、scRNA-seq、bulk RNA-seq 等流程放進可重跑 notebook 或 pipeline,不讓模型口頭改動結果。
  • 假說排序:讓模型提出候選,但用專家評分規準、資料庫、實驗成本與風險分級重排。
  • 濕實驗前檢查:要求每個 proposal 附上可驗證條件、反例、危險用途排除與停止條件。
  • 資料與法規:若涉及病患資料、基因資料、商業機密或跨境合作,先確定資料邊界與審查責任。

這樣做的好處是,即使模型供應商改變 access policy,團隊仍保有評估集、資料治理、實驗紀錄與審查流程。模型可以更換,研究責任不能外包。

讀完後可以做的三件事

  1. 把既有研究任務分成三類:文字證據整理、附件密集分析、實驗或合成決策。先從低風險、可重跑、可人工審查的任務開始。
  2. 建立自己的小型評分規準:不要等大型基準測試完全貼合你的領域。先挑 20–50 個真實任務,定義好答案、來源、限制、錯誤代價與審查者。
  3. 把存取政策寫進採購表:如果供應商提供生科 AI,要求說明可信存取、資料保存、工具權限、生物安全評估、事故回報與外部驗證方式。

這些動作比追逐單一模型名稱更能降低風險。LifeSciBench 和 AI 化學家實驗的共同訊號是:生科 AI 的價值要回到可檢查的研究工作流,不能停在模型宣傳。

FAQ

GPT-Rosalind 現在可以公開使用或下載嗎?

OpenAI 公開資訊顯示,GPT-Rosalind 透過可信存取部署結構提供給符合資格的組織,並擴大到全球 eligible organizations;它不是一般可下載權重或任意公開 API 的模型。研究團隊應確認申請資格、資料政策、用途限制與安全審查條件。

LifeSciBench 證明 GPT-Rosalind 可以取代生命科學研究員嗎?

沒有。LifeSciBench 顯示 GPT-Rosalind 在專家設計的生命科學任務上比 GPT-5.5 進步,但完整通過率仍是 36.1%,附件密集、數值、序列、結構與 construct 類任務仍有明顯弱點。它比較適合被視為可審查的研究助理,不能當成獨立研究負責人。

OpenAI 的 AI 化學家實驗代表製藥快要全自動了嗎?

不代表。這個案例顯示 GPT-5.4、Maria AI 與高通量實驗室可以合作提出並驗證一個有價值的化學假說,但人類化學家仍負責選題、修正實驗、協助操作與實驗台尺度驗證。它還需要更廣泛 substrate 測試、機理研究與獨立重現。

生技公司現在最該投資模型、資料,還是實驗平台?

先投資可驗證流程。模型會快速變動,但可靠的研究任務集、附件管理、資料來源、專家評分規準、實驗紀錄、權限與安全審查會長期有用。若流程穩定,再決定要申請 GPT-Rosalind、使用其他模型、串接實驗平台,或建立內部工具。

參考來源

結論

GPT-Rosalind 的重要性不在於它多會回答生物題,而在於 OpenAI 正把生命科學 AI 推向研究工作流、工具執行、實驗驗證與受控部署。LifeSciBench 讓外界更清楚地看到哪些能力進步、哪些弱項仍在;AI 化學家實驗則提醒我們,能被實驗室驗證的假說才有科學價值。

對研究機構來說,下一步很具體:把模型放進可追溯、可審查、可重跑的流程。生科 AI 可以加速證據整理與假說生成,但每個涉及實驗、藥物、病患資料或雙重用途風險的決策,都需要人類專家與制度邊界一起負責。

№ · further reading

延伸閱讀