OpenAI 罕病診斷研究：AI 怎麼幫醫師重看舊病例？

OpenAI 與 Boston Children’s、Harvard 研究用 o3 Deep Research 重看 376 件未解罕病病例，經專家確認 18 例新診斷。整理證據、限制與醫療機構導入檢查。

發佈於： 2026-05-31 | 更新於： 2026-06-20

中級 OpenAI Boston Children's Hospital Rare Disease

內容查核： 2026-06-20 來源查核： 2026-06-20

⚡ 重點摘要（TL;DR）

OpenAI 2026-06-18 公布一項 NEJM AI 研究：Boston Children’s Manton Center、Harvard 與 OpenAI 用 o3 Deep Research 重新分析 376 件過去未解的罕見遺傳疾病病例。
經專家審查、追加檢測與臨床確認後，研究團隊建立 18 例新診斷，整體診斷增益為 4.8%。
模型沒有替任何病患下診斷；它提供的是帶證據的候選假說，最後由醫師、遺傳諮詢與臨床實驗室流程確認。
這項研究最值得醫療機構看的主軸，是舊病例重分析、證據鏈、版本控管與人工審查能否被制度化。
限制很明確：回溯研究、樣本群異質、審查者未對模型信心盲法、沒有衡量時間/成本/假陽性負擔或照護結果，也沒有系統性評估所有變異型態。

OpenAI 2026 年 6 月 18 日公布一項與 Boston Children’s Hospital Manton Center、Harvard 合作的 NEJM AI 研究：研究團隊用 o3 Deep Research 重新分析 376 件過去未解的兒童與青少年罕見遺傳疾病病例，經專家審查、追加檢測與臨床確認後，建立 18 例新診斷。

它目前沒有開放給病患自行問診，也不代表模型可以下診斷。對醫療機構、健康科技團隊與臨床研究負責人，真正值得看的問題是：當基因知識、病例資料與論文持續更新時，AI 能不能幫專家更有系統地重看舊病例，並把每個線索留在可稽核、可確認的流程裡。

先講清楚安全邊界：本文不提供醫療建議。罕病診斷、基因檢測、用藥與治療選擇都應由合格醫療專業人員處理。這篇整理研究證據、不能外推的地方，以及醫療機構若想評估類似工作流，應該先補齊哪些治理條件。

這項研究證明了什麼？

問題	目前可以說的結論	不能直接外推的地方
AI 是否找到新診斷？	在 376 件先前未解病例中，專家流程確認 18 例新診斷，整體診斷增益 4.8%。	這仍屬研究流程，模型也沒有自己回傳診斷給病患。
模型扮演什麼角色？	o3 Deep Research 讀取去識別化臨床與基因資料，產生帶證據的候選假說。	模型沒有做臨床決策；醫師與臨床專家負責審查、檢測與確認。
為什麼值得注意？	罕病病例可能在多年後因新論文、新基因疾病關聯或變異重新分類而變得可解。	研究沒有證明能節省多少時間、成本、醫師工作量，或改善照護結果。
醫療機構現在該做什麼？	先把舊病例重分析、來源追蹤、人工審查、稽核紀錄與臨床確認流程設計好。	不宜把一般聊天介面包成病患端診斷工具。

NEJM AI 論文摘要說明，研究團隊把大型語言模型（large language model，LLM）當成「解釋優先」的重分析層：它讀取臨床筆記、人類表型本體（Human Phenotype Ontology，HPO）詞彙與篩選後的基因變異資料表，提出可由專家審查的候選假說。診斷的標準也先定義清楚：變異要被分類為致病或可能致病（pathogenic / likely pathogenic），經美國臨床實驗室改進修正案認證（CLIA-certified）實驗室確認，並回報給家庭。

結果分布也值得分開看：100 件罕病神經發展病例中新增 10 例診斷；61 件神經肌肉病例中新增 4 例；200 件兒科突發非預期死亡病例中新增 2 例；15 件早發精神病病例中新增 2 例。整體是 18/376，也就是 4.8%。

這些數字有研究價值，但讀者不能只看 18 例。罕病診斷常卡在病例資料分散、表型描述不一致、變異太多、證據更新太快與專家時間有限。AI 的可取之處，是把可能的線索整理成專家能追問、能反駁、能送檢的假說。

為什麼舊病例值得重新分析？

罕見遺傳疾病常有很長的診斷旅程。病患的基因資料可能早就存在，但當年還沒有足夠論文、病例報告或基因疾病關聯可以解讀。幾年後，科學知識更新，同一筆資料可能出現新的解釋。

OpenAI 官方文章把這件事講得很清楚：病患的基因組大多沒有變，但周邊證據一直變。新的基因與疾病關聯被發現，實驗室重新分類舊變異，病例資料庫與論文也持續累積。對醫療機構來說，這讓「定期重看未解病例」變成一種維護工作。

問題是，這份維護工作很重。每個病例可能牽涉數千到數百萬個候選變異、零散病歷、家族資料、過去檢測、不同資料庫命名，以及快速變動的文獻。專家不可能每天把所有未解病例從頭查一遍。

這就是 AI 輔助重分析有價值的地方：它可以先把表型、遺傳模式、變異註解、資料品質與文獻證據串成一條可檢查的理由鏈，再交給臨床專家判斷哪個線索值得追加確認。

醫療團隊應該怎麼讀 4.8%？

4.8% 看起來不大，但在罕病診斷裡有實際意義。這些病例已經經過先前專家分析，仍然沒有答案；能在這種背景下多找出 18 例，代表重分析流程可能補上過去資料與最新知識之間的落差。

同時，4.8% 也提醒我們保持克制。這個結果不能解讀成「大多數未解病例都能靠 AI 解決」。研究還找出 7 件「重新發現」：外部已建立致病或可能致病結果，但當時不在本地研究紀錄中。這類結果說明資料同步與紀錄治理也很重要，不全是模型推理能力。

更務實的判斷方式是把研究結果放進三層問題：

診斷增益：重分析是否真的增加可確認診斷，還是只產生更多可能性？
工作負擔：醫師、遺傳諮詢師與實驗室需要花多少時間排除假陽性？
照護影響：診斷是否改變後續追蹤、治療、家族諮詢或心理支持？

這項研究回答了第一層的一部分，還沒有完整回答第二、第三層。醫療機構評估時，應把時間、成本、假陽性、照護改變與家屬溝通都放進試辦指標。

實務情境：遺傳門診如何安全試辦？

比較安全的起點，是在院內做受控的未解病例重分析；病患聊天室應放到更後期，等資料邊界、人工審查與臨床確認流程都通過試辦再評估。

一個遺傳門診或罕病中心可以這樣設計試辦：先選一小批已完成初步分析、資料權限清楚、家屬同意與倫理審查完整的舊病例；把臨床描述、HPO 詞彙、家族資訊與篩選後變異表去識別化；讓模型產生候選假說與來源理由；再由遺傳醫師、遺傳諮詢師、實驗室與相關專科逐一審查。

預期輸出應是一份可追蹤的候選清單：為什麼這個基因值得看、支持證據是什麼、反對證據是什麼、需要哪種追加檢測、若確認後對家庭有什麼意義。它不能被寫成「AI 診斷結果」。

驗證方式也要先寫好：每個候選假說要記錄來源、版本、審查者、送檢結果、確認狀態與回報流程。若模型提出的線索最後被排除，也要留下原因，避免下次換模型或換提示詞又重複浪費時間。

這個情境的主要風險，是模型把看似合理的文獻、表型或變異關聯串成漂亮敘事，卻在臨床確認時站不住腳。因此試辦不能只看「找到幾個候選」，還要看每個候選造成多少人工審查負擔。

導入前先補齊 8 個檢查點

檢查點	要先確認什麼
資料邊界	是否只用去識別化資料？資料是否留在核准環境？誰能匯出與保存？
知情同意與倫理審查	舊病例重分析、AI 輔助與後續回報是否符合原本同意範圍與倫理審查委員會（IRB）要求？
來源版本	HPO、ClinVar、論文、內部變異資料庫與臨床指南的版本能否回溯？
人工審查	哪些角色必須簽核：遺傳醫師、遺傳諮詢師、實驗室、專科醫師？
臨床確認	候選變異如何追加檢測？哪些結果才能回報給家庭？
假陽性負擔	每 1 個確認診斷會帶來多少無效候選、審查時間與家屬期待管理？
在地法規	台灣或所在市場的醫療個資、基因檢測、醫療器材與遠距照護規則如何適用？
稽核與回滾	錯誤線索、資料外洩、模型版本更動或來源更新時，誰負責修正紀錄？

這份清單的重點，是把 AI 放回醫療流程。模型可以幫忙整理證據，但病患安全取決於資料治理、專家審查、臨床實驗室確認與家屬溝通。

和 Google AMIE、ChatGPT 健康回答有什麼不同？

同一週內，醫療 AI 新聞很多，容易混在一起看。這篇 OpenAI 罕病研究聚焦「回溯基因病例重分析」；Google AMIE 醫療 AI 研究則把重點放在多診次疾病管理與臨床指南對齊；ChatGPT for Clinicians 與健康回答更接近臨床文件、研究搜尋與一般健康資訊邊界。

三者的共同方向，是醫療 AI 正在從單次漂亮回答，走向更可審查的工作流：來源要能追、限制要講清、人工責任要留住、輸出要能被拒絕或確認。

差異也很重要。罕病基因重分析需要基因資料、HPO 詞彙、變異註解、實驗室確認與家屬回報流程；疾病管理需要長期病程、用藥安全、指南與升級規則；一般健康問答則要避免讓使用者把資訊整理誤用成診斷。把這些場景混成「醫療 AI 會看病」，會讓採購和產品決策都變危險。

若想看整體版圖，可以搭配 AI 醫療 2026；若工作是研究資料與醫學文獻整理，也可以看 AI 醫學文獻搜尋：PubMed 指南。

研究限制要放在第一頁，不要留到註腳

OpenAI 官方文章與 NEJM AI 摘要都把限制講得很明確。

這是回溯研究，尚未進入前瞻性臨床部署。研究隊列異質，審查者沒有對模型信心完全盲法。研究沒有衡量節省多少時間、成本、臨床工作量、假陽性負擔或照護結果，也沒有系統性評估結構變異、重複擴增、深內含子變異或體細胞鑲嵌等其他變異型態。

大型語言模型也可能誤讀上下文，或產生看似合理但經不起檢查的解釋。因此每一個結果都需要人工裁決與臨床確認。比較準確的說法是：模型擴大搜尋範圍、整理候選線索、聚焦後續人工分析；它沒有決定要把什麼診斷回報給家庭。

對任何想試辦的醫療機構，這些限制應該出現在內部提案第一頁。若一份方案只寫「AI 幫忙診斷罕病」而沒有寫假陽性、人工審查、資料邊界與確認流程，風險已經太高。

FAQ

OpenAI o3 Deep Research 可以直接幫病患診斷罕病嗎？

不能。這項研究使用的是去識別化資料與專家主導的回溯重分析流程。模型提供候選假說，最後由合格臨床專家、追加檢測與臨床實驗室確認。病患不應把任何聊天機器人輸出當成診斷或治療建議。

18 例新診斷代表 AI 醫療已經可以上線了嗎？

不代表。18/376 的結果顯示 AI 輔助重分析可能增加診斷線索，但研究沒有證明真實臨床部署的時間、成本、假陽性負擔或照護結果。下一步需要前瞻性、多中心、具比較基準的研究。

醫療機構如果想試辦，最安全的起點是什麼？

先從院內、去識別化、已完成倫理與資料權限確認的舊病例重分析開始。輸出應該是可審查的候選假說與證據鏈，不能直接對病患發布診斷。每個候選都要有專家審查、檢測確認、紀錄留存與家屬溝通流程。

參考資料

結論

OpenAI 這項罕病研究值得關注，核心在於未解病例可能需要一套更可擴充的「定期重分析」流程。當科學知識持續更新，模型可以幫專家更快整理候選線索；真正保護病患的是去識別化、版本控管、專家審查、臨床確認與負責任的回報流程。

對醫療機構與健康科技團隊，下一步應先問：我們是否能讓每一個 AI 提出的線索，都被人看得懂、查得到、驗得回來，也承擔得起錯誤成本？診斷不能交給聊天機器人。

№ · further reading