OpenAI Realtime 語音模型更新：GPT-Realtime-2、Translate、Whisper 適合做什麼？

OpenAI 推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper，讓開發者建立可推理、翻譯、轉錄與即時行動的語音 AI。

發佈於： 2026-05-31 | 更新於： 2026-05-31

OpenAI 在２０２６年５月更新 Realtime API 語音模型，一次推出三個方向：

這代表語音 AI 正從「聽懂並回答」走向「邊說邊推理、翻譯、轉錄、呼叫工具和採取行動」。

三個模型分別做什麼？

這三個模型不是互斥，而是可以組合。

例如一個國際客服 voice agent 可以先用 Realtime-Whisper 做 live transcript，再用 Realtime-Translate 做跨語言溝通，最後用 Realtime-2 呼叫訂單、退貨或 CRM 工具。

GPT-Realtime-2 的重點是即時語音互動中的推理和行動。

OpenAI 提到它可以：

對 voice agent 來說，這些比音色更重要。

使用者講話時常會改口、插話、補充條件。Voice agent 如果只會快快回答，反而容易做錯事。

GPT-Realtime-Translate 支援７０多種輸入語言到１３種輸出語言。

它的重點不是只產生文字字幕，而是讓雙方能用自己的語言進行接近即時的語音互動。

適合：

如果延遲夠低，這會改變很多服務的人力配置。企業不一定要每種語言都安排完整客服團隊，但仍要保留人工升級機制。

Realtime-Whisper 是 streaming speech-to-text。

低延遲轉錄的價值不是「把錄音轉文字」而已，而是讓語音內容即時進入工作流：

轉錄越即時，後續摘要、分類、提醒和 CRM 寫入就越能在對話中完成。

語音 agent 很容易被低估風險。

導入時要檢查：

語音比文字更容易讓人放鬆警覺，所以產品設計要更清楚。

OpenAI 這次 Realtime 語音模型更新的重點，不只是聲音更自然。

真正的變化是 voice agent 開始能把「聽、想、翻譯、轉錄、呼叫工具」放在同一個即時流程裡。

未來客服、教育、旅遊、醫療行政、車載和現場活動，都會被這類低延遲語音 AI 重新設計。

№ · further reading