OpenAI 在 2026 年 5 月更新 Realtime API 語音模型,一次推出三個方向:
- GPT-Realtime-2。
- GPT-Realtime-Translate。
- GPT-Realtime-Whisper。
這代表語音 AI 正從「聽懂並回答」走向「邊說邊推理、翻譯、轉錄、呼叫工具和採取行動」。
三個模型分別做什麼?
| 模型 | 核心能力 | 適合場景 |
|---|---|---|
| GPT-Realtime-2 | 即時語音推理與 tool use | 客服、訂位、旅遊、車載、語音 agent |
| GPT-Realtime-Translate | 即時語音翻譯 | 跨語言客服、活動、教育、媒體、跨境銷售 |
| GPT-Realtime-Whisper | 低延遲串流轉錄 | 字幕、會議紀錄、語音搜尋、客服紀錄 |
這三個模型不是互斥,而是可以組合。
例如一個國際客服 voice agent 可以先用 Realtime-Whisper 做 live transcript,再用 Realtime-Translate 做跨語言溝通,最後用 Realtime-2 呼叫訂單、退貨或 CRM 工具。
GPT-Realtime-2:語音 agent 開始能做事
GPT-Realtime-2 的重點是即時語音互動中的推理和行動。
OpenAI 提到它可以:
- 邊對話邊呼叫工具。
- 處理使用者中途修正。
- 使用 preambles 告訴使用者「我正在查」。
- 平行 tool calls。
- 提升 domain terminology 保留能力。
- 調整 tone 和 delivery。
- 把 context window 從 32K 提高到 128K。
- 調整 reasoning effort。
對 voice agent 來說,這些比音色更重要。
使用者講話時常會改口、插話、補充條件。Voice agent 如果只會快快回答,反而容易做錯事。
GPT-Realtime-Translate:即時翻譯不是字幕而已
GPT-Realtime-Translate 支援 70 多種輸入語言到 13 種輸出語言。
它的重點不是只產生文字字幕,而是讓雙方能用自己的語言進行接近即時的語音互動。
適合:
- 多語客服。
- 線上教育。
- 國際活動。
- 直播與媒體。
- 跨境銷售。
- 旅遊和交通服務。
如果延遲夠低,這會改變很多服務的人力配置。企業不一定要每種語言都安排完整客服團隊,但仍要保留人工升級機制。
GPT-Realtime-Whisper:低延遲轉錄是工作流入口
Realtime-Whisper 是 streaming speech-to-text。
低延遲轉錄的價值不是「把錄音轉文字」而已,而是讓語音內容即時進入工作流:
- 會議中即時產生 notes。
- 直播字幕跟上講者。
- 醫療、客服、銷售對話即時標記待辦。
- 語音 agent 連續理解使用者意圖。
- 事件或課堂內容同步搜尋。
轉錄越即時,後續摘要、分類、提醒和 CRM 寫入就越能在對話中完成。
開發者要注意什麼?
語音 agent 很容易被低估風險。
導入時要檢查:
- 使用者是否知道正在和 AI 互動。
- 是否有內容安全分類器。
- 高風險動作是否要確認。
- 工具呼叫是否透明。
- 是否保存 transcript 和音訊。
- 是否支援刪除和資料保留政策。
- 是否符合地區資料 residency。
- 是否能轉人工。
- 是否能處理噪音、口音、打斷和錯聽。
語音比文字更容易讓人放鬆警覺,所以產品設計要更清楚。
結論
OpenAI 這次 Realtime 語音模型更新的重點,不只是聲音更自然。
真正的變化是 voice agent 開始能把「聽、想、翻譯、轉錄、呼叫工具」放在同一個即時流程裡。
未來客服、教育、旅遊、醫療行政、車載和現場活動,都會被這類低延遲語音 AI 重新設計。