回到頂部
OpenAI Realtime API 三個語音模型負責即時推理、即時翻譯與串流轉錄

OpenAI Realtime 語音模型更新:GPT-Realtime-2、Translate、Whisper 適合做什麼?

OpenAI 推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,讓開發者建立可推理、翻譯、轉錄與即時行動的語音 AI。

OpenAI 在 2026 年 5 月更新 Realtime API 語音模型,一次推出三個方向:

  • GPT-Realtime-2。
  • GPT-Realtime-Translate。
  • GPT-Realtime-Whisper。

這代表語音 AI 正從「聽懂並回答」走向「邊說邊推理、翻譯、轉錄、呼叫工具和採取行動」。

三個模型分別做什麼?

模型核心能力適合場景
GPT-Realtime-2即時語音推理與 tool use客服、訂位、旅遊、車載、語音 agent
GPT-Realtime-Translate即時語音翻譯跨語言客服、活動、教育、媒體、跨境銷售
GPT-Realtime-Whisper低延遲串流轉錄字幕、會議紀錄、語音搜尋、客服紀錄

這三個模型不是互斥,而是可以組合。

例如一個國際客服 voice agent 可以先用 Realtime-Whisper 做 live transcript,再用 Realtime-Translate 做跨語言溝通,最後用 Realtime-2 呼叫訂單、退貨或 CRM 工具。

GPT-Realtime-2:語音 agent 開始能做事

GPT-Realtime-2 的重點是即時語音互動中的推理和行動。

OpenAI 提到它可以:

  • 邊對話邊呼叫工具。
  • 處理使用者中途修正。
  • 使用 preambles 告訴使用者「我正在查」。
  • 平行 tool calls。
  • 提升 domain terminology 保留能力。
  • 調整 tone 和 delivery。
  • 把 context window 從 32K 提高到 128K。
  • 調整 reasoning effort。

對 voice agent 來說,這些比音色更重要。

使用者講話時常會改口、插話、補充條件。Voice agent 如果只會快快回答,反而容易做錯事。

GPT-Realtime-Translate:即時翻譯不是字幕而已

GPT-Realtime-Translate 支援 70 多種輸入語言到 13 種輸出語言。

它的重點不是只產生文字字幕,而是讓雙方能用自己的語言進行接近即時的語音互動。

適合:

  • 多語客服。
  • 線上教育。
  • 國際活動。
  • 直播與媒體。
  • 跨境銷售。
  • 旅遊和交通服務。

如果延遲夠低,這會改變很多服務的人力配置。企業不一定要每種語言都安排完整客服團隊,但仍要保留人工升級機制。

GPT-Realtime-Whisper:低延遲轉錄是工作流入口

Realtime-Whisper 是 streaming speech-to-text。

低延遲轉錄的價值不是「把錄音轉文字」而已,而是讓語音內容即時進入工作流:

  • 會議中即時產生 notes。
  • 直播字幕跟上講者。
  • 醫療、客服、銷售對話即時標記待辦。
  • 語音 agent 連續理解使用者意圖。
  • 事件或課堂內容同步搜尋。

轉錄越即時,後續摘要、分類、提醒和 CRM 寫入就越能在對話中完成。

開發者要注意什麼?

語音 agent 很容易被低估風險。

導入時要檢查:

  1. 使用者是否知道正在和 AI 互動。
  2. 是否有內容安全分類器。
  3. 高風險動作是否要確認。
  4. 工具呼叫是否透明。
  5. 是否保存 transcript 和音訊。
  6. 是否支援刪除和資料保留政策。
  7. 是否符合地區資料 residency。
  8. 是否能轉人工。
  9. 是否能處理噪音、口音、打斷和錯聽。

語音比文字更容易讓人放鬆警覺,所以產品設計要更清楚。

結論

OpenAI 這次 Realtime 語音模型更新的重點,不只是聲音更自然。

真正的變化是 voice agent 開始能把「聽、想、翻譯、轉錄、呼叫工具」放在同一個即時流程裡。

未來客服、教育、旅遊、醫療行政、車載和現場活動,都會被這類低延遲語音 AI 重新設計。

參考來源

№ · further reading

延伸閱讀