via 動區動趨 BlockTempo · BlockTempo編輯部 撰写
OpenAI 語音 API 三連發:引入 GPT-5 推理等級、支援 70+ 語言、Whisper 即時轉錄語音
WLD/USDT
US$100,473,802.80
US$0.2614 / US$0.2483
差价: US$0.0131 (5.28%)
-0.0038%
空头支付

OpenAI 推出三款語音智慧 API 模型。GPT-Realtime-2 支援複雜多步驟推理、GPT-Realtime-Translate 覆蓋 70 種輸入語言與 13 種輸出語言、GPT-Realtime-Whisper 提供即時語音轉文字。
(前情提要:GPT-5.5 Instant 向全體用戶開放,OpenAI 教你怎麼寫 Prompt 更聰明、有效率)
(背景補充:Google Translate 最強對手 DeepL 裁員 25%!執行長:轉型「AI 原生」公司,人類員工未來只做創意)
OpenAI 今(8)日同時推出三款語音 API,全數整合於 OpenAI Realtime API — 也就是該公司專為低延遲、即時語音互動設計的 API 架構。
第一款是 GPT-Realtime-2。這款模型的核心賣點是搭載 GPT-5 等級的推理能力,能處理複雜的多步驟對話請求。計費方式採按 token 計算,與文字 API 邏輯一致。
第二款是 GPT-Realtime-Translate,主打即時翻譯。支援超過 70 種語言作為輸入、13 種語言作為輸出,設計目標是「跟上對話節奏」,也就是在說話者仍在發言時同步輸出譯文,而非等整句結束才翻譯。
計費方式改為按分鐘計算,對照傳統同步口譯的市場單價,這款模型預計能對媒體活動、國際會議、跨語言客服帶來新選擇。
第三款是 GPT-Realtime-Whisper,提供即時語音轉文字功能(speech-to-text)。與既有 Whisper 模型的差異在於「即時性」,可在對話進行過程中持續捕捉並轉錄語音,而非等段落結束後批次處理。同樣按分鐘計費。
誰先受益,誰先受壓?
受益端相對清晰:客服平台、線上教育業者、媒體活動主辦方、創作者工具開發商。這幾個場景共同的特徵是「對話品質直接影響商業結果」,且目前人力成本高昂。
GPT-Realtime-Translate 對跨語言媒體平台的衝擊尤為直接,70 種輸入語言的覆蓋範圍,已超越多數市面上商業翻譯服務的語言支援。
受壓端則不只是傳統翻譯服務商。更廣義的受壓物件是那些仍在銷售「語音 AI 基礎能力」的競爭者:包括部分雲端語音識別服務,以及尚未在推理層取得突破的語音助理產品。當平台方直接在 API 層提供 GPT-5 推理,疊加即時語音能力,獨立語音 AI 新創的差異化空間將進一步收窄。
值得保留的問號是延遲表現與實際準確率。OpenAI 的公告聚焦在功能覆蓋,對具體延遲數字與多語言識別準確率著墨不多。
這兩個指標在真實部署場景中往往才是決定採用率的關鍵,尤其是翻譯模型的 13 種輸出語言中,各語言的品質是否均等,仍待開發者實測驗證。
