社区文章

via 動區動趨 BlockTempo · BlockTempo編輯部 撰写

OpenAI 語音 API 三連發:引入 GPT-5 推理等級、支援 70+ 語言、Whisper 即時轉錄語音

WLD

WLD/USDT

US$0.2554
+0.39%
24小时成交量

US$100,473,802.80

24小时高/低

US$0.2614 / US$0.2483

差价: US$0.0131 (5.28%)

资金费率

-0.0038%

空头支付

数据来自COINOTAG DATA实时数据
WLD
WLD
每日

US$0.2542

0.75%

成交量 (24小时): -

阻力位
阻力 3US$0.2721
阻力 2US$0.2636
阻力 1US$0.2559
价格US$0.2542
支撑 1US$0.2491
支撑 2US$0.2394
支撑 3US$0.2311
枢轴点 (PP):US$0.253233
趋势:下降趋势
RSI (14):46.8
B
BlockTempo編輯部
(UTC 02:40)
1 分钟阅读
LX
编辑者Li Xiaoming
832 浏览
0 评论

OpenAI 語音 API 三連發:引入 GPT-5 推理等級、支援 70+ 語言、Whisper 即時轉錄語音

OpenAI 推出三款語音智慧 API 模型。GPT-Realtime-2 支援複雜多步驟推理、GPT-Realtime-Translate 覆蓋 70 種輸入語言與 13 種輸出語言、GPT-Realtime-Whisper 提供即時語音轉文字。
(前情提要:GPT-5.5 Instant 向全體用戶開放,OpenAI 教你怎麼寫 Prompt 更聰明、有效率
(背景補充:Google Translate 最強對手 DeepL 裁員 25%!執行長:轉型「AI 原生」公司,人類員工未來只做創意

OpenAI 今(8)日同時推出三款語音 API,全數整合於 OpenAI Realtime API — 也就是該公司專為低延遲、即時語音互動設計的 API 架構。

第一款是 GPT-Realtime-2。這款模型的核心賣點是搭載 GPT-5 等級的推理能力,能處理複雜的多步驟對話請求。計費方式採按 token 計算,與文字 API 邏輯一致。

第二款是 GPT-Realtime-Translate,主打即時翻譯。支援超過 70 種語言作為輸入、13 種語言作為輸出,設計目標是「跟上對話節奏」,也就是在說話者仍在發言時同步輸出譯文,而非等整句結束才翻譯。

計費方式改為按分鐘計算,對照傳統同步口譯的市場單價,這款模型預計能對媒體活動、國際會議、跨語言客服帶來新選擇。

第三款是 GPT-Realtime-Whisper,提供即時語音轉文字功能(speech-to-text)。與既有 Whisper 模型的差異在於「即時性」,可在對話進行過程中持續捕捉並轉錄語音,而非等段落結束後批次處理。同樣按分鐘計費。

誰先受益,誰先受壓?

受益端相對清晰:客服平台、線上教育業者、媒體活動主辦方、創作者工具開發商。這幾個場景共同的特徵是「對話品質直接影響商業結果」,且目前人力成本高昂。

GPT-Realtime-Translate 對跨語言媒體平台的衝擊尤為直接,70 種輸入語言的覆蓋範圍,已超越多數市面上商業翻譯服務的語言支援。

受壓端則不只是傳統翻譯服務商。更廣義的受壓物件是那些仍在銷售「語音 AI 基礎能力」的競爭者:包括部分雲端語音識別服務,以及尚未在推理層取得突破的語音助理產品。當平台方直接在 API 層提供 GPT-5 推理,疊加即時語音能力,獨立語音 AI 新創的差異化空間將進一步收窄。

值得保留的問號是延遲表現與實際準確率。OpenAI 的公告聚焦在功能覆蓋,對具體延遲數字與多語言識別準確率著墨不多。

這兩個指標在真實部署場景中往往才是決定採用率的關鍵,尤其是翻譯模型的 13 種輸出語言中,各語言的品質是否均等,仍待開發者實測驗證。

将 COINOTAG 添加为首选来源

在 Google 新闻和搜索中将 COINOTAG 添加为首选来源,优先查看我们的最新报道。

在 Google 中添加

来源

BlockTempo編輯部 · 動區動趨 BlockTempo

阅读全文 →

评论
评论