社区文章
via 鏈新聞 ABMedia · ABMedia編輯部 撰写
OpenAI 推 GPT-Realtime-2:把 GPT-5 推理帶入語音 Agent、context 升至 128K
WLD
WLD/USDT
US$0.2562
+0.67%
US$0.2562
+0.67%
(24s)24小时成交量
US$99,741,820.96
24小时高/低
US$0.2614 / US$0.2483
差价: US$0.0131 (5.28%)
资金费率
-0.0038%
空头支付
数据来自COINOTAG DATA实时数据
A
ABMedia編輯部(UTC 03:53)
1 分钟阅读
1396 浏览
0 评论
OpenAI 5 月 7 日(美國時間)在開發者大會公布三款新的 Realtime 語音模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper、全部透過 Realtime API 對開發者開放。OpenAI 官方公告說明、GPT-Realtime-2 是 OpenAI 第一個具備 GPT-5 級推理能力的語音模型、能在語音對話中即時推理、呼叫工具、處理修正、並維持自然對話節奏。
GPT-Realtime-2:context 從 32K 升到 128K、五段推理強度可調
GPT-Realtime-2 的核心升級:
- context window:32K 升至 128K tokens
- 推理強度可調:minimal、low、medium、high、xhigh 五段
- Big Bench Audio 測試:high 推理 96.6%、前代 GPT-Realtime-1.5 為 81.4%
- Audio MultiChallenge 指令遵循:xhigh 推理 48.5%、前代 34.7%
更大的 context 與可調推理強度讓開發者能根據場景在「便宜快速」與「深度思考」之間切換—簡單客服可用 minimal 模式控制成本、複雜任務切到 xhigh 換取 GPT-5 級推理品質。
同步發布兩款專用模型:Translate 跨語言、Whisper 即時轉錄
本輪三款新模型分工:
- GPT-Realtime-Translate:即時多語語音翻譯、支援 70 種輸入語言、13 種輸出語言
- GPT-Realtime-Whisper:低延遲串流轉錄、邊講邊出文字、適用即時字幕、會議記錄、課堂逐字稿
- GPT-Realtime-2:完整對話 Agent、可推理、用工具、執行動作
Translate 與 Whisper 是針對特定語音應用做模型專門化—翻譯與轉錄的延遲與成本敏感度高於通用對話、用獨立模型可優化各自指標。
定價:GPT-Realtime-2 每百萬輸入 32 美元、輸出 64 美元
三款模型的價格結構:
- GPT-Realtime-2:每百萬語音輸入 32 美元、cached 輸入 0.40 美元、輸出 64 美元
- GPT-Realtime-Translate:每分鐘 0.034 美元
- GPT-Realtime-Whisper:每分鐘 0.017 美元
後續可追蹤的具體事件:GPT-Realtime-2 在生產環境語音 Agent 的實際採用情況、與既有 GPT-4o 語音模型的 cannibalization 程度、以及 Anthropic、Google 等同業的對標反應。
评论
评论
