社区文章

via 鏈新聞 ABMedia · ABMedia編輯部 撰写

OpenAI 揭 CoT 評分意外影響:保留思路鏈監控是 AI Agent 對齊關鍵防線

WLD

WLD/USDT

US$0.2683
+4.11%
24小时成交量

US$133,100,620.05

24小时高/低

US$0.2785 / US$0.2537

差价: US$0.0248 (9.78%)

资金费率

+0.0004%

多头支付

数据来自COINOTAG DATA实时数据
WLD
WLD
每日

US$0.2693

-1.57%

成交量 (24小时): -

阻力位
阻力 3US$0.3270
阻力 2US$0.2850
阻力 1US$0.2737
价格US$0.2693
支撑 1US$0.2675
支撑 2US$0.2578
支撑 3US$0.2493
枢轴点 (PP):US$0.271367
趋势:下降趋势
RSI (14):53.2
A
ABMedia編輯部
(UTC 07:23)
1 分钟阅读
LJ
编辑者Liu Jianhua
1492 浏览
0 评论
OpenAI 揭 CoT 評分意外影響:保留思路鏈監控是 AI Agent 對齊關鍵防線

OpenAI 5 月 8 日發表新研究、揭露公司在強化學習(RL)訓練過程中、部分模型的思路鏈(Chain of Thought, CoT)被「意外評分」、可能影響 AI Agent 對齊(alignment)監控能力。OpenAI Alignment 團隊報告說明:保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線;OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。

為什麼 CoT 監控是 AI Agent 對齊的關鍵防線

CoT(思路鏈)監控的核心邏輯:

  • 當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作
  • 監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」(misalignment)的徵兆
  • 若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖
  • OpenAI 主張:訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力

「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。

意外的 CoT 評分:對既有模型監控能力的影響

OpenAI 報告披露的具體發現:

  • 在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分
  • 意外評分意指:訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出
  • 這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」
  • OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向

Redwood Research 的獨立評論指出:CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。

對 AI Agent 安全的長期意義

本次研究指向 AI Agent 安全的核心方法論:

  • CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎
  • 訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」
  • 未來模型若推理鏈愈長、CoT 監控的價值理論上愈高
  • 但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化

後續可追蹤的具體事件:OpenAI 對受影響模型的後續處理(例如重訓或標示)、其他大型實驗室(Anthropic、Google DeepMind)的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。

将 COINOTAG 添加为首选来源

在 Google 新闻和搜索中将 COINOTAG 添加为首选来源,优先查看我们的最新报道。

在 Google 中添加

来源

ABMedia編輯部 · 鏈新聞 ABMedia

阅读全文 →

评论
评论