焦點(diǎn)速訊:斯坦福7B智能體全面超越GPT-4o,推理流登頂HF
2025-11-03 17:36:59 | 來(lái)源:新智元 |
2025-11-03 17:36:59 | 來(lái)源:新智元 |
新智元報(bào)道
【資料圖】
編輯:LRST
【新智元導(dǎo)讀】傳統(tǒng)智能體系統(tǒng)難以兼顧穩(wěn)定性和學(xué)習(xí)能力,斯坦福等學(xué)者提出AgentFlow框架,通過(guò)模塊化和實(shí)時(shí)強(qiáng)化學(xué)習(xí),在推理中持續(xù)優(yōu)化策略,并使小規(guī)模模型在多項(xiàng)任務(wù)中超越GPT-4o,為AI發(fā)展開(kāi)辟新思路。
當(dāng)前AI Agent的發(fā)展正陷入兩難的境地:
一方面,訓(xùn)練「全能型」大模型讓其同時(shí)承擔(dān)推理、規(guī)劃與工具調(diào)用,雖具一體化優(yōu)勢(shì),但在長(zhǎng)鏈推理中往往訓(xùn)練不穩(wěn)定、擴(kuò)展性受限;
另一方面,基于prompt的智能體系統(tǒng)雖具靈活性,卻缺乏學(xué)習(xí)與自我優(yōu)化能力,無(wú)法從交互中持續(xù)進(jìn)化。
如何突破這一瓶頸?
斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)(Texas A&M)、加州大學(xué)圣地亞哥分校(UC San Diego)和Lambda的研究團(tuán)隊(duì)給出了新答案:讓智能體系統(tǒng)在推理「流」中進(jìn)行在線強(qiáng)化學(xué)習(xí),從而實(shí)現(xiàn)持續(xù)的自我提升與能力進(jìn)化。
論文地址:https://arxiv.org/abs/2510.05592
項(xiàng)目主頁(yè):https://agentflow.stanford.edu/
開(kāi)源代碼:https://github.com/lupantech/AgentFlow
在線展示:https://huggingface.co/spaces/AgentFlow/agentflow
視頻教程:https://www.youtube.com/watch?v=kIQbCQIH1SI
他們提出AgentFlow框架采用模塊化架構(gòu),通過(guò)4個(gè)專門化智能體協(xié)同工作,配合專門設(shè)計(jì)的Flow-GRPO算法,使系統(tǒng)能夠在真實(shí)交互環(huán)境中持續(xù)優(yōu)化決策策略。
實(shí)驗(yàn)結(jié)果顯示,僅7B參數(shù)的AgentFlow在搜索、數(shù)學(xué)、科學(xué)等多個(gè)任務(wù)上全面超越GPT-4o(約200B參數(shù))和 Llama-3.1-405B。
團(tuán)隊(duì)負(fù)責(zé)人在推特上分享了工作,獲得了極大的關(guān)注。
該工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 項(xiàng)目。
長(zhǎng)鏈推理中的信用分配難題
訓(xùn)練智能體系統(tǒng)面臨的核心挑戰(zhàn)是多輪信用分配(multi-turn credit assignment)問(wèn)題:在長(zhǎng)時(shí)跨度、獎(jiǎng)勵(lì)稀疏的環(huán)境中,如何準(zhǔn)確判斷每一步?jīng)Q策對(duì)最終結(jié)果的貢獻(xiàn)?
傳統(tǒng)的單一模型方法將所有功能集成在一個(gè)LLM中,通過(guò)特殊標(biāo)簽(如 )一體化輸出思考、工具調(diào)用和回復(fù)。
這種方式在短鏈任務(wù)中有效,但在復(fù)雜場(chǎng)景下容易出現(xiàn):推理鏈過(guò)長(zhǎng)導(dǎo)致訓(xùn)練不穩(wěn)定、工具選擇錯(cuò)誤難以追溯、無(wú)法根據(jù)環(huán)境反饋動(dòng)態(tài)調(diào)整策略。
而現(xiàn)有的智能體系統(tǒng)(如 LangGraph、OWL、Pydantic、AutoGen)雖然實(shí)現(xiàn)了模塊化,但大多依賴固定的 prompt 工程,缺乏從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)制。
AgentFlow多模塊實(shí)時(shí)交互
在「流」中學(xué)習(xí)
AgentFlow的設(shè)計(jì)思路是:將復(fù)雜的推理任務(wù)分解給專門化的智能體模塊,同時(shí)讓核心決策模塊能夠在交互中持續(xù)學(xué)習(xí)。
四模塊協(xié)同架構(gòu)
系統(tǒng)由四個(gè)具備記憶能力的專門化智能體組成:
規(guī)劃器(Action Planner):分析任務(wù)需求,制定執(zhí)行策略,選擇最合適的工具。這是系統(tǒng)的核心決策模塊,也是唯一需要訓(xùn)練的部分。
執(zhí)行器(Tool Executor):負(fù)責(zé)實(shí)際調(diào)用工具API,整合工具返回結(jié)果。
驗(yàn)證器(Verifier):基于系統(tǒng)累積的歷史記憶,評(píng)估中間結(jié)果是否符合任務(wù)目標(biāo)和約束條件。
生成器(Generator):整合所有信息和驗(yàn)證反饋,生成最終答案或下一步行動(dòng)建議。
關(guān)鍵創(chuàng)新在于:規(guī)劃器不是靜態(tài)的,而是通過(guò)在線(on-policy)強(qiáng)化學(xué)習(xí)在推理流中實(shí)時(shí)優(yōu)化。
每輪交互后,系統(tǒng)會(huì)根據(jù)最終結(jié)果的成功或失敗,更新規(guī)劃器的決策策略,并將優(yōu)化結(jié)果整合到系統(tǒng)記憶中,形成閉環(huán)的自適應(yīng)學(xué)習(xí)過(guò)程。
Flow-GRPO算法
解決信用分配問(wèn)題
團(tuán)隊(duì)提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,專門針對(duì)多輪推理場(chǎng)景設(shè)計(jì)。核心思想是將軌跡最終的獎(jiǎng)勵(lì)信號(hào)(成功/失敗)廣播到每一步動(dòng)作,把復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一系列單輪策略更新。
具體做法是:
1. 收集完整的推理軌跡(從初始任務(wù)到最終結(jié)果);
2. 根據(jù)最終結(jié)果計(jì)算 outcome reward;
3. 將這個(gè) reward 分配給軌跡中每個(gè)規(guī)劃動(dòng)作;
4. 使用相對(duì)優(yōu)勢(shì)函數(shù)計(jì)算每個(gè)動(dòng)作的優(yōu)勢(shì),進(jìn)行策略梯度更新。
這種方法有效緩解了獎(jiǎng)勵(lì)稀疏問(wèn)題,同時(shí)保持了訓(xùn)練的穩(wěn)定性。
在線學(xué)習(xí)使系統(tǒng)能夠:快速糾正錯(cuò)誤的工具調(diào)用、探索更優(yōu)的子任務(wù)分解方式、根據(jù)環(huán)境反饋動(dòng)態(tài)調(diào)整推理深度。
實(shí)驗(yàn)結(jié)果:小模型的逆襲
研究團(tuán)隊(duì)在10個(gè)跨領(lǐng)域基準(zhǔn)上進(jìn)行了系統(tǒng)評(píng)測(cè),覆蓋知識(shí)檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。
性能對(duì)比
以Qwen-2.5-7B-Instruct為基座模型,AgentFlow 在所有類別中均顯著領(lǐng)先。
知識(shí)檢索:相比基線提升14.9%
智能體推理:提升14.0%
數(shù)學(xué)推理:提升14.5%
科學(xué)推理:提升4.1%
更令人驚訝的是跨規(guī)模對(duì)比結(jié)果:
7B的AgentFlow在搜索任務(wù)上比GPT-4o(約200B)高8.2%
在智能體任務(wù)上比Llama-3.1-405B高15.8%
3B模型的AgentFlow也能在多項(xiàng)任務(wù)中超越405B的基線模型
消融實(shí)驗(yàn)的關(guān)鍵發(fā)現(xiàn)
1. 在線學(xué)習(xí) vs 離線學(xué)習(xí)
對(duì)比實(shí)驗(yàn)顯示,如果用傳統(tǒng)SFT方式訓(xùn)練規(guī)劃器,性能反而會(huì)平均下降19%。這證明在真實(shí)交互環(huán)境中的在線學(xué)習(xí)是實(shí)現(xiàn)高效推理的必要條件。
2. 自主探索新策略
根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合;同時(shí),經(jīng)過(guò)訓(xùn)練的系統(tǒng)會(huì)自發(fā)探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search) 和特定網(wǎng)頁(yè)增強(qiáng)搜索(Web Search)的連招,通過(guò)工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒(méi)有在未訓(xùn)練的推理流中出現(xiàn)。
3. 動(dòng)態(tài)推理深度
在多跳搜索等密集推理任務(wù)中,訓(xùn)練后的AgentFlow展現(xiàn)出「智能的懶惰」:對(duì)簡(jiǎn)單任務(wù)保持較少的推理步數(shù),對(duì)復(fù)雜任務(wù)才會(huì)增加推理深度。
隨著最大步數(shù)限制的提升,性能穩(wěn)步上升但平均步數(shù)不會(huì)同比例增長(zhǎng)。
4. 模塊協(xié)作的價(jià)值
雖然推理流本身就能帶來(lái)性能提升,但未經(jīng)訓(xùn)練的系統(tǒng)容易出現(xiàn)循環(huán)錯(cuò)誤或卡頓。
通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,系統(tǒng)在工具調(diào)用準(zhǔn)確性、子任務(wù)規(guī)劃精細(xì)度和全局性能上都有明顯改善。作者團(tuán)隊(duì)提供過(guò)了一個(gè)例子來(lái)生動(dòng)展示了在實(shí)驗(yàn)中的有趣發(fā)現(xiàn)。
在這個(gè)例子中,在經(jīng)過(guò)Flow-GRPO訓(xùn)練前的推理系統(tǒng),一旦遇到了諸如這里的python變量定義錯(cuò)誤,便會(huì)反復(fù)輸出相同的子目標(biāo)和工具調(diào)用,極大地浪費(fèi)時(shí)間和推理效率。
在經(jīng)過(guò)Flow-GRPO在線更新后,動(dòng)作規(guī)劃器能夠根據(jù)之前的錯(cuò)誤自動(dòng)調(diào)整用更確切的子目標(biāo)和任務(wù)描述來(lái)指導(dǎo)后續(xù)步驟,并且經(jīng)過(guò)這樣的隨機(jī)應(yīng)變后,一步成功。
這個(gè)例子也極大程度展現(xiàn)了,在智能體系統(tǒng)真實(shí)推理中進(jìn)行強(qiáng)化學(xué)習(xí)的極大潛力。
技術(shù)意義與未來(lái)展望
AgentFlow的工作價(jià)值在于:
1. 提供了新的訓(xùn)練范式證明了智能體系統(tǒng)可以通過(guò)在線強(qiáng)化學(xué)習(xí)獲得類似大模型的學(xué)習(xí)能力,且在特定任務(wù)上效率更高。
2. 驗(yàn)證了「小而精」的可行性在合理的系統(tǒng)設(shè)計(jì)下,小模型通過(guò)模塊化協(xié)作和持續(xù)學(xué)習(xí),可以在復(fù)雜推理任務(wù)中超越大規(guī)模通用模型。
3. 為可擴(kuò)展AI提供思路模塊化架構(gòu)使得系統(tǒng)可以靈活添加新工具、調(diào)整模塊功能。
AgentFlow至少讓我們看到:Agentic AI的發(fā)展不必完全依賴模型規(guī)模的堆砌,系統(tǒng)架構(gòu)創(chuàng)新+高效訓(xùn)練方法可能是更值得探索的方向。
參考資料:
https://arxiv.org/abs/2510.05592