宝运宝运莱官方游戏网

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

搜索智能体RAG落地不佳_UIUC开源s3,仅需2.4k样本,训练快效果好

2025-06-20 16:55:52
来源:

猫眼电影

作者:

唐子

手机查看

  猫眼电影记者 甘特 报道P6F3X2M7T9QJ8L1B4WZR

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。

我们(UIUC & Amazon)提出的s3(Search-Select-Serve)是一种训练效率极高、结构松耦合、生成效果导向的 RL 范式。该方法使用名为Gain Beyond RAG (GBR)的奖励函数,衡量搜索器是否真的为生成带来了有效提升。实验表明,s3 在使用仅2.4k 训练样本的情况下,便在多个领域问答任务中超越了数据规模大百倍的强基线(如 Search-R1、DeepRetrieval)。

论文标题:s3: You Don’t Need That Much Data to Train a Search Agent via RL论文链接:https://arxiv.org/pdf/2505.14146代码仓库:https://github.com/pat-jj/s3

研究动机

RAG 的发展轨迹:从静态检索到 Agentic 策略

我们将 RAG 系统的发展分为三阶段:

1.Classic RAG:使用固定 query、BM25 等 retriever,生成器对结果无反。

2.Pre-RL-Zero Active RAG:引入多轮 query 更新,如 IRCoT、Self-RAG 等,部分通过 prompt 引导 LLM 检索新信息。Self-RAG 进一步通过蒸馏大型模型的行为,训练小模型模拟多轮搜索行为;

3.RL-Zero 阶段:强化学习开始用于驱动检索行为,代表方法如:

DeepRetrieval:以 Recall、NDCG 等搜索指标为优化目标,专注于检索器本身的能力;Search-R1:将检索与生成联合建模,以最终答案是否 Exact Match 作为强化信号,优化整合式的搜索 - 生成策略。

尽管 RL 方法在思路上更具主动性与交互性,但在实际落地中仍面临诸多挑战。

当前 RL-based Agentic RAG 落地表现不佳的原因

我们对当前 Agentic RAG 方案效果不稳定、训练难、迁移能力弱的原因,归纳为三点:

1. 优化目标偏离真实下游任务

Search-R1 等方法采用Exact Match (EM)作为主要奖励指标,即答案是否与参考答案字面一致。这一指标过于苛刻、对语义变体不敏感,在训练初期信号稀疏,容易导致模型优化「答案 token 对齐」而非搜索行为本身

例如,对于问题「美国第 44 任总统是谁?」,

回答「Barack Obama」:?回答「The 44th president was Barack Obama.」:?(EM=0)

这种不合理的信号会诱导模型在生成阶段做格式补偿,从而无法反映搜索策略本身是否有效

2. 检索与生成耦合,干扰搜索优化

将生成纳入训练目标(如 Search-R1),虽然可以提升整体答案准确率,但也会带来问题:

无法判断性能提升究竟来自「更好的搜索」,还是「更强的语言生成对齐能力」;对 LLM 参数依赖强,不利于模型迁移或集成;微调大模型成本高,限制了训练效率和模块替换的灵活性。

3. 现有评价标准无法准确衡量搜索贡献

EM、span match 等传统 QA 指标主要关注输出结果,与搜索质量关联有限。而 search-oriented 指标(如 Recall@K)虽可度量 retriever 性能,却无法体现这些信息是否真的被模型「用好」。这些偏差直接导致现有 RL Agentic RAG 方法在评估、训练和泛化上均存在瓶颈。

s3 - 专注搜索效果优化的 search agent RL 训练框架

s3 的出发点很简单

如果我们真正关心的是「搜索提升了生成效果」,那就应该只训练搜索器、冻结生成器,并以生成结果提升为奖励

这便是「Gain Beyond RAG(GBR)」的定义:

即:用 s3 搜索到的上下文喂给 Frozen Generator 之后的生成效果,相比初始的 top-k 检索结果是否更好。值得注意的是,s3 训练时始终初始化于相同的原始 query,从而能清晰对比 s3 检索对结果带来的真实「增益」。

准确率(Acc)评估标准

我们采用了更语义友好的Generation Accuracy(GenAcc)指标。它结合了两种机制:

Span Match:判断生成答?