2026/2/19 17:55:42
网站建设
项目流程
可以做砍价活动的网站,北京网页设计公司兴田德润优选,冲电气软件 网站建设,wordpress 程序员主题GroupRank 提出了一种全新的“分组重排”#xff08;Groupwise Reranking#xff09;范式#xff0c;巧妙地融合了 Pointwise 方法的灵活性与 Listwise 方法的全局比较能力#xff0c;并通过创新的两阶段训练#xff08;SFT 强化学习#xff09;和高质量数据合成流水线Groupwise Reranking范式巧妙地融合了 Pointwise 方法的灵活性与 Listwise 方法的全局比较能力并通过创新的两阶段训练SFT 强化学习和高质量数据合成流水线在多个基准上实现了 SOTA 性能。摘要大语言模型LLM作为重排序器已展现出提升检索增强生成RAG系统整体性能的巨大潜力。然而现有重排序范式在理论与实践上均面临两难逐点Pointwise方法简单灵活却因独立打分易陷“排序短视陷阱”忽视文档间相对重要性列表式Listwise方法能感知全局排序上下文却受“列表刚性”制约面对大规模候选集时扩展性与灵活性严重不足。为此我们提出全新“组式”Groupwise重排序范式将查询与一组候选文档同时输入模型在组内做比较并为每篇文档单独赋予相关度得分既保留逐点方法的灵活性又具备列表式方法的比较能力。训练阶段我们采用 GRPO 并设计异构奖励函数融合 NDCG、Recall 等排序指标与“分布奖励”实现跨组分数分布对齐。针对高质量标注数据稀缺的瓶颈我们进一步提出创新合成管线可批量生成高质检索与排序数据既用于训练重排序器也可赋能检索器。论文标题: GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning作者: Duolin Sun, Meixiu Long, Dan Yang发表年份: 2025原文链接: https://arxiv.org/abs/2511.11653代码链接: https://github.com/AQ-MedAI/Diver.git关键词: RerankingRAGGroupwiseData Synthesis一、RAG 的“守门员”困境为何需要更好的 Reranker长期以来Reranking 主要有两种主流范式Pointwise逐点式和 Listwise列表式。Pointwise 方法这种方法非常直观它独立评估每一个“查询-文档”对给每个文档打一个相关性分数最后按分排序。你可以把它比作一位“只看简历”的面试官他单独评估每份简历但从不把候选人放在一起横向比较。这种方法的优点是简单、灵活、易于并行但其致命弱点在于“排序近视陷阱”——由于缺乏全局视角它无法感知文档之间的相对重要性容易在多个看起来都不错的选项中迷失方向。Listwise 方法为了克服 Pointwise 的缺点Listwise 方法应运而生。它一次性处理整个候选文档列表像一场“小组辩论”让模型可以充分比较所有文档从而做出全局最优的排序决策。这种方法理论上性能更优因为它更贴近排序任务的本质。然而它的问题在于“列表僵化困境”——它通常需要处理定长的列表当候选文档数量庞大时例如超过 100 个计算开销剧增且难以扩展。实际应用中往往需要借助滑动窗口Sliding Window等近似技巧但这又会削弱其宝贵的全局视角。下图直观地展示了这两种传统范式与本文主角Groupwise的区别重排序范式对比从上图可以看出Pointwise 并行度高但效果欠佳Listwise 效果好但串行处理效率低下而论文提出的Groupwise分组式范式则试图在这两者之间找到一个完美的平衡点。二、GroupRank 方法总览“分组协作”鱼与熊掌兼得为了打破困境来自蚂蚁集团等机构的研究者们提出了GroupRank一个由强化学习驱动的新型重排序框架。其核心思想是“分组评分”Groupwise Scoring将查询和一组a group of候选文档一起喂给模型模型在组内进行交叉比较后为每个文档独立生成相关性分数。这种设计堪称精妙因为它保留了 Pointwise 的灵活性不同组之间可以并行处理并且可以处理任意数量的文档没有列表长度限制。引入了 Listwise 的比较能力在每个组内部模型能够感知文档间的相对优劣从而缓解“排序近视”问题。为了实现这一目标GroupRank 的构建主要依赖三大支柱高质量的合成数据生成、创新的两阶段训练策略以及精心设计的异构奖励函数。支柱一高质量训练数据的“炼金术”众所周知高质量的标注数据是训练强大模型的关键但获取既有精确分数像 Pointwise又有可靠排序像 Listwise的标签非常困难。为此作者设计了一条创新的数据合成流水线。高质量训练数据生成流程如上图所示整个流程分为三步混合检索针对一个查询同时使用稀疏检索如 BM25和稠密检索模型召回 top-50 的候选文档取长补短。并行标注利用强大的 LLM如 Qwen3-235B 和 Gemini-2.5-pro作为“教师模型”对这 50 个文档进行并行标注Pointwise 标注LLM 独立为每个文档打一个 0-10 分的绝对分。Listwise 标注LLM 对全部 50 个文档进行全局比较输出一个从 1 到 50 的相对顺序排名。标签融合将 Pointwise 的分数和 Listwise 的排名进行归一化和加权融合Score_final α * norm(Score_pointwise) (1-α) * norm(-log(Rank_listwise))生成一个既包含分数大小信息又蕴含可靠排序顺序的“黄金”标签。这套流程不仅为 GroupRank 提供了理想的训练数据其产出的高质量数据同样可以用于训练检索器或其他类型的重排序器。支柱二从“冷启动”到“精通”的两阶段训练有了高质量数据接下来就是如何训练模型。GroupRank 采用了一种“SFT RL”的两阶段范式。GroupRank 的两阶段训练范式阶段一冷启动监督微调ColdStart SFT预训练的 LLM 既不懂得如何按指令打分也无法保证按特定 JSON 格式输出。SFT 阶段的目的就是“教规矩”通过我们合成的高质量数据让模型学会两件事理解“相关性评分”这个任务。严格按照{“[1]”: 5, “[2]”: 8, ...}这样的 Groupwise 格式输出答案。阶段二基于异构奖励的强化学习Reinforcement LearningSFT 只是让模型“入门”要成为“高手”还需要强化学习RL的打磨。作者采用了 GRPO 算法并设计了一个新颖的异构奖励函数来指导模型优化。这个奖励函数是 GroupRank 能够实现卓越性能的核心引擎它包含四部分格式奖励 (Format Reward)确保模型输出稳定、合规。召回奖励 (Recall Reward)激励模型将真正相关的文档排在前面。分组排序奖励 (GroupWise Ranking Reward)直接优化最终的排序指标如 NDCG 和 RBO这是提升排序质量的关键。分组分布奖励 (GroupWise Distribution Reward)这是一个非常有趣的设计。它通过 KL 散度约束模型输出的分数分布与真实标签的分布保持一致。这能防止模型为了最大化排序奖励而“作弊”例如给最相关的文档打 10 分其他都打 0 分从而保证了分数的“校准性”和“意义”让分数本身也具有参考价值。通过这两阶段的训练GroupRank 模型得以从一个“什么都不懂”的预训练模型成长为一个既懂规则又追求卓越的排序专家。三、关键结论总结一下GroupRank 的核心贡献可以归纳为三点提出 GroupRank 框架通过创新的“分组评分”机制成功融合了 Pointwise 的灵活性和 Listwise 的全局上下文感知能力并设计了独特的异构奖励函数在强化学习阶段专门增强其重排序能力。设计高效的合成数据流水线解决了 GroupRank 缺少高质量标注数据的瓶颈能够为检索器和重排序器生成大规模、高质量、通用的训练数据。实现 SOTA 性能在多个对推理能力要求极高的检索基准测试中GroupRank 均取得了最先进SOTA的结果为下一代智能检索系统的发展提供了强大的技术支持。四、深度拆解GroupRank 的“快”与“好”是如何实现的让我们进一步深入 GroupRank 的设计细节看看它是如何平衡效率与效果的。方法属性对比为什么 Groupwise 更高效Reranking 的效率很大程度上取决于调用 LLM 的次数。下表对比了不同排序范式在复杂度上的差异。表 IV不同重排序方法的属性对比从表中可以看到Pointwise方法需要对 N 个文档调用 N 次 LLM虽然可以并行但总调用次数是O(N)。Pairwise方法为了比较所有文档对复杂度高达O(N²)计算成本极高。Listwise方法受限于滑动窗口复杂度为O(r * (N/s))并且通常是串行处理延迟很高。而Groupwise方法将 N 个文档分成大小为 c 的组总调用次数仅为O(N/c)并且支持批处理Batching。这意味着它在理论复杂度和实际并行能力上都取得了显著优势是目前最高效的范式之一。消融实验SFT 和 RL一个都不能少为了证明两阶段训练范式和异构奖励函数中每个组件的有效性作者在 BRIGHT 基准上进行了一系列消融实验。BRIGHT 基准上的消融研究结果非常清晰完整模型 vs. 基线完整的 GroupRank42.18分远超仅使用检索器的基线36.93分证明了其强大的排序优化能力。w/o RL (只用 SFT)性能下降到 40.70。这说明 SFT 虽然提供了良好的起点但缺乏对最终排序指标的直接优化。RL 的端到端微调是通往卓越性能的“最后一公里”。w/o SFT (只用 RL)性能骤降至 38.17。这说明如果没有 SFT 进行“冷启动”让 RL 从零开始在巨大的策略空间中探索效率极低且不稳定。SFT 为 RL 提供了一个高质量的“初始策略区”。w/o Ranking Reward / w/o Distribution Reward移除排序奖励或分布奖励都会导致性能下降尤其是前者。这验证了文章提到的排序奖励是驱动模型“学会如何排序”的核心动力而分布奖励则作为一种有效的正则化手段防止模型“投机取巧”保证了分数的合理性。进阶技巧滑动窗口与多次预测的影响为了进一步探究 GroupRank 的性能上限文章还实验了一些测试时增强策略Test-Time Scaling如下表所示。在 BRIGHT 基准上的附加实验这里的策略类似于一种“集成学习”滑动窗口w sliding windows将 100 个文档以步长为 10、窗口为 20 的方式分组让每个文档有机会和不同的“邻居”进行比较增强了排序的鲁棒性。多次预测N多次随机打乱文档分组进行预测然后取平均分。实验表明无论是哪种策略增加计算量即预测次数 N都能稳定提升性能。最终在使用滑动窗口并进行 6 次预测时模型在 BRIGHT 基准上取得了 46.82 的平均分创造了新的 SOTA 记录。五、实验结果刷新三大榜单实力证明一切GroupRank 在三大主流基准测试 BRIGHT、R2MED 和 BEIR 上都展示了其卓越的性能。BRIGHT R2MED在推理密集型任务中登顶BRIGHT 和 R2MED 是两个对模型推理能力要求极高的基准。BRIGHT 基准测试结果R2MED 基准测试结果如上两表所示无论是在通用推理领域BRIGHT还是在专业的医疗领域R2MEDGroupRank-32B 模型均以显著优势超越了所有先前的 SOTA 模型如 Rank-K 和 ReasonRank刷新了排行榜记录。更令人印象深刻的是7B 版本的 GroupRank 在多数情况下甚至优于其他模型的 32B 版本这充分展示了 GroupRank 架构本身的高效性和先进性。BEIR在传统检索任务中同样具备强大泛化能力为了验证其通用性作者还在传统的 BEIR 基准上进行了测试。BEIR 基准测试结果结果显示GroupRank-32B 的平均分55.09再次大幅超越所有对手证明了其合成数据流水线和分组训练方法不仅适用于复杂的推理任务在通用的文本检索场景中也同样具有强大的竞争力。六、未来工作与思考GroupRank 的成功为 RAG 系统的优化开辟了新的道路。论文展望未来可以探索成本更低的数据合成方法并将 Groupwise 的思想推广到更广泛的信息检索和推荐任务中。分治与协作的平衡Groupwise 范式本质上是一种“分治”将大列表拆分为小组与“协作”在组内进行比较的结合这种思想在许多大规模计算问题中都非常有效。数据驱动与算法设计的双轮驱动强大的算法GroupRank需要高质量的数据来喂养而精妙的数据工程合成流水线则能最大化算法的潜力。两者相辅相成缺一不可。RL 在排序任务中的价值通过精心设计的奖励函数强化学习可以直接优化最终的业务指标如 NDCG这是传统监督学习难以做到的。GroupRank 的异构奖励设计为我们提供了一个优秀的范例。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】