2024年9月,昆仑万维首次开源了Skywork-Reward系列模型及相关数据集。过去九个月中,这一系列模型与数据已被开源社区广泛应用于研究与实践,在HuggingFace平台上的累计下载量超过75万次,并助力多个前沿模型在RewardBench等权威评测中取得优异成绩。
2025年7月4日,昆仑万维继续开源第二代奖励模型(Reward Model)Skywork-Reward-V2系列,共包含8个基于不同基座模型和不同大小的奖励模型,参数规模从6亿到80亿不等,其在七大主流奖励模型评测榜单中全面夺魁。
Skywork-Reward-V2下载地址:
HuggingFace地址:
https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
GitHub地址:
https://github.com/SkyworkAI/Skywork-Reward-V2
技术报告:
https://arxiv.org/abs/2507.01352
奖励模型在从人类反馈中强化学习(RLHF)过程中发挥着至关重要的作用。在打造这一新一代奖励模型的过程中,我们构建了一个包含总共4000万对偏好对比的混合数据集Skywork-SynPref-40M。
为实现大规模、高效的数据筛选与过滤,昆仑万维特别设计了人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。在这一流程中,人类提供经过严格验证的高质量标注,大型语言模型(LLMs)则根据人工指导进行自动整理和扩充。
基于上述优质的混合偏好数据,我们开发了Skywork-Reward-V2系列,其展现了广泛的适用性,在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风格偏差的抵抗能力,以及best-of-N扩展能力。经实验验证,该系列模型在七个主流奖励模型评测基准上均获得最佳表现。
Skywork-Reward-V2:以小模型尺寸,全方位匹配大模型性能
相比上一代Skywork-Reward,昆仑万维全新发布的Skywork-Reward-V2系列提供了基于Qwen3和LLaMA3系列模型训练的8个奖励模型,参数规模覆盖从6亿至80亿。
在 Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench 等共七个主流奖励模型评估基准上,Skywork-Reward-V2系列全面达到了当前最优(SOTA)水平。
图丨Skywork-Reward-V2系列在七个主流评测集上的表现
以数据质量与丰富度弥补模型规模限制
即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能已几乎达到上一代最强模型Skywork-Reward-Gemma-2-27B-v0.2的平均水平。更进一步,Skywork-Reward-V2-Qwen3-1.7B在平均性能上已超越当前开源奖励模型的SOTA——INF-ORM-Llama3.1-70B。而最大规模的Skywork-Reward-V2-Llama-3.1-8B,在所有主流基准测试中实现了全面超越,成为当前整体表现最优的开源奖励模型。
图丨Skywork-Reward-V2系列在RewardBench v2评测集上的表现
广泛覆盖多维人类偏好能力
在通用偏好评估基准(如Reward Bench)上,Skywork-Reward-V2系列优于多个参数更大的模型(如70B)及最新的生成型奖励模型,进一步验证了高质量数据的重要性。
在客观正确性评估方面(如JudgeBench和PPE Correctness),尽管整体略逊于少数专注于推理与编程的闭源模型(如OpenAI的o系列),但在知识密集型任务中表现突出,超越了所有其他开源模型。
此外,Skywork-Reward-V2在多项高级能力评估中均取得领先成绩:包括Best-of-N(BoN)任务、偏见抵抗能力测试(RM-Bench)、复杂指令理解及真实性判断(RewardBench v2),展现了出色的泛化能力与实用性。
图丨Skywork-Reward-V2在PPE Correctness下五个子集的Best-of-N任务中皆达到最佳
图丨在难度较高、专注评估模型对风格偏好的抗性的RM-Bench上,Skywork-Reward-V2系列也取得了SOTA表现
数据筛选流程具备高度扩展性,显著提升奖励模型性能
除了在性能评估中表现优异,团队还发现在“人机协同、两阶段迭代”的数据构建流程中,经过精细筛选和过滤的偏好数据,在多轮迭代训练中能够持续有效地提升奖励模型的整体性能,尤其是在第二阶段的全自动数据扩展中表现尤为显著。
相比之下,若仅盲目地扩充原始数据,非但无法提升初始性能,反而可能引入噪声,带来负面影响。为进一步验证数据质量的关键作用,我们在早期版本的1600万条数据子集上进行实验,结果显示,仅使用其中1.8%(约29万条)的高质量数据训练一个8B规模模型,其性能就已超过当前的70B级SOTA奖励模型。这一结果再次印证了Skywork-SynPref数据集不仅在规模上处于领先地位,更在数据质量方面具有显著优势。
迎开源奖励模型新里程碑,助力打造未来AI基础设施
在本次第二代奖励模型Skywork-Reward-V2的研究工作中,团队提出了Skywork-SynPref-40M,一个包含4000万个偏好对的数据混合集(其中2600万对经过精心筛选),以及Skywork-Reward-V2,一系列共八个具备最先进性能的奖励模型,设计目标是适用于广泛任务。
我们相信,这项研究工作和奖励模型的持续迭代,有助于推动开源奖励模型的发展,并更广泛促进了基于人类反馈强化学习(RLHF)研究的进步,这是该领域向前迈出的重要一步,也能够进一步加速开源社区的繁荣。
Skywork-Reward-V2系列模型专注于对偏好数据规模扩展的研究,今后团队也将研究辐射面陆续转向其他尚未被充分探索的领域,例如替代训练技术与建模目标。
与此同时,考虑到近期领域内的发展趋势——奖励模型与奖励塑造机制已然成为当今大规模语言模型训练流程中的核心环节,这不仅适用于基于人类偏好学习和行为引导的RLHF,也适用于包含数学、编程或通用推理任务的RLVR以及基于智能体的学习场景。
因此,未来我们设想奖励模型或者更广义的统一奖励系统,有望构成AI基础设施的核心。它们不再仅仅是行为或正确性的评估器,而将成为智能系统在复杂环境中航行的“指南针”,帮助其对齐人类价值观,并持续进化,朝着更有意义的目标前行。
「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。
