4月24日,继Skywork-R1V首次成功实现“强文本推理能力向视觉模态的迁移”之后,昆仑万维正式开源多模态推理模型的全新升级版本——Skywork-R1V 2.0(以下简称“R1V 2.0”) 。
Skywork-R1V 2.0是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异,真正实现多模态大模型的“深度+广度”统一。
据介绍,在多个权威基准测试中,R1V 2.0相较于R1V 1.0在文本与视觉推理任务中均实现显著跃升。无论是专业领域任务,如数学推理、编程竞赛、科学分析,还是通用任务,如创意写作与开放式问答,R1V 2.0都呈现出极具竞争力的表现。
为实现多模态大模型在“深度推理”与“通用能力”之间的最佳平衡,R1V 2.0引入了全新的“多模态奖励模型Skywork-VL Reward”及“规则驱动的混合强化训练机制”。既可为通用视觉语言模型(VLM)提供高质量奖励信号,又能精准评估多模态推理模型长序列输出的整体质量,同时也可以作为并行线上推理最优答案选择的利器。这种能力使得Skywork-VL Reward模型在多模态强化学习任务中具有广泛的适用性,促进了多模态模型的协同发展。
同时,R1V 2.0引入MPO(Mixed Preference Optimization,混合偏好优化)机制,在偏好训练中充分发挥Skywork-VL Reward奖励模型的指导作用。
在通用任务训练阶段,R1V 2.0借助Skywork-VL Reward提供的偏好信号,引导模型进行偏好一致性优化,从而确保模型在多任务、多领域下具备良好的通用适应能力。
在训练深度推理能力时,R1V 2.0采用基于规则的群体相对策略优化GRPO(Group Relative Policy Optimization)方法。该策略通过同组候选响应之间的相对奖励比较,引导模型学会更精准的选择和推理路径。
昆仑万维表示,R1V 2.0的诞生,不仅推动了开源多模态大模型在能力边界上的突破,更为多模态智能体的搭建提供了新的基座模型。
公司将继续秉持“开源、开放、共创”的理念,持续推出领先的大模型与数据集,赋能开发者、推动行业协同创新,加速通用人工智能(AGI)的实现进程。(燕云)
校对:王朝全