昆仑万维：正式推出并开源多模态统一预训练模型Skywork UniPic

来源：证券时报网作者：燕云2025-07-30 10:58

7月30日，昆仑万维正式推出并开源采用自回归路线的“多模态统一预训练模型Skywork UniPic”，在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大规模高质量数据进行端到端预训练，具备良好的通用性与可迁移性。

GPT-4o的迅速走红，标注着人工智能领域多模态统一预训练模型的成熟。据了解，Skywork UniPic 延续了GPT-4o的自回归范式，在单一模型中深度融合图像理解、文本生成图像（T2I）与图像编辑三大核心任务，构建了真正统一的多模态模型架构。

传统多模态统一模型多依赖VQ或VAE编码器来压缩视觉内容，虽然具备一定效果，但也存在局限性，它们更侧重保留图像的视觉细节而非语义信息，这会在一定程度上削弱模型的图像理解能力。为此，Skywork UniPic团队借鉴Harmon架构设计，并在表征方式上做出关键调整，采用MAR编码器作为图像生成路径的视觉表征基础，同时引入SigLIP2作为图像理解路径的主干。

此外，Skywork-UniPic完成端到端优化流程，能够实现生成、理解、编辑三大能力的协同训练和相互促进，突破传统方法中能力权衡的技术瓶颈。

这一架构设计不仅保持了自回归模型的简洁高效，更通过共享编码器实现了跨任务的深度协同，为多模态统一模型的实用化部署奠定了坚实基础。用户只需要输入提示词，Skywork-UniPic既可以像VLM一样理解图像、像T2I模型一样生成图片，还可以像美图工具一样，一键实现风格转绘/吉卜力化的编辑功能。

公司在追求模型能力极限的同时，也坚持效率重要性的设计理念。Skywork UniPic以1.5B的紧凑参数规模，真正诠释了“小而美”的技术美学。

昆仑万维表示，过去半年公司先后开源了多个SOTA大模型，涵盖奖励模型、推理、软件工程、多模态、空间智能等领域。今天，Skywork-UniPic正式加入“Skywork”开源大家庭，让AI真正成为每个人触手可及的创意伙伴。（燕云）

责任编辑：王智佳

校对：冉燕青

昆仑万维

多模态统一预训练模型

Skywork UniPic

声明：证券时报力求信息真实、准确，文章提及内容仅供参考，不构成实质性投资建议，据此操作风险自担

下载“证券时报”官方APP，或关注官方微信公众号，即可随时了解股市动态，洞察政策信息，把握财富机会。

网友评论