豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源
来源:人民财讯2025-02-10 13:42

证券时报e公司讯,据豆包大模型团队消息,视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”,VideoWorld仅通过“视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅300M参数量下,VideoWorld已取得可观的模型表现。作为一种通用视频生成实验模型,VideoWorld去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。

责任编辑: 许擎天梅
声明:证券时报力求信息真实、准确,文章提及内容仅供参考,不构成实质性投资建议,据此操作风险自担
下载“证券时报”官方APP,或关注官方微信公众号,即可随时了解股市动态,洞察政策信息,把握财富机会。
网友评论
登录后可以发言
发送
网友评论仅供其表达个人看法,并不表明证券时报立场
暂无评论
为你推荐
时报热榜
换一换
    热点视频
    换一换