近日,智元牵头联合清华大学、麦吉尔大学完成的研究成果MANSION成功入选CVPR2026。该成果在全球首次提出面向整栋建筑的语言驱动多楼层3D场景生成框架,构建大规模场景生态系统,为具身智能落地复杂现实环境打造关键“数字试验场”。
当机器人在医院跨楼层运送物资、在写字楼完成多楼层配送、在家庭执行跨空间家务,这些长时程、跨楼层任务,正是具身智能走向现实的核心考验。当前行业研究场景仍停留在“单层样板间”,与真实世界需求存在显著断层。
近年来,机器人感知、操作、导航能力快速提升,但场景基准严重滞后。真实扫描数据成本高、难编辑;现有合成环境多为单层布局,缺少楼梯、电梯、跨层连接等关键结构,无法支撑跨楼层、长时程复杂任务训练。
场景研究停留在“样板间时代”,已成为制约具身智能走向现实的核心瓶颈。构建可交互、可配置、贴近真实的楼宇级研究平台,成为行业迫切需求。
为破解行业难题,该团队创新推出MANSION混合框架,融合多模态大模型与几何求解器,实现从自然语言指令到完整多楼层3D建筑的端到端生成。
区别于简单房间拼接,MANSION从建筑全局逻辑出发:先规划整栋楼功能分区、垂直交通与整体风格,再逐层生成拓扑结构与房间布局,通过几何求解生成符合物理约束的平面图,最终生成可直接在仿真器运行的交互式3D场景。框架从源头保证楼梯、电梯、跨层结构对齐合理,生成建筑连贯可用。
基于MANSION,团队发布MansionWorld数据集:包含1000+栋多楼层建筑、2—10层、10000+房间,覆盖住宅、办公、医院、学校、商超等全场景,支持导出至Blender、NVIDIAIsaacSim等平台,全面赋能全球研究。
公开资料显示,CVPR是计算机视觉领域全球顶级会议,MANSION的入选,标志着学术界对这项工作的创新性与价值的认可。从单层到多层、从静态到可编辑、从“仿真场景”到“真实任务世界”,MANSION不仅是技术突破,更重新定义具身智能研究方向,即让技术扎根真实需求,服务产业落地。
智元机器人表示,未来将持续深耕具身智能核心技术,开放MansionWorld数据集与生态能力,携手全球产学研伙伴,推动通用机器人走进楼宇、家庭、医院、商场等复杂现实场景,以持续创新打造中国机器人全球技术名片。