刚刚过去的2025年,是故宫博物院建院100周年。如今,这座浓缩了中华五千多年文明血脉的博物院不仅承载着厚重的历史记忆,也在人工智能技术的加持下焕发出全新的活力。
近日,故宫博物院与火山引擎联合推出“听宝贝说”AI互动播客。这款AI应用产品依托豆包大模型等AI技术,用户只需简单跟读一句话,即可生成个人音色的文物播客,用生动趣味的互动方式讲述故宫文物的故事。即日起至2026年3月31日,用户可在“故宫博物院”微信小程序中进行体验。据了解,“听宝贝说”AI播客重点面向亲子陪伴场景,鼓励家长与孩子共同录制AI文物播客,在轻松的亲子互动氛围中,让孩子更深刻地学习文物历史故事。
当百年故宫“遇上”豆包大模型,这一极具反差感的碰撞,是传统文化与现代科技“双向奔赴”的又一案例。行业分析指出,“科技+文化”的跨界合作,不仅有助于推动AI技术的普及,也将为传统文化的传承与传播开辟了新路径。
故宫“焕新”,AI播客“讲述”文物新故事
“北宋时期,有一位叫张择端的画家叔叔,他用他超级厉害的眼睛和画笔,把一千年前开封城的热闹生活都画下来……”这是一段用“听宝贝说”AI互动播客生成的关于《清明上河图》的个性化讲解。用户打开“听宝贝说”AI互动播客,点击“开始创作”,便可选择一件感兴趣的历史文物,花十几秒录制一段自己的声音后,一段以用户声音生成的关于该文物的讲解作品便完成了。
甲骨、青铜、瓷器、书画……故宫博物院的藏品涵盖了我国古代各类艺术瑰宝。据了解,“听宝贝说”从故宫190多万件藏品中,精心遴选了从新石器时期到清朝不同历史时期的30件代表性文物,深入挖掘背后的历史内涵和文化知识,并将其转化为儿童也可以轻松理解的趣味性表达,为青少年提供了一个近距离感受故宫文物藏品的机会。
相比于听老师和导游讲解的传统教育方式,“听宝贝说”将文物故事转化为一场充满陪伴感与情感温度的声音互动。借助“听宝贝说”AI播客,来自千百年前的故宫文物仿佛穿越时空,将文物知识转化成了可感知的视听语言,与孩子进行一场亲密生动的对话。
AI赋能,大模型带来知识探索新体验
深奥专业的文物知识,如何在保证权威与严谨的同时,转化为生动有趣、可被青少年理解和接受的视听语言?这背后离不开大模型技术的加持。
“讲好文物故事需要专业的知识,故宫宣教老师会提供经专家论证过的文物介绍。但这些专业科学的知识,小朋友往往听不懂,因此要进行通俗化的改写,这就需要故宫老师和豆包大模型共同完成。”火山引擎文旅行业总监宋博文介绍,通过让模型不断学习和仿写改写后的通俗化版本,最终输出兼具准确性与口语化的结果。
在产品实测中,“听宝贝说”AI播客可根据用户录制的声音生成文物介绍,也引入了喜羊羊、熊大、熊二、光头强、宫猫等多种音色,孩子可以选择自己喜爱的角色来讲文物故事。此外,用户还可以选择“小科普员”或“小历史学家”等不同角色,生成相应风格的播客内容。
这些功能的实现,主要基于豆包大模型的多模态能力。据了解,“听宝贝说”依托豆包声音复刻模型2.0、豆包角色扮演模型。其中,豆包声音复刻模型2.0基于全新的语音合成架构,从单纯的声线模仿进化到深度语义理解和情感表达,表现出更强的声音表现力。用户仅需跟读一句话,豆包声音复刻模型2.0即可在几秒内捕捉其声音特征,生成融合其自身声线的声音,并可精准解析文本情绪,表现出符合情绪的音色、语速和语调。豆包角色扮演模型则能够精准把握角色人设,凭借强大的上下文感知与剧情推动能力,生成符合不同角色叙事风格的播客脚本,让知识探索变得如游戏般引人入胜。
科技助力,探索文物活化与文化传承新可能
事实上,“听宝贝说”AI播客并非故宫与火山引擎的首次合作。今年中秋,故宫博物院与火山引擎推出了AIGC视频《故宫宝贝团圆夜》,依托豆包视频生成模型和豆包图像创作模型制作,运用影视级视频生成技术,让文物在数字世界中“复活”。
据了解,火山引擎一直以来持续在科技助力文物活化与文化传承方面进行探索。在数字文博领域,火山引擎利用AIGC技术绘制非遗百景图,生动展现中国传统技艺;与北京大学联合研发的“识典古籍”平台已开放超3万部古籍;此外,还利用数字活化技术将山西高平二郎庙金代戏台和北京正乙祠古戏楼等历史建筑生成数字资产,打造“虚拟直播间”,让观众远程“触摸”历史建筑,助力传统戏剧的当代传播。
宋博文表示,火山引擎未来还将持续探索“AI+公共文化”的深度融合。目前,团队正与部分博物馆探索打造虚实融合的文物互动空间,游客通过虚拟现实设备,可在沉浸式场景中与数字形象对话。此外,团队也在尝试构建专项知识智能体,如还原古代匠人声音以讲解工艺细节,或让用户与古代书画家进行跨时空艺术探讨。这些脑洞大开的尝试,正一步步将技术赋能文化传承的想象变为现实。