近日,声网与RTE开发者社区联合主办的 Convo AI & RTE 2025 第十一届实时互联网大会在北京举行,本届大会以“AI 有声”为主题,重点聚焦实时互动(RTE)与对话式 AI (Convo AI)深度融合的新场景、新架构与新机遇。
资料显示,RTE(Real-Time Engagement)指实时互动技术,正广泛应用于直播、电竞、远程办公、在线教育、IoT、元宇宙。实时互动指在远程条件下沟通、协作的多方能够随时随地接入、实时传递、虚实融合的多维信息,并体验身临其境的交互活动。
在今年的RTE 2025实时互联网大会开场演讲中,声网创始人兼CEO赵斌表示,声网年度服务分钟数首次突破1万亿分钟,标志着RTE技术已成为不可或缺的关键基础设施。与此同时,视频高清化比例在过去两年增长超过10倍,海外市场720p以上分辨率流量占比已超80%,WebRTC全球搜索热度呈现爆发式增长,标志着实时互动行业正迎来新一轮创新热潮。
然而,在基础设施日趋完善的同时,产业依然面临着从“连通”到“对话”的本质挑战。当交互对象从“人与人”扩展到“人与AI”,实时互动在环境感知与交互自然度上仍存在明显缺陷。行业数据显示,仅21%的用户对现有AI对话体验满意,部分服务的用户流失率高到“不可接受”。要实现真正的“类人对话”,企业必须系统性攻克低延迟响应、自然打断、上下文管理、情感理解与表达等复杂挑战。
多模态大语言模型(LLM)的出现让计算机具备了类人的实时语音对话能力,为解决这些挑战带来了全新路径。赵斌表示,对话式AI正驱动RTE从能够“正常对话”到 “声情并茂”的关键跃迁,为RTE行业带来一个不可估量的全新市场。
第三方机构Deepgram和Opus Research调研显示,67%的企业已将语音AI智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入。在开发者生态中,对话式AI与语音智能体创业公司呈现爆发式增长态势。数据显示,声网对话式AI 相关用量在2025年第三季度实现151%的环比增长。
在众多应用场景中,对话式AI将在情感陪伴、智能硬件、在线教育三大场景中率先实现规模化落地。在大会现场,赵斌演示了AI客服的功能,展现了当前对话式AI在实时交互与场景理解方面取得的突破性进展。
此前在2025世界人工智能大会(waic)上,声网正式发布新版对话式AI引擎,该版本新增声纹识别、数字人与视觉理解三项功能,实现对话式AI音视频交互体验的全新升级。
为帮助企业和开发者把握这一机遇,声网在大会上正式发布了《2025对话式AI发展白皮书》及《对话式AI好奇者手册》,为行业提供了一套系统的实践指南。同时,声网推出了对话式AI引擎2.0,对话式AI开发套件、对话式AI模型评测平台和对话式AI Studio,加速对话式AI在实时互动行业的应用创新。