
腾讯混元于2025年12月17日宣布,其新一代世界模型1.5版本正式推出。该模型支持通过文字描述或图片输入,快速生成可互动的虚拟世界。用户可通过键盘、鼠标或手柄实时操控虚拟相机的移动与视角变换,实现如游戏般的沉浸式探索体验。
此次发布的版本首次完整开源了覆盖全链路的实时世界模型框架,包含数据构建、模型训练到流式推理部署的各个环节。技术层面,引入了多项创新模块,包括重构记忆力机制、长上下文蒸馏方法,以及基于3D结构的自回归扩散模型与强化学习融合算法。
在功能表现上,混元世界模型1.5具备三大核心能力。其一为实时交互生成,依托原创的Context Forcing蒸馏策略与流式推理优化,可在720P分辨率下以每秒24帧的速度持续输出画面。其二为实现长时程的三维几何一致性,借助重构记忆机制,支持分钟级连续内容的稳定空间结构生成,适用于高精度3D模拟场景构建。其三为提供多样化交互方式,兼容多种视觉风格与现实或虚构场景,支持第一人称与第三人称视角切换,并具备实时文本触发事件响应及视频内容延续生成等功能。
该模型的核心架构为WorldPlay自回归扩散模型,采用Next-Frames-Prediction视觉自回归训练范式,有效解决了在保证实时响应的同时维持长时间3D一致性的技术挑战,实现了交互式虚拟世界构建的新突破。