2026-01-02 08:25:24

蚂蚁发布LLaDA2.0:百亿参数扩散模型实现性能突破

摘要
蚂蚁技术研究院正式发布LLaDA2 0系列离散扩散大语言模型,并同步公开相关技术报告。此次发布的模型标志着扩散架构在大模型领域的重大进展

蚂蚁发布LLaDA2.0:百亿参数扩散模型实现性能突破

蚂蚁技术研究院正式发布LLaDA2.0系列离散扩散大语言模型,并同步公开相关技术报告。此次发布的模型标志着扩散架构在大模型领域的重大进展,突破了此前业界对扩散模型难以实现大规模扩展的普遍认知,成功实现了参数规模与实际性能的双重跃升。

LLaDA2.0系列涵盖两个版本:基于MoE架构的16B(mini)与具备里程碑意义的100B(flash),首次将扩散模型的参数量级推进至百亿级别。实测结果显示,该模型在代码生成、数学推理及智能体任务等关键能力上,已超越同等规模的自回归模型,展现出更强的综合表现力。

为有效利用已有模型的知识积累,团队提出Warmup-Stable-Decay(WSD)持续预训练策略,使LLaDA2.0能够高效继承自回归模型的训练成果,大幅降低从零开始训练所需的时间与资源消耗。在训练方法上,模型融合了置信度感知的并行训练机制(CAP)以及面向扩散结构优化的DPO变体,在确保生成质量的同时,充分释放了扩散模型在并行解码方面的潜力。

最终,LLaDA2.0在实际推理中实现了最高达自回归模型2.1倍的加速效果。这一成果表明,当参数规模达到超大量级时,扩散模型不仅具备技术可行性,更在性能和效率层面展现出超越传统自回归架构的潜力,为未来大模型的发展路径提供了新的方向。

科技趋势
时事资讯
回顶部