2026-01-02 16:33:44

蚂蚁发布千亿元级LLaDA2.0扩散大模型

摘要
12月12日,蚂蚁技术研究院正式发布LLaDA2 0系列离散扩散大语言模型(dLLM),并同步公开了相关技术报告,宣布其为业内首个参数规模达到10

蚂蚁发布千亿元级LLaDA2.0扩散大模型

12月12日,蚂蚁技术研究院正式发布LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开了相关技术报告,宣布其为业内首个参数规模达到1000亿级别的扩散语言模型。

LLaDA2.0包含基于MoE架构的两个版本:16B mini与100B flash,首次将Diffusion模型的参数量级拓展至100B以上。此次发布打破了扩散模型难以扩展的传统认知,在代码生成、数学推理以及智能体任务等关键领域,展现出优于同级别自回归模型(AR)的能力表现。

通过创新提出的Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0实现了对现有自回归模型知识的有效继承,显著降低了从零开始训练带来的资源消耗。在此基础上,结合置信度感知并行训练(CAP)和专为扩散模型设计的DPO优化方法,不仅确保了生成内容的质量稳定性,还充分利用扩散模型的并行解码特性,在推理速度上相较传统AR模型提升达2.1倍,验证了超大规模参数下扩散模型在性能和效率上的双重优势。

研究团队在知识理解、数学、代码、推理及智能体等多个维度对模型进行了系统评估。结果表明,LLaDA2.0在结构化文本生成任务如编程代码方面表现尤为突出,同时在其他通用能力维度上可与主流开源自回归模型相媲美。

目前,LLaDA2.0的模型权重(涵盖16B与100B版本)及配套训练代码已全部开放,相关资源可在Huggingface平台获取。

科技趋势
时事资讯
回顶部