2025-11-30 10:45:02

DeepSeekMath-V2开源发布:自我验证架构登顶数学AI新高度

摘要
2025年11月27日,备受关注的某家人工智能实验室尚未推出其新一代大模型V4,但并未停止技术探索的脚步。就在当晚,该团队悄然发布了全新数

2025年11月27日,备受关注的某家人工智能实验室尚未推出其新一代大模型V4,但并未停止技术探索的脚步。就在当晚,该团队悄然发布了全新数学推理模型DeepSeekMath-V2,再次引发业界关注。

DeepSeekMath-V2基于此前的V3.2实验基础模型构建,采用了一套具备自我验证能力的训练框架。该系统通过大语言模型驱动的验证机制,自动评估生成数学证明的正确性,并利用高难度题目持续迭代优化,从而提升推理准确性与稳定性。

目前,该模型的完整代码与预训练权重已向公众开放,发布于主流开源平台,支持自由下载与研究使用。

在实际表现方面,该模型展现出卓越的数学解题能力。在IMO 2025和CMO 2024两项国际高水平数学竞赛中均达到金牌水准,Putnam 2024测试中取得118分(满分120)。在标准化评测中,Basic级别测试获得99分,显著领先于其他主流大模型;Advanced级别得分虽略低于某款专为数学任务优化的模型(65.7分),但仍处于第一梯队。

值得注意的是,该模型在完全开源且免费的前提下实现上述性能,使其成为当前最具实用价值与研究潜力的数学专用模型之一。

尽管成果显著,研发团队仍保持审慎态度,指出当前工作仍有改进空间,但结果表明,引入自我验证机制的数学推理路径具备可行性,有望推动更强大数学人工智能系统的发展。

回顾该团队近期在OCR、逻辑推理等多个垂直领域的持续突破,可见其在通用大模型V4发布前,已在多模态理解与专业化能力上积累了深厚技术储备。若未来V4能够整合这些进展,实现跨模态、多任务的全面升级,或将带来更具影响力的模型形态,值得期待。

科技趋势
时事资讯
回顶部