
2025年12月31日,最新发布的多模态视觉语言模型综合能力评测结果揭晓。在本次测评中,谷歌研发的Gemini-3-pro以83.64分的成绩位居首位,展现出强劲的技术实力。字节跳动推出的豆包大模型获得73.15分,位列榜单前三,体现了国内企业在多模态人工智能领域的快速进步。
本次评估从基础认知、视觉推理和视觉应用三个层面全面考察各模型的表现。Gemini-3-pro在三项指标中均取得领先,分别获得89.01分、82.82分和79.09分,整体性能优势明显。
在国内模型中,商汤科技的SenseNova V6.5 Pro以75.35分排名靠前,紧随其后的是豆包视觉版。该版本在基础认知方面表现优异,得分达到82.70,优于部分国际同类产品,仅在视觉推理环节略有不足。
此外,百度研发的ERNIE-5.0-Preview与阿里巴巴推出的Qwen3-vl也进入前五名。其中,Qwen3-vl成为本次榜单中唯一一个总分突破70分且开放源代码的模型,显示出较高的技术透明度与社区支持潜力。
在国际主流模型中,Anthropic公司开发的Claude-opus-4-5获得71.44分,而OpenAI的GPT-5.2(high)得分为69.16分,排名处于中下游位置。评测结果显示,当前多模态模型竞争格局正持续演变,国内外技术差距逐步缩小,多个本土模型已在关键能力上具备全球竞争力。