大模型视觉能力测评榜单发布：Gemini优势显著领跑豆包跻身前三甲

更新：2026-02-06 11:06:32

12月31日消息，近日，SuperCLUE-VLM多模态视觉语言基准测评12月总榜已正式公布。

谷歌的Gemini-3-pro以83.64分的成绩大幅领先，字节跳动的豆包大模型则以73.15分进入前三名，这体现出了国内大模型所具备的竞争力。

此次评估从基础认知、视觉推理、视觉应用这三个维度对多模态大模型展开测评。

位居榜首的Gemini-3-pro在三项细分指标上都展现出卓越表现，其中基础认知得分为89.01分、视觉推理82.82分、视觉应用79.09分，在各方面均领先于其他模型。

在国内阵营里，商汤科技的SenseNova V6.5 Pro拿到75.35分，排在第二位；字节跳动的豆包视觉版则紧跟其后，它的基础认知得分达到82.70分，这一成绩甚至比部分国际竞品还要出色，只是在视觉推理这一环节上略有些不足。

百度ERNIE-5.0-Preview、阿里巴巴Qwen3-vl等国内模型同样跻身前五，值得一提的是，Qwen3-vl是该榜单中首个实现开源且总分突破70分的模型。

在国际头部模型的评分中，Anthropic旗下的Claude-opus-4-5取得了71.44分的成绩，而OpenAI的GPT-5.2(high)仅获得69.16分，在排名上处于相对靠后的位置。

最新游戏 更多

游戏攻略

星露谷物语中玛鲁的好感度相关事件都包含哪些内容

下一站江湖2大雪山晋升攻略

热门游戏更多

奇怪的消星星赚钱版

蜡笔小新之小帮手大作战无广告版

我拼图贼牛红包版

魔法糖果爆破红包版

恐怖躲猫猫33d版

汉字高手红包版

植物大战僵尸苏戏版

我要当歌星2红包版