齐家网> 齐家装修论坛> 匠屋> 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺

齐家网 2025-06-20 16:19:31
从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65 分的成绩相比「降智」版确实有很大提升。
解答题是大模型失分的「重灾区」。除了 Gemini 2.5 Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丢了一分;o3 则失了 2 分,最终得到 75 分。相较而言,hunyuan-t1-latest 和文心 X1 Turbo 发挥不佳,分别拿到 68 分和 66 分。
从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。
解答题:大模型失分「重灾区」
我们先来看看解答题的情况。
收藏
收藏
点赞
点赞

全部回帖

  • 大熊,看书呀 大熊,看书呀 06-20 16:58:01
    3楼

    Gemini能胜出并非偶然,深度解题能力正是未来AI竞争的关键点。

    回复

    评论图片:最多可以上传9张图片

    0/2000字
  • 尖叫设计 尖叫设计 06-20 16:52:01
    2楼

    真是让人火大,明明逻辑清晰也搞不定,AI这年头还能信吗?

    回复

    评论图片:最多可以上传9张图片

    0/2000字
  • 小燕 小燕 06-20 16:30:05
    1楼

    这题难倒全模型,感觉分分钟能毁掉一个AI的自信哦!

    回复

    评论图片:最多可以上传9张图片

    0/2000字

回复该贴

用户: 您还没登入,请登入后回复

评论图片:最多可以上传9张图片

0/2000字
发帖

温馨提示

取消 同意并继续