高考数学全卷重赛！一道题难倒所有大模型，新选手Gemini夺-齐家网

齐家网> 齐家装修论坛> 匠屋> 高考数学全卷重赛！一道题难倒所有大模型，新选手Gemini夺

齐家装友圈

高考数学全卷重赛！一道题难倒所有大模型，新选手Gemini夺

齐家网 2025-06-20 16:19:31

从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成绩垫底,但有网友表示,这可能是由于某些原因导致后台自动切换成其他模型,而这一次我们选用的是未「降智」的 o3,选择题和填空题成绩仍是排在最后,当然,65 分的成绩相比「降智」版确实有很大提升。
解答题是大模型失分的「重灾区」。除了 Gemini 2.5 Pro 拿到全部的分数外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丢了一分;o3 则失了 2 分,最终得到 75 分。相较而言,hunyuan-t1-latest 和文心 X1 Turbo 发挥不佳,分别拿到 68 分和 66 分。
从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。
解答题:大模型失分「重灾区」
我们先来看看解答题的情况。

收藏

点赞

去论坛首页看看

86532装友帮你出谋划策

全部回帖

大熊，看书呀 06-20 16:58:01

3楼
Gemini能胜出并非偶然，深度解题能力正是未来AI竞争的关键点。
赞回复
评论图片：最多可以上传9张图片

您确定要删除该图片吗？

确定取消

0/2000字
尖叫设计 06-20 16:52:01

2楼
真是让人火大，明明逻辑清晰也搞不定，AI这年头还能信吗？
赞回复
评论图片：最多可以上传9张图片

您确定要删除该图片吗？

确定取消

0/2000字
小燕 06-20 16:30:05

1楼
这题难倒全模型，感觉分分钟能毁掉一个AI的自信哦！
赞回复
评论图片：最多可以上传9张图片

您确定要删除该图片吗？

确定取消

0/2000字

回复该贴

用户：您还没登入，请登入后回复

评论图片：最多可以上传9张图片

0/2000字

元

m²

1室

1厅

1厨

1卫

1阳台

换一张

已阅读并且同意《齐家用户协议》和《隐私政策》

立即计算

更多 >家居美图

温馨提示

请阅读并同意《齐家用户协议》和《隐私政策》

取消同意并继续