难哭了的高考数学题,4家国产大模型表现如何?
发表于 2025-06-10 21:22:42

2025年高考已经来到最后一天,第一天语文和数学两门科目刚结束,数学相关的话题就上了热搜。众多考生纷纷表示,“高中数学难哭”、“考场出来都沉默了”。

(来源网络)

目前已经看到许多家大模型晒出他们语文作文的优秀案例,但数学题还鲜少提及。一方面相比作文,数学题的确更具有挑战,包括逻辑推理的严谨性、数学符号的精准处理、抽象概念的理解深度等等。另一方面,难道是因为今年题目实在太难,连AI都难倒了?不过多猜测,我们也直接找到了2025 年数学新课标 Ⅰ 卷,并挑选了4为大模型“选手”来做题PK。

他们分别是:腾讯元宝(混元T1)、豆包、QWen3、以及文心 X1 Turbo。

4位“选手”都做了数学1卷全套卷子,包括选填题以及解答题。并且每家大模型都选择了深度思考,尽量保证公平性。由于标准答案并没有释放,我们也邀请了多位高中在职教师来交叉验证。

首先,在选择题的部分,我们按照高考实际打分要求,单选题选项正确计分,错误不得分。多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,错选不得分。填空题填空正确计分,错误不得分。

可以看到,元宝和豆包两家表现较为优秀,都只错了一道选择题,拿到了68分(满分73分)。而这道选择题也难到了一众选手,可以说是全军覆没,具体什么题我们稍后再看。另外QWen3和文心 X1 Turbo就稍逊一筹,分别拿到了55分和60分。它们在第8道选择题都犯了难,另外QWen3在多选题中也因为选项没有选全,而失去部分分数。

我们先来看看让所有大模型都失分的“杀手”题,作为唯一一道带图像的题目,里面还涉及两个向量图,各家大模型都理解的不太好。这也是元宝和豆包唯一失误的一道题。

而让QWen3和文心 X1 Turbo都失分的第8题,仔细看发现,QWen3得出了正确的结论但可能误解了题目意思,导致最后给出错误的选项。而文心整体回答上都有些跑偏。

元宝和豆包无论在解题,还是理解题意上都做得比较好,也顺利给出了正确的答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

(客观题评分参考)

接下来再看看真正“难哭”一众考生的解答题,比如第16题,包含了等差数列、函数等多个知识点,各家大模型以及网传的答案有很多版本。

可以看到,这题的难点主要聚焦在第二小问,4位“选手”在第一小问都答出了正确的答案。在第二小问,豆包、元宝、文心 X1 Turbo给出了正确答案,而QWen3出现偏差较远的答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

同样比较有争议的还有第18题,同样的,前面两个小问4位“选手”都给出了准确的答案,其中第二小问,虽每家大模型给出的答案形式不同,但经验证是等价的,故都判为正确。

但第三小问只有元宝给出了准确的答案,豆包、QWen3的答案都不准确,文心 X1 Turbo甚至未能给出一个答案。

元宝答题:

豆包答题:

通义答题:

文心答题:

最后,我们也邀请到了一位高中数学老师来为4位“选手”的解答题打分。打分标准为答案正确即给满分,答案错误,综合考虑过程给分,由于标准答案还未公布,打分仅供参考。

总体来看,元宝和豆包的表现较为突出,元宝仅错一道选择题,拿到了145分。豆包则错了一道选择题、以及第18题解答题的一个小问,拿到了140分的高分。但即使是稍微落后的QWen3和文心 X1 Turbo,也能达到80%-85%的正确率,可以看到国产大模型在数学方面的能力已经有了非常大的提升。

相信未来,随着科技飞速的发展,大模型疯狂“内卷”,整体能力也会再次进化。当面对明年的高考题,大模型是否会能毫无疑问的拿到全科满分了呢?


「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】