难哭了的高考数学题，4家国产大模型表现如何？-CSDN.NET

CSDN首页> 业界

订阅业界RSS

难哭了的高考数学题，4家国产大模型表现如何？

发表于 2025-06-10 21:22:42

2025年高考已经来到最后一天，第一天语文和数学两门科目刚结束，数学相关的话题就上了热搜。众多考生纷纷表示，“高中数学难哭”、“考场出来都沉默了”。

（来源网络）

目前已经看到许多家大模型晒出他们语文作文的优秀案例，但数学题还鲜少提及。一方面相比作文，数学题的确更具有挑战，包括逻辑推理的严谨性、数学符号的精准处理、抽象概念的理解深度等等。另一方面，难道是因为今年题目实在太难，连AI都难倒了？不过多猜测，我们也直接找到了2025 年数学新课标 Ⅰ 卷，并挑选了4为大模型“选手”来做题PK。

他们分别是：腾讯元宝(混元T1)、豆包、QWen3、以及文心 X1 Turbo。

4位“选手”都做了数学1卷全套卷子，包括选填题以及解答题。并且每家大模型都选择了深度思考，尽量保证公平性。由于标准答案并没有释放，我们也邀请了多位高中在职教师来交叉验证。

首先，在选择题的部分，我们按照高考实际打分要求，单选题选项正确计分，错误不得分。多选题 3 道，每道 6 分，全对计 6 分，漏选按正确答案数量计分，错选不得分。填空题填空正确计分，错误不得分。

可以看到，元宝和豆包两家表现较为优秀，都只错了一道选择题，拿到了68分（满分73分）。而这道选择题也难到了一众选手，可以说是全军覆没，具体什么题我们稍后再看。另外QWen3和文心 X1 Turbo就稍逊一筹，分别拿到了55分和60分。它们在第8道选择题都犯了难，另外QWen3在多选题中也因为选项没有选全，而失去部分分数。

我们先来看看让所有大模型都失分的“杀手”题，作为唯一一道带图像的题目，里面还涉及两个向量图，各家大模型都理解的不太好。这也是元宝和豆包唯一失误的一道题。

而让QWen3和文心 X1 Turbo都失分的第8题，仔细看发现，QWen3得出了正确的结论但可能误解了题目意思，导致最后给出错误的选项。而文心整体回答上都有些跑偏。

元宝和豆包无论在解题，还是理解题意上都做得比较好，也顺利给出了正确的答案。

元宝答题：

豆包答题：

通义答题：

文心答题：

（客观题评分参考）

接下来再看看真正“难哭”一众考生的解答题，比如第16题，包含了等差数列、函数等多个知识点，各家大模型以及网传的答案有很多版本。

可以看到，这题的难点主要聚焦在第二小问，4位“选手”在第一小问都答出了正确的答案。在第二小问，豆包、元宝、文心 X1 Turbo给出了正确答案，而QWen3出现偏差较远的答案。

元宝答题：

豆包答题：

通义答题：

文心答题：

同样比较有争议的还有第18题，同样的，前面两个小问4位“选手”都给出了准确的答案，其中第二小问，虽每家大模型给出的答案形式不同，但经验证是等价的，故都判为正确。

但第三小问只有元宝给出了准确的答案，豆包、QWen3的答案都不准确，文心 X1 Turbo甚至未能给出一个答案。

元宝答题：

豆包答题：

通义答题：

文心答题：

最后，我们也邀请到了一位高中数学老师来为4位“选手”的解答题打分。打分标准为答案正确即给满分，答案错误，综合考虑过程给分，由于标准答案还未公布，打分仅供参考。

总体来看，元宝和豆包的表现较为突出，元宝仅错一道选择题，拿到了145分。豆包则错了一道选择题、以及第18题解答题的一个小问，拿到了140分的高分。但即使是稍微落后的QWen3和文心 X1 Turbo，也能达到80%-85%的正确率，可以看到国产大模型在数学方面的能力已经有了非常大的提升。

相信未来，随着科技飞速的发展，大模型疯狂“内卷”，整体能力也会再次进化。当面对明年的高考题，大模型是否会能毫无疑问的拿到全科满分了呢？

「免责声明」：以上页面展示信息由第三方发布，目的在于传播更多信息，与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担，以上网页呈现的图片均为自发上传，如发生图片侵权行为与我们无关，如有请直接微信联系g1002718958。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】