6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底

AI快讯 2025-06-09

2025年高考数学结束当晚,当千万考生还在社交媒体哀嚎"大题送命"时,一场更残酷的智力对决正在上演——字节豆包、腾讯元宝、阿里通义、百度文心、深度求索DeepSeek与OpenAI o3,六款顶级大模型在新鲜出炉的新课标Ⅰ卷上展开厮杀。这场没有硝烟的战争最终以戏剧性比分落幕:​​豆包与元宝以93%正确率并列夺冠,而OpenAI o3竟以47%正确率惨遭垫底​​,其解题过程中暴露的"降智"现象引发行业地震。


战场规则:73分客观题的死亡竞技场

为确保对决公平性,测试团队搭建了严苛到极致的竞技场。选取新课标Ⅰ卷中14道客观题(8单选+3多选+3填空),总分73分,所有题目在考试结束后两小时内完成截取。六大模型通过统一接口接收题目图像,禁用联网搜索功能,关闭System Prompt引导,每道题仅有一次作答机会。评分完全遵循高考标准:单选题5分/题,多选题漏选按正确选项数比例扣分(如ABCD答案选ABC得4.5分),填空题5分/题。

更精妙的是针对模型弱点的"特种作战"设计:当发现DeepSeek存在OCR识别缺陷时,团队启用第三方AI将题目图像转化为精准文本;面对o3可能存在的触发机制,全程监控其推理链中的异常断点。这种近乎军事化的测试环境,使结果成为检验模型推理能力的试金石。


战局全纪实:国产双雄的碾压式胜利

随着计分板最终定格,六大模型呈现三个鲜明梯队:

​第一梯队​​(68分)
字节豆包与腾讯元宝上演双雄会。二者均仅错第6题单选题(立体几何最值问题),但在其他题目上展现恐怖稳定性。尤其多选题环节,二者在3道陷阱题中全部满分通关,其中第12题(概率与数列综合)的解题过程被专家评为"高考标准答案级"推导。

​第二梯队​​(60-63分)
深度求索DeepSeek(63分)与阿里通义(62分)展开胶着战。DeepSeek因图像识别缺陷在第6题得零分,但其在填空题环节的完美表现挽回颓势;通义虽在第6题侥幸蒙对,却在第11题多选题上因论证不严谨痛失4分,其26秒完成所有题目的"速攻流"策略暴露致命缺陷。

​第三梯队​​(≤51分)
百度文心X1 Turbo(51分)与OpenAI o3(34分)深陷泥潭。文心因图像识别和多选题理解双重缺陷,导致3道填空题全错;o3则上演史诗级滑铁卢——单选题正确率仅50%,多选题未获满分,更在第2题(基础集合运算)出现令人咋舌的推理崩坏。


典型战役解剖:AI的阿克琉斯之踵

​战役1:图像理解的生死线(第6题)​
这道配有几何体三视图的单选题,成为模型能力的分水岭:

图片
代码
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
graph TD A[输入图像] --> B{识别能力} B -->|成功| C[豆包/元宝 正确计算2√2] B -->|失败| D[DeepSeek 抱怨“信息不全”] B -->|错误| E[通义 错误推导得正确选项] B -->|崩溃| F[文心/o3 完全误判]
<svg id="svgGraph58553370938815" width="100%" xmlns="http://www.w3.org/2000/svg" class="flowchart" style="max-width: 1066px;" viewBox="0 0 1066 366" role="graphics-document document" aria-roledescription="flowchart-v2">

成功

失败

错误

崩溃

输入图像

识别能力

豆包/元宝 正确计算2√2

DeepSeek 抱怨“信息不全”

通义 错误推导得正确选项

文心/o3 完全误判

</svg>

DeepSeek虽具备最强推理引擎,却因视觉-文本转换缺陷溃败;通义虽侥幸得分,其错误解法暴露逻辑漏洞;而o3竟输出"该几何体不存在"的荒谬结论。

​战役2:多选题的思维迷宫(第11题)​
这道函数性质判断题,要求分析四个命题的真伪:

  • 豆包/元宝:完整推演每个命题,耗时3分钟锁定ABC正确
  • DeepSeek:通过反例验证D错误,稳健拿下满分
  • 通义:武断判定"无法直接推导BD",漏选B、C
  • o3:将多选题当作单选处理,仅选A得1.5分
  • 文心:完全忽略图像中的函数图象提示

​战役3:填空题的细节修罗场(第15题)​
数列公比问题中,文心X1 Turbo完美推导出q=±2,却在最后补充"通常取正值"而痛失5分。这种人类考生常见的画蛇添足,揭示AI在结果输出环节的认知偏差。


进化图谱:三年高考见证AI推理革命

纵向对比揭示惊人进步曲线:

能力维度2023年水平2025年突破典型案例
基础计算9.9>9.11判断错误复杂积分精确求解豆包完成曲面积分
反思能力错误后直接放弃主动验证推倒重来DeepSeek三验第8题
推理链完整性频繁跳步展示完整逻辑链路元宝12步证不等式
题型适应性仅能解常规题应对"逆向设问"陷阱通义破解反套路题

尤其DeepSeek在第8题(概率与导数综合)的解题过程,展现类人思维:首次推导得矛盾结果→检查条件约束→重建概率模型→二次验证,耗时15分钟完成标准考场需25分钟的难题。


致命暗伤:AI解题的七宗罪

尽管整体进步显著,测试仍暴露七大核心缺陷:

​1. 几何直觉缺失​
在立体几何与解析几何题中,所有模型得分率低于代数题15%。o3在第7题(双曲线性质)竟将渐近线方程误作双曲线方程。

​2. 计算精确性陷阱​
通义在第4题(三角函数求值)因角度制转换错误失分;文心在填空题中将√48简化为4√3却漏写系数。

​3. 条件敏感度不足​
豆包虽总分夺冠,却忽略第14题中"锐角三角形"的隐含约束,侥幸因选项设置逃过惩罚。

​4. 多选穷尽障碍​
o3在多选题中平均仅考虑1.8个选项(应查4个),暴露其搜索策略缺陷。

​5. 结果表达失控​
文心在填空题中多余添加解释,DeepSeek在证明题中突然插入无关引理。

​6. 视觉-逻辑转换断层​
涉及图表的三道题目中,模型整体失分率达41%,远高于纯文本题。

​7. 长链推理衰减​
当推理步骤超7步时,正确率平均下降28%,o3在复杂大题中出现"思维断片"现象。


教育启示录:当AI逼近140分

这场测试最深刻的启示在于:​​得分68分的豆包/元宝,已在客观题领域超越90%人类考生​​。随着模型持续进化,教育体系面临三重颠覆性挑战:

​挑战1:评价体系重构​
当AI能10分钟完成满分答卷,高考需增设:

  • 创新解法证明题
  • 开放场景建模题
  • 数学直觉阐述题

​挑战2:教学范式迁移​
传统"题型-技巧"训练模式失效,教学重点应转向:

  • 跨领域知识融合
  • 非常规问题拆解
  • 算法思维培养

​挑战3:认知能力升维​
人类必须守护三大终极堡垒:

  • 几何空间直觉
  • 数学审美判断
  • 元认知监控能力

正如测试中那道无人做对的压轴题——当所有模型在"非欧几何应用"前溃败时,命题组负责人透露:"我们刻意设计了超越考纲的思维跳板,只为检验真正的创造力。"

当豆包在3分钟内解出考生痛骂的"变态题"
当o3在基础集合题中突然"降智"
这场对决映照的不仅是技术鸿沟
更是人类智能的深邃与脆弱

未来三年,当大模型在高考数学中突破140分时,教育的核心使命将从"传授解题术"升维至"培育提问者"。那些能提出让AI崩溃的"第六层难题"的头脑,才是人类文明真正的火种。此刻考场外,已有教师将测试错题集转化为教案,带领学生分析AI的思维断点——这或许正是人机共生的终极形态:以机器为镜,照见人类智慧最独特的棱角。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章