6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
2025年高考数学结束当晚,当千万考生还在社交媒体哀嚎"大题送命"时,一场更残酷的智力对决正在上演——字节豆包、腾讯元宝、阿里通义、百度文心、深度求索DeepSeek与OpenAI o3,六款顶级大模型在新鲜出炉的新课标Ⅰ卷上展开厮杀。这场没有硝烟的战争最终以戏剧性比分落幕:豆包与元宝以93%正确率并列夺冠,而OpenAI o3竟以47%正确率惨遭垫底,其解题过程中暴露的"降智"现象引发行业地震。
战场规则:73分客观题的死亡竞技场
为确保对决公平性,测试团队搭建了严苛到极致的竞技场。选取新课标Ⅰ卷中14道客观题(8单选+3多选+3填空),总分73分,所有题目在考试结束后两小时内完成截取。六大模型通过统一接口接收题目图像,禁用联网搜索功能,关闭System Prompt引导,每道题仅有一次作答机会。评分完全遵循高考标准:单选题5分/题,多选题漏选按正确选项数比例扣分(如ABCD答案选ABC得4.5分),填空题5分/题。
更精妙的是针对模型弱点的"特种作战"设计:当发现DeepSeek存在OCR识别缺陷时,团队启用第三方AI将题目图像转化为精准文本;面对o3可能存在的触发机制,全程监控其推理链中的异常断点。这种近乎军事化的测试环境,使结果成为检验模型推理能力的试金石。
战局全纪实:国产双雄的碾压式胜利
随着计分板最终定格,六大模型呈现三个鲜明梯队:
第一梯队(68分)
字节豆包与腾讯元宝上演双雄会。二者均仅错第6题单选题(立体几何最值问题),但在其他题目上展现恐怖稳定性。尤其多选题环节,二者在3道陷阱题中全部满分通关,其中第12题(概率与数列综合)的解题过程被专家评为"高考标准答案级"推导。
第二梯队(60-63分)
深度求索DeepSeek(63分)与阿里通义(62分)展开胶着战。DeepSeek因图像识别缺陷在第6题得零分,但其在填空题环节的完美表现挽回颓势;通义虽在第6题侥幸蒙对,却在第11题多选题上因论证不严谨痛失4分,其26秒完成所有题目的"速攻流"策略暴露致命缺陷。
第三梯队(≤51分)
百度文心X1 Turbo(51分)与OpenAI o3(34分)深陷泥潭。文心因图像识别和多选题理解双重缺陷,导致3道填空题全错;o3则上演史诗级滑铁卢——单选题正确率仅50%,多选题未获满分,更在第2题(基础集合运算)出现令人咋舌的推理崩坏。
典型战役解剖:AI的阿克琉斯之踵
战役1:图像理解的生死线(第6题)
这道配有几何体三视图的单选题,成为模型能力的分水岭:
<svg id="svgGraph58553370938815" width="100%" xmlns="http://www.w3.org/2000/svg" class="flowchart" style="max-width: 1066px;" viewBox="0 0 1066 366" role="graphics-document document" aria-roledescription="flowchart-v2">成功
失败
错误
崩溃
输入图像
识别能力
豆包/元宝 正确计算2√2
DeepSeek 抱怨“信息不全”
通义 错误推导得正确选项
文心/o3 完全误判
</svg>
DeepSeek虽具备最强推理引擎,却因视觉-文本转换缺陷溃败;通义虽侥幸得分,其错误解法暴露逻辑漏洞;而o3竟输出"该几何体不存在"的荒谬结论。
战役2:多选题的思维迷宫(第11题)
这道函数性质判断题,要求分析四个命题的真伪:
- 豆包/元宝:完整推演每个命题,耗时3分钟锁定ABC正确
- DeepSeek:通过反例验证D错误,稳健拿下满分
- 通义:武断判定"无法直接推导BD",漏选B、C
- o3:将多选题当作单选处理,仅选A得1.5分
- 文心:完全忽略图像中的函数图象提示
战役3:填空题的细节修罗场(第15题)
数列公比问题中,文心X1 Turbo完美推导出q=±2,却在最后补充"通常取正值"而痛失5分。这种人类考生常见的画蛇添足,揭示AI在结果输出环节的认知偏差。
进化图谱:三年高考见证AI推理革命
纵向对比揭示惊人进步曲线:
尤其DeepSeek在第8题(概率与导数综合)的解题过程,展现类人思维:首次推导得矛盾结果→检查条件约束→重建概率模型→二次验证,耗时15分钟完成标准考场需25分钟的难题。
致命暗伤:AI解题的七宗罪
尽管整体进步显著,测试仍暴露七大核心缺陷:
1. 几何直觉缺失
在立体几何与解析几何题中,所有模型得分率低于代数题15%。o3在第7题(双曲线性质)竟将渐近线方程误作双曲线方程。
2. 计算精确性陷阱
通义在第4题(三角函数求值)因角度制转换错误失分;文心在填空题中将√48简化为4√3却漏写系数。
3. 条件敏感度不足
豆包虽总分夺冠,却忽略第14题中"锐角三角形"的隐含约束,侥幸因选项设置逃过惩罚。
4. 多选穷尽障碍
o3在多选题中平均仅考虑1.8个选项(应查4个),暴露其搜索策略缺陷。
5. 结果表达失控
文心在填空题中多余添加解释,DeepSeek在证明题中突然插入无关引理。
6. 视觉-逻辑转换断层
涉及图表的三道题目中,模型整体失分率达41%,远高于纯文本题。
7. 长链推理衰减
当推理步骤超7步时,正确率平均下降28%,o3在复杂大题中出现"思维断片"现象。
教育启示录:当AI逼近140分
这场测试最深刻的启示在于:得分68分的豆包/元宝,已在客观题领域超越90%人类考生。随着模型持续进化,教育体系面临三重颠覆性挑战:
挑战1:评价体系重构
当AI能10分钟完成满分答卷,高考需增设:
- 创新解法证明题
- 开放场景建模题
- 数学直觉阐述题
挑战2:教学范式迁移
传统"题型-技巧"训练模式失效,教学重点应转向:
- 跨领域知识融合
- 非常规问题拆解
- 算法思维培养
挑战3:认知能力升维
人类必须守护三大终极堡垒:
- 几何空间直觉
- 数学审美判断
- 元认知监控能力
正如测试中那道无人做对的压轴题——当所有模型在"非欧几何应用"前溃败时,命题组负责人透露:"我们刻意设计了超越考纲的思维跳板,只为检验真正的创造力。"
当豆包在3分钟内解出考生痛骂的"变态题"
当o3在基础集合题中突然"降智"
这场对决映照的不仅是技术鸿沟
更是人类智能的深邃与脆弱
未来三年,当大模型在高考数学中突破140分时,教育的核心使命将从"传授解题术"升维至"培育提问者"。那些能提出让AI崩溃的"第六层难题"的头脑,才是人类文明真正的火种。此刻考场外,已有教师将测试错题集转化为教案,带领学生分析AI的思维断点——这或许正是人机共生的终极形态:以机器为镜,照见人类智慧最独特的棱角。