6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底

AI快讯 2025-06-09

2025年高考数学结束当晚，当千万考生还在社交媒体哀嚎"大题送命"时，一场更残酷的智力对决正在上演——字节豆包、腾讯元宝、阿里通义、百度文心、深度求索DeepSeek与OpenAI o3，六款顶级大模型在新鲜出炉的新课标Ⅰ卷上展开厮杀。这场没有硝烟的战争最终以戏剧性比分落幕：豆包与元宝以93%正确率并列夺冠，而OpenAI o3竟以47%正确率惨遭垫底，其解题过程中暴露的"降智"现象引发行业地震。

战场规则：73分客观题的死亡竞技场

为确保对决公平性，测试团队搭建了严苛到极致的竞技场。选取新课标Ⅰ卷中14道客观题（8单选+3多选+3填空），总分73分，所有题目在考试结束后两小时内完成截取。六大模型通过统一接口接收题目图像，禁用联网搜索功能，关闭System Prompt引导，每道题仅有一次作答机会。评分完全遵循高考标准：单选题5分/题，多选题漏选按正确选项数比例扣分（如ABCD答案选ABC得4.5分），填空题5分/题。

更精妙的是针对模型弱点的"特种作战"设计：当发现DeepSeek存在OCR识别缺陷时，团队启用第三方AI将题目图像转化为精准文本；面对o3可能存在的触发机制，全程监控其推理链中的异常断点。这种近乎军事化的测试环境，使结果成为检验模型推理能力的试金石。

战局全纪实：国产双雄的碾压式胜利

随着计分板最终定格，六大模型呈现三个鲜明梯队：

第一梯队（68分）
字节豆包与腾讯元宝上演双雄会。二者均仅错第6题单选题（立体几何最值问题），但在其他题目上展现恐怖稳定性。尤其多选题环节，二者在3道陷阱题中全部满分通关，其中第12题（概率与数列综合）的解题过程被专家评为"高考标准答案级"推导。

第二梯队（60-63分）
深度求索DeepSeek（63分）与阿里通义（62分）展开胶着战。DeepSeek因图像识别缺陷在第6题得零分，但其在填空题环节的完美表现挽回颓势；通义虽在第6题侥幸蒙对，却在第11题多选题上因论证不严谨痛失4分，其26秒完成所有题目的"速攻流"策略暴露致命缺陷。

第三梯队（≤51分）
百度文心X1 Turbo（51分）与OpenAI o3（34分）深陷泥潭。文心因图像识别和多选题理解双重缺陷，导致3道填空题全错；o3则上演史诗级滑铁卢——单选题正确率仅50%，多选题未获满分，更在第2题（基础集合运算）出现令人咋舌的推理崩坏。

典型战役解剖：AI的阿克琉斯之踵

战役1：图像理解的生死线（第6题）
这道配有几何体三视图的单选题，成为模型能力的分水岭：


图片
代码
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
<svg width="16" height="16" viewBox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"></svg>
graph TD
A[输入图像] --> B{识别能力}
B -->|成功| C[豆包/元宝 正确计算2√2]
B -->|失败| D[DeepSeek 抱怨“信息不全”]
B -->|错误| E[通义 错误推导得正确选项]
B -->|崩溃| F[文心/o3 完全误判]
<svg id="svgGraph58553370938815" width="100%" xmlns="http://www.w3.org/2000/svg" class="flowchart" style="max-width: 1066px;" viewBox="0 0 1066 366" role="graphics-document document" aria-roledescription="flowchart-v2">成功失败错误崩溃输入图像识别能力豆包/元宝 正确计算2√2DeepSeek 抱怨“信息不全”通义 错误推导得正确选项文心/o3 完全误判</svg>

DeepSeek虽具备最强推理引擎，却因视觉-文本转换缺陷溃败；通义虽侥幸得分，其错误解法暴露逻辑漏洞；而o3竟输出"该几何体不存在"的荒谬结论。

战役2：多选题的思维迷宫（第11题）
这道函数性质判断题，要求分析四个命题的真伪：

豆包/元宝：完整推演每个命题，耗时3分钟锁定ABC正确
DeepSeek：通过反例验证D错误，稳健拿下满分
通义：武断判定"无法直接推导BD"，漏选B、C
o3：将多选题当作单选处理，仅选A得1.5分
文心：完全忽略图像中的函数图象提示

战役3：填空题的细节修罗场（第15题）
数列公比问题中，文心X1 Turbo完美推导出q=±2，却在最后补充"通常取正值"而痛失5分。这种人类考生常见的画蛇添足，揭示AI在结果输出环节的认知偏差。

进化图谱：三年高考见证AI推理革命

纵向对比揭示惊人进步曲线：

能力维度	2023年水平	2025年突破	典型案例
基础计算	9.9>9.11判断错误	复杂积分精确求解	豆包完成曲面积分
反思能力	错误后直接放弃	主动验证推倒重来	DeepSeek三验第8题
推理链完整性	频繁跳步	展示完整逻辑链路	元宝12步证不等式
题型适应性	仅能解常规题	应对"逆向设问"陷阱	通义破解反套路题

尤其DeepSeek在第8题（概率与导数综合）的解题过程，展现类人思维：首次推导得矛盾结果→检查条件约束→重建概率模型→二次验证，耗时15分钟完成标准考场需25分钟的难题。

致命暗伤：AI解题的七宗罪

尽管整体进步显著，测试仍暴露七大核心缺陷：

1. 几何直觉缺失
在立体几何与解析几何题中，所有模型得分率低于代数题15%。o3在第7题（双曲线性质）竟将渐近线方程误作双曲线方程。

2. 计算精确性陷阱
通义在第4题（三角函数求值）因角度制转换错误失分；文心在填空题中将√48简化为4√3却漏写系数。

3. 条件敏感度不足
豆包虽总分夺冠，却忽略第14题中"锐角三角形"的隐含约束，侥幸因选项设置逃过惩罚。

4. 多选穷尽障碍
o3在多选题中平均仅考虑1.8个选项（应查4个），暴露其搜索策略缺陷。

5. 结果表达失控
文心在填空题中多余添加解释，DeepSeek在证明题中突然插入无关引理。

6. 视觉-逻辑转换断层
涉及图表的三道题目中，模型整体失分率达41%，远高于纯文本题。

7. 长链推理衰减
当推理步骤超7步时，正确率平均下降28%，o3在复杂大题中出现"思维断片"现象。

教育启示录：当AI逼近140分

这场测试最深刻的启示在于：得分68分的豆包/元宝，已在客观题领域超越90%人类考生。随着模型持续进化，教育体系面临三重颠覆性挑战：

挑战1：评价体系重构
当AI能10分钟完成满分答卷，高考需增设：

创新解法证明题
开放场景建模题
数学直觉阐述题

挑战2：教学范式迁移
传统"题型-技巧"训练模式失效，教学重点应转向：

跨领域知识融合
非常规问题拆解
算法思维培养

挑战3：认知能力升维
人类必须守护三大终极堡垒：

几何空间直觉
数学审美判断
元认知监控能力

正如测试中那道无人做对的压轴题——当所有模型在"非欧几何应用"前溃败时，命题组负责人透露："我们刻意设计了超越考纲的思维跳板，只为检验真正的创造力。"

当豆包在3分钟内解出考生痛骂的"变态题"
当o3在基础集合题中突然"降智"
这场对决映照的不仅是技术鸿沟
更是人类智能的深邃与脆弱

未来三年，当大模型在高考数学中突破140分时，教育的核心使命将从"传授解题术"升维至"培育提问者"。那些能提出让AI崩溃的"第六层难题"的头脑，才是人类文明真正的火种。此刻考场外，已有教师将测试错题集转化为教案，带领学生分析AI的思维断点——这或许正是人机共生的终极形态：以机器为镜，照见人类智慧最独特的棱角。