中国AI以巧劲撼动算力霸权?DeepSeek V3.2用更少计算匹敌GPT-5,开源模型突破性实现奥赛金牌表现!

当科技巨头投入数十亿美元提升算力以训练前沿AI模型时,中国的深度求索(DeepSeek)公司却凭借“更巧而非更拼”的策略取得了可与之媲美的成果。深度求索V3.2 AI模型在推理基准测试中与OpenAI的GPT-5不相上下,而其使用的“总训练浮点运算次数(FLOPs)更少”——这一突破或将重塑行业构建先进人工智能的思维方式。
对企业而言,此次发布表明,获得前沿AI能力未必需要前沿规模的算力预算。深度求索V3.2的开源特性让各组织能够在评估高级推理和智能体能力的同时,保持对部署架构的控制——随着成本效益日益成为AI采用策略的核心,这是一个非常实际的考量。
这家总部位于杭州的实验室于本周一发布了两个版本:基础版深度求索V3.2和深度求索-V3.2-Speciale。其中,Speciale变体在2025年国际数学奥林匹克竞赛和国际信息学奥林匹克竞赛中均达到金牌表现水平——此前仅有美国领先AI公司未发布的内部模型能达到此标准。
考虑到深度求索因出口限制而难以获得先进半导体芯片,这一成就显得尤为突出。该公司的成功挑战了业界普遍认为前沿AI性能需要大规模计算资源的假设。 公司将这种高效归因于架构创新,特别是深度求索稀疏注意力(DSA)机制,该机制在保持模型性能的同时大幅降低了计算复杂度。
基础版深度求索V3.2 AI模型在2025年AIME数学问题上取得了93.1%的准确率,Codeforces评级达到2386,使其在推理基准测试中与GPT-5并驾齐驱。
Speciale变体表现更为出色:在2025年美国数学邀请赛(AIME)中得分96.0%,在2025年2月的哈佛-麻省理工数学锦标赛(HMMT)中得分99.2%,并在前述两项国际奥赛中均获金牌表现。
考虑到深度求索受到一系列关税和出口限制的影响,这些成果意义重大。技术报告显示,公司分配了超过预训练成本10%的算力预算用于训练后优化——这是一项重大投资,使其能够通过强化学习优化而非暴力扩展来获得高级能力。
DSA机制代表了与传统注意力架构的决裂。它并非以相同的计算强度处理所有标记(token),而是采用“闪电索引器”和细粒度标记选择机制,仅识别并处理每个查询中最相关的信息。该方法将核心注意力复杂度从O(L²)降低到O(Lk),其中k代表所选标记的数量——仅为总序列长度L的一小部分。在从DeepSeek-V3.1-Terminus检查点继续预训练的过程中,公司使用每训练步480个128K标记的序列,在9437亿个标记上训练了DSA。
该架构还引入了为工具调用场景量身定制的上下文管理机制。与先前在每条用户消息后丢弃思考内容的推理模型不同,深度求索V3.2 AI模型在仅追加与工具相关的消息时会保留推理痕迹,从而通过消除冗余的重新推理,提高了多轮智能体工作流程中的标记效率。
对于评估AI实施的组织而言,深度求索的方法提供了超越基准分数的具体优势。在评估编码工作流能力的Terminal Bench 2.0上,深度求索V3.2实现了46.4%的准确率。该模型在软件工程问题解决基准SWE-Verified上得分为73.1%,在SWE Multilingual上得分为70.2%,展示了其在开发环境中的实际效用。
在需要自主工具使用和多步推理的智能体任务中,该模型较之前的开源系统显示出显著改进。公司开发了一个大规模的智能体任务合成管道,生成了超过1800个不同的环境和8.5万个复杂提示,使模型能够将推理策略推广到不熟悉的工具使用场景中。
深度求索已在Hugging Face上开源了基础V3.2模型,使企业能够无需依赖供应商即可实施和定制。Speciale变体则因标记使用要求较高,目前仅能通过API访问——这是在极致性能与部署效率之间做出的权衡。
此次发布在AI研究社区引发了广泛讨论。谷歌DeepMind首席研究工程师Susan Zhang赞扬了深度求索详细的技术文档,特别强调了该公司在稳定训练后模型和增强智能体能力方面的工作。
在神经信息处理系统大会(NeurIPS)召开前夕发布,进一步放大了关注度。研究中国开源AI生态、正在圣地亚哥参加NeurIPS的专家Florian Brand指出了即时反应:“深度求索发布公告后,今天所有的群聊都爆满了。”
深度求索的技术报告也指出了其与前沿模型相比当前的不足。标记效率仍然具有挑战性——深度求索V3.2 AI模型通常需要更长的生成轨迹才能匹配Gemini 3 Pro等系统的输出质量。公司也承认,由于总训练算力较低,其世界知识的广度落后于领先的专有模型。
未来的开发重点包括:扩展预训练计算资源以扩充世界知识、优化推理链效率以提高标记利用率,以及为基础架构进行精炼以应对复杂问题解决任务。
—
延伸思考
1. 效率优先 vs. 算力堆叠:深度求索的突破是否预示着AI发展范式将从“大力出奇迹”的算力军备竞赛,转向更注重算法与架构创新的“效率竞赛”?这对全球AI芯片市场格局和产业链将产生何种长远影响?
2. 开源前沿模型的“鲶鱼效应”:深度求索将接近GPT-5水平的模型开源,是否会极大加速全球(尤其是受算力限制的地区和机构)AI应用创新的步伐?这又将对OpenAI、Anthropic等闭源商业巨头构成怎样的竞争压力,并可能如何改变企业级AI服务的市场规则?
阅读 ArtificialIntelligence News 的原文,点击链接。