行业事件

DeepSeek等开源模型，更“浪费”token吗

发布于 2025年10月10日

来源：未尽研究

很多业内人士已经注意到，似乎DeepSeek-R1等开源模型，在回答问题时往往缺乏“节制”。尤其是简单问题，它想得过于复杂了。它的单位token成本的API价格优势，最终将可能被不受制约的“冗长思考”所侵蚀。

NousResearch团队一项研究，就是想搞清楚，开源权重模型在完成相同任务时，是否系统性地需要比闭源模型更多的token？当将token消耗数量纳入考量后，这种差异如何影响总体推理成本？这种效率差异在不同的任务类型中是否更加显著？

该研究发现，对于不需要复杂推理就可直答的知识题（Knowledge questions），开源模型的“浪费”最为明显，DeepSeek-R1-0528完成任务消耗的token数量（completion tokens）——它既包括向用户呈现的输出结果，也包括思维链（CoT），并与实际计费的token数量相匹配——要比基准水平高出4倍。不过，到了需要推理数学题（Math problems）以及更复杂的逻辑谜题（Logic puzzles），DeepSeek-R1-0528消耗的token数量，高出基准水平缩小至2倍左右。看来实际工作中，向合适的模型询问合适的问题是一大学问。

事实上，AI招聘独角兽公司Mercor的另一项独立研究也注意到了这一现象。在它提出的衡量大模型的AI生产力指数的APEX-v1.0基准上，Qwen-3-235B和DeepSeek-R1的输出长度都超过了其他前沿模型。它们思考得更久，可以弥补一些不足，提升了平均成绩，代价就是更多的token消耗。

但这也是“慢思考”刚推出时的魅力，不是吗？在预训练扩展边际放缓后，测试时扩展越来越重要，是提升解题能力的关键。回到NousResearch团队的研究上，DeepSeek-R1在各类逻辑谜题的准确率，也明显胜出一筹。也许它慢了一些，用的token也多了一些，但答对了题！

所以，开源模型相比前沿闭源模型，究竟经济不经济?

如果有一个最简易的统计公式，那么token经济可以归纳为：AI完成一项任务的收益=token兑现的价值-单位token成本×消耗token数量。

Token兑现的价值，一方面取决于模型能不能最终解决现实问题，另一方面则取决于它所解决的问题有多值钱。它下围棋战胜世界冠军，值多少钱？获得奥数金牌，又值多少钱？但更重要的是，在实际工作场景中创造出经济价值，而这些价值由市场来决定。

单位token成本也决定着模型的经济性。黄仁勋一直鼓吹“买得越多，省得越多”，就是从硬件与基础设施层面优化能效，降低运营成本的逻辑。这是美国的强项。目前，美国几乎所有AI云巨头与前沿大模型厂商，都在探索与部署AI定制芯片以降低推理成本。英伟达计划自研HBM基础裸片（Base Die），OpenAI则找上了SK海力士与三星合作；闪迪甚至预见了数年后高带宽闪存HBF的颠覆性。

中国开源社区的贡献，主要在于算法和架构的改进，对MOE推理与注意力机制的探索层出不穷。阿里巴巴的Qwen3-Next架构，总参数80B，却只需激活3B，即可媲美旗舰版Qwen3-235B性能，效率大幅提升。DeepSeek最新发布的V3.2-Exp引入了DSA机制，能在成本更低的同时几乎不影响模型的输出效果。这些都体现为每百万token的输入和输出成本在持续下降。

微软近期一篇为自己的碳足迹“洗白”的论文中，驳斥过往的纸面研究，往往忽略了实际部署环境中的规模效应与软硬件优化措施。论文提到，就每次AI查询而言，实际能耗要比预估低8-20倍。其中，硬件改进带来1.5至2倍降幅，模型改进带来3至4倍降幅，工作负载优化带来2至3倍降幅。

这里的工作负载优化，既包括KV缓存管理与批大小管理等提升单位token生成效率的手段，也包括用户手动设置token预算上限，或自动触发智能路由调用合适模型等降低token消耗数量的技术。OpenAI坚持让实时路由系统，根据对话类型、复杂度、所需工具和明确意图快速决定调用哪个模型。字节跳动的Knapsack RL也是类似的预算分配策略探索。这些都是出于性价比的考虑。

很长一段时间以来，在讨论token经济学时，完成任务的token消耗数量，往往被人们所忽视。这一指标缺乏前述各类测评token价值的基准，也不在大模型API定价中直接标识出来。

但它无疑越来越重要，它决定着AI的经济性。实际工作不同于刷榜（有的刷榜也有算力成本上限），往往存在明显的成本约束。前述微软论文也担心，随着多模型与智能体的广泛落地，更多的推理次数和更长的推理时间将带来更高的能耗。不仅如此，要输出更多token，通常也意味着更长的响应时间，用户体验下降；对于部分必须高速精准响应的场景，这甚至是生死问题；单次任务越来越多的token消耗，也可能耗尽模型的上下文窗口，限制它处理复杂长任务的能力。

受限于各自的技术储备、供应链体系与电力供给条件，中国与美国在token经济学上已经各自分岔。中国开源模型的首要目标是在国产替代的现实中逼近前沿水平，用较多的token换取较高的价值；美国闭源模型则要开始想法设法去降低token的消耗，并提升token的价值。

从DeepSeek的R1到R1-0528，或者，从Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507，中国领先的开源模型的迭代，往往伴随着总token消耗的上升。而Anthropic、OpenAI与xAI的模型迭代，则伴随着总token消耗的降低。

到目前为止，NousResearch团队的研究认为，综合token消耗数量与单位token成本（基于海外第三方的API价格，因工作负载不同，定价区间差别较大），DeepSeek等开源模型仍具备整体成本优势，但在最高API定价时（即以更大的上下文或更高的吞吐速度交付结果等），它的整体成本优势已经不再显著，尤其是在回答简单问题时。

结合中国的AI算力生态，token消耗过多的短板会进一步放大。有一项研究，专门就基础设施的框架，量化了前沿模型的硬件配置与环境乘数，对能耗、水与碳足迹的影响。在其设定场景下，DeepSeek-R1成为了碳排放量最高的前沿模型，且远高于其他模型。除了与o3类似，它大量依赖CoT深度思考，还因为该研究为它“分配”了H800等更低能效的芯片，以及更高PUE的数据中心。

当下对性能的追求压倒了一切。最终，起作用的将是AI的经济性，用尽可能少的token解决尽可能有价值的问题。

—

参考：

https://doi.org/10.48550/arXiv.2505.09598

https://doi.org/10.48550/arXiv.2509.20241

https://arxiv.org/html/2509.25721v2

https://github.com/cpldcpu/LRMTokenEconomy/

GPLP

DeepSeek等开源模型，更“浪费”token吗

行业事件

DeepSeek等开源模型，更“浪费”token吗

更多关于行业事件的文章

行业事件

存储涨价的首个显性受害者，出现了

行业事件

当低价不再奏效，餐饮增长的下一个答案是什么？

行业事件

周鸿祎：AI降维打击网络安全行业，“旧药方”失灵，中国必须拥有自己的Mythos应对新风险

行业事件

半年收官乱象频发：快消品牌别再把所有市场压力，都甩给经销商了

行业事件

18A最大价值毁灭案，被玩坏的微创心通

专栏作者

klwang

存储涨价的首个显性受害者，出现了

王帆

“郎酒之路”——郎酒的另类探索：以消费者为中心提供极致服务与极致品质

离

犀牛晚讯：腾讯注册元宇宙相关商标天泽信息收问询函

渡

直播电商走向生态之争

邱邱

平台型企服“滚雪球”：价值投资者的选择

推荐文章

行业事件

存储涨价的首个显性受害者，出现了

行业事件

当低价不再奏效，餐饮增长的下一个答案是什么？

快报道

世界杯的生意经：餐饮品牌该选择长期主义还是短期爆单？

快报道

砸上亿元赞助世界杯百威踩坑帝亚吉欧遇瓶颈五粮液另有小心思

行业事件

周鸿祎：AI降维打击网络安全行业，“旧药方”失灵，中国必须拥有自己的Mythos应对新风险

更多关于 行业事件的文章

行业事件

存储涨价的首个显性受害者，出现了

行业事件

当低价不再奏效，餐饮增长的下一个答案是什么？

行业事件

周鸿祎：AI降维打击网络安全行业，“旧药方”失灵，中国必须拥有自己的Mythos应对新风险

行业事件

半年收官乱象频发：快消品牌别再把所有市场压力，都甩给经销商了

行业事件

18A最大价值毁灭案，被玩坏的微创心通

专栏作者

klwang

存储涨价的首个显性受害者，出现了

王帆

“郎酒之路”——郎酒的另类探索：以消费者为中心提供极致服务与极致品质

离

犀牛晚讯：腾讯注册元宇宙相关商标 天泽信息收问询函

渡

直播电商走向生态之争

邱邱

平台型企服“滚雪球”：价值投资者的选择

推荐文章

行业事件

存储涨价的首个显性受害者，出现了

行业事件

当低价不再奏效，餐饮增长的下一个答案是什么？

快报道

世界杯的生意经：餐饮品牌该选择长期主义还是短期爆单？

快报道

砸上亿元赞助世界杯 百威踩坑 帝亚吉欧遇瓶颈 五粮液另有小心思

行业事件

周鸿祎：AI降维打击网络安全行业，“旧药方”失灵，中国必须拥有自己的Mythos应对新风险

更多关于行业事件的文章

犀牛晚讯：腾讯注册元宇宙相关商标天泽信息收问询函

砸上亿元赞助世界杯百威踩坑帝亚吉欧遇瓶颈五粮液另有小心思