国外部署了一项前沿大模型的“C/P值”（性价比）评测。与以往单纯计算 Token

国外部署了一项前沿大模型的“C/P值”（性价比）评测。与以往单纯计算 Token 消耗的评测不同，这次的评判标准是：在完成预先定义好的、具有实际经济价值的智能开发工作时，完成单个任务所需的实际美元成本。简单来说，既然任务标准和产出价值是固定的，那么谁花的钱最少，谁的性价比就最高。

从具体的评测柱状图来看，各家模型在 Answer（回答）、Reasoning（推理）、Input（输入）等环节的累加成本一目了然：

• 高成本梯队：Claude Opus 4.8 (max) 的单任务总成本高达 1.80；Claude Sonnet 5 (max) 更是达到了 2.29。这也印证了您的观察：虽然 Sonnet 5 的单次调用单价可能较低，但由于在处理复杂任务时消耗的 Token 更多，导致完成整体任务的总成本反而比 Opus 4.8 更高。

• 极致性价比梯队：位于图表最左侧的 DeepSeek V4 Pro (Max)（带有灯泡图标，代表其具备强大的推理能力），完成同样一个标准智能任务的累加成本竟然只有令人咋舌的 $0.04！

DeepSeek 到底“发生了什么事”？为何能做到如此离谱的低价？

图表中 DeepSeek V4 Pro (Max) 极低的成本并非标价出错，而是源于其在底层架构和工程效率上的极致优化：

1. MoE（混合专家）架构的高效压榨：DeepSeek V4 Pro (Max) 拥有 1.6 万亿的庞大参数，但在推理时，每次只会激活其中的 490 亿个参数（即稀疏激活）。这意味着它就像一个拥有一千名专家的超级智囊团，每次只按需唤醒最合适的几十个专家来解决问题，从而在保证顶级智商的同时，极大地节省了单次计算的能耗。2. 算法与注意力机制的革新：模型内部采用了诸如 MLA（多头潜在注意力机制）等前沿技术，显著提高了 GPU 集群的计算效率，降低了显存占用。3. 结果导向的经济学竞赛：正如 Artificial Analysis 机构升级评测标准所强调的，现在的 AI 行业正在从单纯的“跑分竞赛”转向“经济学竞赛”。DeepSeek 正是踩准了这个节点，用远低于美国闭源巨头（如 Anthropic 或 OpenAI）几十倍的成本，做到了与之相当的顶级智能水平（在 Intelligence Index 上仅落后 Opus 4.8 约 12 分，但成本仅为后者的四十五分之一）。

总而言之，这张图不仅展示了 DeepSeek 极其恐怖的工程化成本控制能力，更预示着 AI 行业的一个关键转折点：当“智力”的上限逐渐触顶时，“成本”的下限将重新定义各大厂商的市场格局。

——————————DeepSeek就是极致的性价比

DC娱乐网

国外部署了一项前沿大模型的“C/P值”（性价比）评测。与以往单纯计算 Token

热门分类