DC娱乐网

我们常说的大模型 Token,到底是什么?为什么这么贵?

不管你是刷科技新闻,还是每天在用豆包、DeepSeek、文心、千问这类AI工具,几乎都会听到一个词:Token。有人会说

不管你是刷科技新闻,还是每天在用豆包、DeepSeek、文心、千问这类AI工具,几乎都会听到一个词:Token。有人会说“这个回答花了我多少 Token”,也有人吐槽“Token 太贵了,用不起”,甚至有电信运营商在筹备从“卖流量”转向“卖Token”。

估计很多人跟我一样,一开始听得云里雾里:Token既不是钱,也不是流量,怎么就成了大模型时代的“硬通货”?它到底是什么?为什么这么贵?未来会不会变得像网络流量一样便宜,让我们实现“Token自由”?

这篇文章,就像跟朋友聊天一样,用最朴实的语言,把Token的来龙去脉说清楚。

一、Token 到底是什么?

其实不用把它想得太复杂,一句话就能说透:Token,是大模型通过特定规则把文本拆分后得到的基本处理单位。

很多人会误以为Token是“一个字”或者“一个词”,其实并非如此——它是大模型把我们的信息拆解后,得到的“最小语言碎片”,介于字和词之间(具体拆分方式取决于模型使用的分词规则),本质上就是大模型与人类信息之间的“中间表示”。

举几个最直观的例子,一看就懂:

中文里的“你好”,可能被拆成2个Token;“人工智能”,可能被拆成“人工”和“智能”两个Token,就连标点符号、空格,也可能被算作一个Token;

英文里的“unbelievable”(难以置信),不会被当成一整个词,可能会被拆成类似“un + believ + able”的三个Token;“hello world”,则可能拆成两个Token。

简单说,Token就是大模型能理解的最小“语言颗粒”。

如果把大模型比作一个超级博学的“数字大脑”,我们人类理解世界是按句子来的,而这个“数字大脑”理解世界,是以Token为基本单位的。

还有一个关键知识点,大家一定要记住:Token既是大模型的处理单位,也是主流AI服务的计费单位。目前市面上所有大模型,本质上都是按Token收费的,而且收费包含两部分:你输入的内容(提问)算“输入Token”,模型回复你的内容算“输出Token”。你和它的每一次互动,消耗的都是“输入Token+输出Token”的总和,而很多模型的定价中,输出Token通常比输入更贵,具体比例则取决于不同厂商的定价策略。

这里有个很多人忽略的点:我们和大模型聊天时,之前的历史对话、你提供的背景资料、甚至系统自带的提示词,这些“上下文”信息都会被一起打包发给模型,全部按Token计算。所以你以为自己只是问了一句话,实际上模型收到的是一整包信息,Token消耗远比你直观看到的要多。

二、为什么 Token 这么贵?

很多人都会疑惑:不就是处理点文字吗,凭什么这么贵?其实Token贵,并非大模型厂商故意抬价,而是背后的成本确实高得离谱。总结下来主要有4个核心原因,每一个都很“烧钱”,咱们一个个说。

Token消耗远超直觉

简单问一句“帮我分析一下这个问题”,可能只需要几十个Token。但一旦任务变复杂,比如让大模型写方案、分析长文档、进行多轮长对话,或者让Agent自动执行任务,Token消耗就会暴涨,轻松达到几千、几万甚至更多。

这就像你去看医生,不只是说“哪里疼”,还要带上历史病历本——大模型要完成复杂任务,也需要加载你的历史对话、背景资料、甚至私有文档,这些“铺垫性”的内容,每一个字都会转换成Token,相当于你还没聊正事,就先消耗了一大笔“Token成本”。

早期投入大、基础设施不完善

现在的Token,其实特别像2G时代的网络流量——那时候流量贵得离谱,10块钱才几十MB,大家刷一张图片都心疼。核心原因就是移动网络刚起步,基站建设、技术研发投入巨大,基础设施不完善,每1MB流量的成本都很高。

大模型目前也处于“早期发展阶段”,不管是底层技术研发、数据中心建设,还是算力网络搭建,都需要投入天文数字的资金。而且目前的基础设施还不够完善,实际计算过程中,会存在计算冗余、通信开销等额外成本,因此每个Token背后对应的真实算力消耗往往高于表面。

算力成本高

大模型能正常运行,核心靠的不是我们电脑上的普通CPU,而是一种特殊的硬件——GPU,你可以把它理解成大模型的“核心算力支撑”。不管是训练大模型(让它学会各种知识),还是日常使用(让它帮你解决问题),都需要大量GPU同时工作,而企业级的高端GPU,价格超乎想象。

目前市面上主流的企业级高端GPU,分为国际和国内两类,价格大家可以参考一下:

国际上常用的NVIDIA H100、H200、B200:单卡价格通常在数万美元级别;

国内的华为、沐曦等高性能算力芯片:单卡价格在一二十万元人民币级别;

更关键的是,单块GPU能同时处理的请求是有限的。训练万亿参数的大模型时,通常需要成千上万块GPU协同运行,而非按单个用户或研发人员分配;日常用来回答用户提问,一块GPU能支持多少用户,并没有固定答案,取决于模型大小、对话长度和并发策略,从几十到几百都有可能——模型越大、请求越复杂、用户越多,需要的GPU就越多。

现在头部科技公司的GPU规模,虽然具体数量大多未公开,但行业估算显示,像谷歌、微软、Meta等公司已经部署了数十万块高端GPU,而且还在继续扩大;国内的科技公司也在疯狂囤货,虽然与国际巨头有差距,但投入同样惊人。

这么多昂贵的GPU,加上运行时昂贵的电力、冷却、维护成本,每一项都是长期消耗,这些成本最终都会分摊到每一个Token上。

研发人才“千金难求”

如果说GPU是“硬成本”,那研发人才就是“软成本”,而且比GPU更烧钱。现在各大科技公司都在开展大模型“军备竞赛”,谁能先做出更优秀的模型,谁就能抢占市场,而核心竞争力就是人才——但这类能研发大模型的复合型人才,全球都十分稀缺,千金难求。

不是随便懂点编程就能做大模型研发,真正的核心人才,要求极高:至少具备硕士及以上学历,AI相关专业背景,拥有扎实的数学基础,精通深度学习理论,还要有顶会论文、相关研发经验,能独立设计实验、推导算法公式,甚至要懂系统、分布式计算和工程优化。这种级别的人才,全球数量稀少,完全处于“供不应求”的状态。

物以稀为贵,大模型研发人员的薪资自然水涨船高。咱们先看市场上的情况:普通的大模型应用工程师,应届生月薪就能达到15-22K,有3年经验的能拿到25-40K;资深的算法工程师,年薪能超过100万;顶尖的AI科学家,月薪12.7万起,年薪超200万。

硅谷的薪资更是夸张:OpenAI普通工程师的年总薪酬中位数约55万美元,顶级研究科学家的基础工资就在25-68万美元,加上期权和奖金,全员平均股权报酬约每人150万美元;Google DeepMind为了留住核心人才,专门设计了超出正常绩效体系的特殊股权方案,部分顶尖研究员的年薪包能达到2000万美元;Meta甚至向部分OpenAI顶级研究员,开出过单年超1亿美元的薪酬包(含工资、奖金和立即兑现的股权),还有传闻称,一名24岁刚从博士项目辍学的年轻研究员,被开出了2.5亿美元的多年合同。

这些案例中,有些来自公开报道,也有部分属于行业传闻或极端个案,但整体趋势是:顶尖AI人才的薪酬正在快速上涨。当“花10亿训练一个模型,多花1000万招一个核心人才”变得合理时,AI研究员的薪水就会一路飙升,而这些天文数字般的人力成本,最终都会折算进每一个Token里。

三、电信运营商:另辟蹊径降成本

一个很有意思的变化正在发生:有电信运营商最近几年在公开表态,要从“流量经营”转向“算力经营”,核心逻辑之一,就是从“卖流量”转向“卖算力服务(通常以Token计费)”。

为什么是运营商?其实道理很简单:他们虽然在大模型算法研发方面,拼不过全球顶尖的科技公司,但拥有一个独一无二的优势——覆盖广泛的基础设施。

这些年,运营商一直在建设数据中心、算力网络和IDC机架,目前已建成大规模算力中心,还拥有成熟的光纤网络和电力资源。他们不需要自己从零研发大模型,只需把这些基础设施建好,租用头部企业的成熟大模型,再把Token打包成“套餐”,卖给普通用户和中小企业,就能分一杯羹。

而且运营商还有几张“底牌”,能帮大家降低Token成本,具体可分为5点,都很实在:

优化算力网络,减少浪费:利用自身算网优势,让算力资源更集中、传输更高效,减少算力在传输过程中的时延,间接降低Token成本;

推出Token套餐,按需定价:就像现在的流量包一样,推出不同档位的“Token月包”“Token年包”,还有针对中小微企业的优惠套餐,让用户无需为多余的Token付费,用起来更划算;

缓存高频需求,重复利用:很多用户的提问具有重复性,比如“怎么注册账号”“怎么修改密码”,运营商可将这些高频问题的答案缓存起来,用户再次提问时,无需调用大模型,直接使用缓存的答案,就能节省大量Token;

算电协同+边缘计算,降低运行成本:一方面利用电力资源优势,优化数据中心的电力消耗,比如采用绿色能源,降低GPU运行的电费成本;另一方面将部分推理能力下沉到靠近用户的边缘节点,减少数据来回传输的延迟和带宽消耗,进一步压低Token成本;

规模化采购+能力整合:通过规模化采购GPU,压低硬件成本;同时整合通信与AI能力,让企业用一张账单同时搞定通信和AI服务,全方位降低Token的使用成本。

说白了,运营商的玩法,就很像当年卖流量——把Token从“奢侈品”,变成大家都能用得起的“标准商品”。

四、Token 自由,会不会到来?

聊到这里,很多人都会问:Token这么贵,我们什么时候才能实现“Token自由”——不用小心翼翼计算消耗,想聊就聊、想用就用,不用再为几块钱的Token精打细算?

答案是:一定能实现,但不会一夜之间到来,而是一个持续降价、逐步普及的过程,速度和程度取决于技术进步和商业模式的发展。就像2G时代的流量,从10块钱几MB,慢慢发展到4G、5G的“无限流量包”,价格越来越便宜;Token也会走同样的路,随着技术进步和基础设施完善,成本会逐步下降。

主要有三个原因,且都在慢慢变成现实:

技术在进步:大模型越来越“高效”,能用更少的Token完成更多任务;推理优化技术也在不断升级,能进一步降低成本;而且专用AI芯片也在持续研发推进,未来不会再完全依赖GPU,算力成本会进一步降低;

竞争在加剧:现在不管是国际上的OpenAI、谷歌、Meta,还是国内的字节、阿里、百度,还有DeepSeek等一大批新玩家,都在比拼“更便宜的Token”,竞争越激烈,价格就越容易被拉低;

基础设施在规模化:随着数据中心、算力网络的规模化建设,一旦基础设施成本降下来了,Token成本也会随之下降。