从Token到词元：全模态时代的基模与交互入口

2026年3月24日，国家数据局首次在官方语境中确立“词元”为Token的标准译名，并披露国内日均Token调用量已突破140万亿。但这仍只是“文本时代主导”的规模。

在语音、视频与实时交互驱动的多模态场景中，随着自主调用工具并交付结果的Agent大量部署，Token的生成与消耗方式正在发生范式性变化——

从离散文本走向连续感知，从低频批量输入走向高频流式输入，其生产方式、组织结构与消耗效率，将直接决定下一代AI系统的能力上限与成本结构。

早在2021年，复旦大学邱锡鹏教授较早明确采用“词元”这一译法，推动其在中文语境下的标准化。他指出，“词元”既避免被简单理解为自然语言中的“词”，又保留了其作为语言处理基本单位的本质内涵。

而随着大模型从文本走向多模态、从模型能力走向Agent系统，“词元”所对应的，也不再只是一个术语问题，而是下一代智能系统的底层组织方式。

在这一趋势下，围绕统一Token结构、全模态与情境智能展开布局的公司，正持续获得资本关注。

近日，模思智能（MOSI）也官宣完成数亿元的天使轮融资，由IDG资本领投，元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本及某头部产业投资方联合投资。

这笔融资背后，投资方显然看重的并不只是单点产品能力，而是其对下一代技术路径的提前布局，而多维资本也将担任新一轮独家财务顾问，携手模思智能共同探索通用智能时代的下一步。

非共识路径：从语音到全模态，在统一的Token结构中被表达和计算

早在2023年“百模大战”期间，邱锡鹏便意识到，市场上虽然模型众多，但底层技术路径高度趋同。绝大多数资源持续涌向文本大模型赛道，基础研究的多样性却在萎缩。

某种程度上，这种同质化不仅限制了技术可能性的展开，也压缩了探索新路径的空间。

在这样的背景下，模思智能并未沿着主流的纯文本路线继续加码，而是选择了一条更少人走的道路：从语音切入，走向全模态，在统一的Token结构中表达和计算不同模态的信息。

之所以选择语音作为突破口，原因并不复杂。

相比纯文本，音频的信息密度更高，天然包含语调、节奏、情绪等文本难以完整承载的信号；同时，音频也更容易与环境、动作和上下文形成连续输入流，更接近真实世界中的人机交互方式。

它不仅是交互入口，更是通向“情境理解”的天然起点。

当Token不再只是文本中的离散符号，而成为连续感知信息的离散化表达后，模型要解决的问题也发生了变化：从“理解一句话”转向“理解一个情境”。

模思智能将这一能力概括为“情境智能”（Contextual Intelligence）——以持续感知、动态记忆与环境理解为基础，使AI能够在真实世界中进行自适应交互。

在这一框架下，Token不再只是静态输入单元，而是构成情境的基本信号。

而Agent，正是情境智能走向现实应用的直接载体。

随着以OpenClaw等为代表的基础设施逐步成熟，行业竞争也正在从单一的“模型能力”比拼，转向对交互入口与环境理解能力的争夺。语音、上下文与情境建模能力，正在成为新的技术分水岭。

如果说邱锡鹏代表的是这一路线的学术源头，那么模思智能则是这一方向的产业化载体；而上海创智学院提供的，则是支撑技术快速转化的组织与资源平台。

MOSS之后，真正的布局才刚刚开始

模思智能核心团队长期深耕预训练、大模型与多模态方向，并持续推进统一Token路线的技术演进。

2023年2月，国内首个类ChatGPT对话式大模型MOSS发布，打响了中国“百模大战”的第一枪。但在模思智能团队看来，真正重要的并不是打一场模型发布战，而是提前押注下一阶段的技术结构。

同年5月，团队推出SpeechGPT，在业内较早验证了“离散化端到端语音大模型”这一路径的可行性。

它所解决的核心问题，是首次将连续语音信号拆解并映射为离散Token序列，让语音得以真正进入与文本统一的Token空间。

这意味着，机器理解人“说的话”和理解人“写的话”，第一次有机会在同一套计算框架内完成。

同年8月发布的SpeechTokenizer，则进一步将这一路线工程化，成为融合语义Token与声学Token的音频离散化编码器，为后续语音理解与生成、乃至更广义的多模态统一建模打下了底座。

这条路线一旦走通，向全模态扩展就是自然而然的结果。

2024年2月，AnyGPT发布，首次将语音、文本、图像与视频统一映射至离散Token体系，提出了真正意义上的离散化全模态基座模型架构。

不同模态不再需要彼此割裂、分别训练，而是能够在同一序列结构中完成理解与生成。

至此，团队此前多年的技术布局，第一次呈现出较为完整的轮廓。

从单点突破到能力闭环

此后，相关成果开始加速涌现。

2025年7月，MOSS-TTSD发布，作为国内首个基于百万小时音频训练的开源中英双语对话语音模型，在播客、影视配音等长内容场景中展现出较强竞争力。

视频地址：https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g

同年11月，联合上海创智学院等机构发布的下一代能动性模型体系NEX，在氛围编程、工具使用、后端开发等多项基准测试中进入全球第一梯队水平，将离散化架构的优势进一步延伸至Agent与生产力场景。

进入2026年后，团队以月度推进的节奏持续迭代：

MOSS-Transcribe-Diarize在复杂多说话人场景中实现领先表现； MOVA作为国内首个高性能音视频生成开源模型之一，开源后迅速获得行业关注； MOSS-Audio-Tokenizer在相同比特率下进一步刷新音频重建性能；基于该Tokenizer训练的MOSS-TTS系列模型，则主要面向实际生产场景，在音色克隆相似度等指标上表现突出。

至此，模思智能已经成为国内少数完成“全模态基座模型能力闭环”的初创公司之一。

视频地址：https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g

这一系列成果背后，并不是若干彼此孤立的技术突破，而是同一个底层命题被不断验证后的自然延展：多模态信息可以通过统一的离散化方式映射到同一Token序列结构中，进而实现统一计算。

离散化带来的，不只是更高的压缩效率，更重要的是赋予不同模态以可组合性与可计算性——而这正是全模态智能与Agent系统真正落地的底层架构前提。

顶尖大模型产业化团队：具备从0到N的全栈能力

支撑模思智能技术路径的，是一支同时具备前沿研究深度与工程落地能力的核心团队。

首席科学家邱锡鹏，复旦大学教授，国家杰出青年科学基金获得者、上海创智学院全职导师，并荣获2024年CCF-ACM AI Award（当年全球唯一获奖人）。

他长期深耕自然语言处理与大模型方向，在端到端语音大模型与全模态基座模型等前沿领域持续保持技术领先，是国内大模型领域兼具学术高度与产业影响力的领军人物，多次入选全球前2%顶尖科学家榜单。

其著作《神经网络与深度学习》被广泛用于高校教学。

CEO李世民出自邱锡鹏门下硕博连读体系，以一作身份发表多篇CCF-A类论文，并深度参与科技部“新一代人工智能2030”重点研发项目，在拟人化人机交互方向实现多项关键技术突破。

对李世民而言，创业并非角色转换，而是其既有研究路径在产业侧的自然延伸。

值得注意的是，模思智能并非传统意义上的“教授带学生创业”，而是由上海创智学院与复旦大学联合孵化的标杆项目。

作为上海市主导设立的新型研发机构，创智学院为公司提供了覆盖算力、人才与产业资源的体系化支持，使其具备远高于常规学术创业项目的起点与迭代速度。

2025年7月，在创智学院“首发八大AI成果”发布会上，邱锡鹏团队联合模思智能发布的MOSS-Audio被评价为“突破语音交互恐怖谷效应，为情境智能奠定基础”。

△图源：上海创智学院官微

同年9月，在一周年成果发布会上，团队提出的规模化全流程大模型可解释框架再次入选七大创新成果，标志着中国在相关方向实现从跟跑到领跑的跃迁。CEO李世民表示：

创智学院的孵化，使我们能够以远超传统学术创业的速度完成技术转化。

公司目前已形成近百人的全栈技术体系，博士占比接近50%，核心成员主要来自复旦大学NLP体系（CS Ranking全球前列），并持续吸引来自多所顶尖高校的研究人才。

随着公司逐步走向产业化落地，团队引入多位具备阿里、字节、理想汽车等背景的关键成员，补齐工程化与商业化能力，为从1到N的规模化扩张奠定基础。

商业化层面，模思智能多模态大模型开放平台已进入全面公测阶段，提供一站式API服务，以高稳定性与高性价比支撑企业级调用需求。

目前，公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作，初步验证了技术落地能力与商业转化潜力。

模思智能更强调从基座模型到垂直应用的一体化能力构建，其商业增长飞轮将围绕“词元（Token）的生产、分发与应用”展开，从MaaS能力输出延伸至2B、2B2C与2C多层级场景，逐步形成技术与商业双轮驱动的公司。

谁在定义下一代智能

国家数据局首次官宣“词元”译名，在某种程度上标志着大模型产业正从早期野蛮生长走向更高程度的规范化。

这背后意味着，单纯依赖参数堆叠与算力外推的阶段正在逐步过去，未来模型能力的差距，可能越来越取决于架构创新、系统组织方式以及顶尖人才密度。

模思智能试图回答的，正是一个尚无定论的问题：当大模型进入深水区，真正的护城河究竟是什么？

答案或许已不再只是参数规模或算力投入本身，而在于是否能够更早识别并押注下一代智能的核心结构。

对模思智能而言，这种结构体现为：统一的Token表达、面向情境的持续理解能力，以及能够调用工具、交付结果、与用户建立长期关系的Agent系统。

当“词元”进入官方语言，真正值得关注的，或许已不只是一个术语被定名，而是谁能够率先定义：词元将如何被生产、组织与使用。

某种意义上，这也正是在定义下一代智能系统的边界。

— 完 —

量子位 QbitAI

关注我们，第一时间获知前沿科技动态

DC娱乐网

从Token到词元：全模态时代的基模与交互入口

热门分类