DC娱乐网

现在的推理框架,大多在Batch Size 很大时表现优异,但一到 单请求(Ba

现在的推理框架,大多在Batch Size 很大时表现优异,但一到 单请求(Batch Size=1) 就原形毕露——这正是 AI Agent 最痛的场景:每一步都要等模型吐出下一个 token 才能继续决策。

Kog AI 刚发的这个技术预览,直接把标准数据中心 GPU 的单请求推理干到了 3000 token/s。

不是靠定制芯片,而是靠把软件栈“压扁”。

问题出在哪?

传统推理栈像是在 GPU 上反复开关流水线:

每次生成一个 token,都要启动一次内核(Kernel Launch)

CPU 和 GPU 频繁通信、同步

网格调度、显存拷贝、算子切换,每一层都在偷时间

单看每次几十微秒,但叠加上千次生成,Agent 就被活活拖慢。

Kog 的解法:单内核 + 连续流

Kog 的思路很暴力:不让 GPU 停下来。

把整个解码路径做成一个持久驻留的内核(Persistent Kernel),常驻 GPU。

不再拆成零散算子,而是让数据像水流一样在寄存器、缓存、显存之间连续流动。

消除几乎所有 CPU ↔ GPU 同步点和网格调度开销。

结果:标准 GPU 上,单请求 3000 token/s。

不是“峰值爆发”,而是持续吞吐。

争议点:2B 小模型是不是“作弊”?

有网友质疑:用 2B 小模型跑出这速度,有点取巧。

大模型的注意力、KV Cache、MoE 路由复杂度完全不是一个量级。

Kog 的回应很硬:Batch Size=1 时,推理不是算力问题,是内存带宽问题。

只要把:

多卡通信延迟压到极致

权重像“呼吸”一样自然流过计算单元

那么即使是 DeepSeek V4 Pro 这种 49B 激活参数的 MoE 模型,理论上也能冲向 千级 token/s。

这意味着什么?

如果推理真的快到不再是瓶颈,Agent 的“思考模式”会被彻底改写:

蒙特卡洛搜索:几秒内跑几千次模拟,选最优解。

自我博弈:一边推理一边生成对抗样本,实时修正。

长程规划:不再吝啬 token,敢做多步推演。

当“思考”变得几乎免费,智能的上限就不再受限于速度,而受限于你的想象力。

一句话总结:

Kog AI 不是在堆算力,而是在把 GPU 当成一个连续流动的物理系统来用。如果这条路跑通,Agent 的迭代速度会迎来质变。

📎 原文:blog点kog点ai/real‑time‑llm‑inference‑on‑standard‑gpus