现在的推理框架,大多在Batch Size 很大时表现优异,但一到 单请求(Batch Size=1) 就原形毕露——这正是 AI Agent 最痛的场景:每一步都要等模型吐出下一个 token 才能继续决策。
Kog AI 刚发的这个技术预览,直接把标准数据中心 GPU 的单请求推理干到了 3000 token/s。
不是靠定制芯片,而是靠把软件栈“压扁”。
问题出在哪?
传统推理栈像是在 GPU 上反复开关流水线:
每次生成一个 token,都要启动一次内核(Kernel Launch)
CPU 和 GPU 频繁通信、同步
网格调度、显存拷贝、算子切换,每一层都在偷时间
单看每次几十微秒,但叠加上千次生成,Agent 就被活活拖慢。
Kog 的解法:单内核 + 连续流
Kog 的思路很暴力:不让 GPU 停下来。
把整个解码路径做成一个持久驻留的内核(Persistent Kernel),常驻 GPU。
不再拆成零散算子,而是让数据像水流一样在寄存器、缓存、显存之间连续流动。
消除几乎所有 CPU ↔ GPU 同步点和网格调度开销。
结果:标准 GPU 上,单请求 3000 token/s。
不是“峰值爆发”,而是持续吞吐。
争议点:2B 小模型是不是“作弊”?
有网友质疑:用 2B 小模型跑出这速度,有点取巧。
大模型的注意力、KV Cache、MoE 路由复杂度完全不是一个量级。
Kog 的回应很硬:Batch Size=1 时,推理不是算力问题,是内存带宽问题。
只要把:
多卡通信延迟压到极致
权重像“呼吸”一样自然流过计算单元
那么即使是 DeepSeek V4 Pro 这种 49B 激活参数的 MoE 模型,理论上也能冲向 千级 token/s。
这意味着什么?
如果推理真的快到不再是瓶颈,Agent 的“思考模式”会被彻底改写:
蒙特卡洛搜索:几秒内跑几千次模拟,选最优解。
自我博弈:一边推理一边生成对抗样本,实时修正。
长程规划:不再吝啬 token,敢做多步推演。
当“思考”变得几乎免费,智能的上限就不再受限于速度,而受限于你的想象力。
一句话总结:
Kog AI 不是在堆算力,而是在把 GPU 当成一个连续流动的物理系统来用。如果这条路跑通,Agent 的迭代速度会迎来质变。
📎 原文:blog点kog点ai/real‑time‑llm‑inference‑on‑standard‑gpus