现在的推理框架，大多在Batch Size 很大时表现优异，但一到单请求（Ba

现在的推理框架，大多在Batch Size 很大时表现优异，但一到单请求（Batch Size=1）就原形毕露——这正是 AI Agent 最痛的场景：每一步都要等模型吐出下一个 token 才能继续决策。

Kog AI 刚发的这个技术预览，直接把标准数据中心 GPU 的单请求推理干到了 3000 token/s。

不是靠定制芯片，而是靠把软件栈“压扁”。

问题出在哪？

传统推理栈像是在 GPU 上反复开关流水线：

每次生成一个 token，都要启动一次内核（Kernel Launch）

CPU 和 GPU 频繁通信、同步

网格调度、显存拷贝、算子切换，每一层都在偷时间

单看每次几十微秒，但叠加上千次生成，Agent 就被活活拖慢。

Kog 的解法：单内核 + 连续流

Kog 的思路很暴力：不让 GPU 停下来。

把整个解码路径做成一个持久驻留的内核（Persistent Kernel），常驻 GPU。

不再拆成零散算子，而是让数据像水流一样在寄存器、缓存、显存之间连续流动。

消除几乎所有 CPU ↔ GPU 同步点和网格调度开销。

结果：标准 GPU 上，单请求 3000 token/s。

不是“峰值爆发”，而是持续吞吐。

争议点：2B 小模型是不是“作弊”？

有网友质疑：用 2B 小模型跑出这速度，有点取巧。

大模型的注意力、KV Cache、MoE 路由复杂度完全不是一个量级。

Kog 的回应很硬：Batch Size=1 时，推理不是算力问题，是内存带宽问题。

只要把：

多卡通信延迟压到极致

权重像“呼吸”一样自然流过计算单元

那么即使是 DeepSeek V4 Pro 这种 49B 激活参数的 MoE 模型，理论上也能冲向千级 token/s。

这意味着什么？

如果推理真的快到不再是瓶颈，Agent 的“思考模式”会被彻底改写：

蒙特卡洛搜索：几秒内跑几千次模拟，选最优解。

自我博弈：一边推理一边生成对抗样本，实时修正。

长程规划：不再吝啬 token，敢做多步推演。

当“思考”变得几乎免费，智能的上限就不再受限于速度，而受限于你的想象力。

一句话总结：

Kog AI 不是在堆算力，而是在把 GPU 当成一个连续流动的物理系统来用。如果这条路跑通，Agent 的迭代速度会迎来质变。

📎 原文：blog点kog点ai/real‑time‑llm‑inference‑on‑standard‑gpus

DC娱乐网

现在的推理框架，大多在Batch Size 很大时表现优异，但一到单请求（Ba

热门分类

现在的推理框架，大多在Batch Size 很大时表现优异，但一到 单请求（Ba

热门分类

现在的推理框架，大多在Batch Size 很大时表现优异，但一到单请求（Ba