DC娱乐网

很多工程师认为“自己搭建”就是租GPU,装vLLM,套FastAPI,直接上线。

很多工程师认为“自己搭建”就是租GPU,装vLLM,套FastAPI,直接上线。但两周后,复杂度打脸。

你不是只为一个模型一个用户服务,而是要应对数百并发请求,多个模型,且延迟要求天差地别,这完全是另一回事。

真正需要的是:

- 理解模型能力的请求路由器

- 不牺牲延迟的动态批处理器

- 不让GPU内存爆炸的KV缓存管理器

- 应对流量峰值的模型实例池

这只是核心组件。

如果要做到p99延迟低于50ms,必须拆解延迟来源:

网络10-15ms(固定无法改)

排队5-20ms(批处理不当会爆炸)

首个token生成20-40ms

每token生成10-50ms(上下文越长越慢)

留给优化的空间仅5ms,光靠堆硬件根本不够。

静态批处理等待满批才执行,连续批处理边处理边加入新请求,后者能提升3-5倍吞吐量。vLLM和TensorRT-LLM支持连续批处理,FastAPI包装器不支持。

KV缓存占用惊人!Llama 70B 4K上下文,32并发请求需560GB缓存,H100只有80GB。vLLM的PagedAttention用虚拟内存技巧解决,自己写肯定OOM。

有20个微调模型?平台还要做用户意图路由、动态加载卸载、相似模型共享KV缓存、