DC娱乐网

如果你在做推理部署,强烈推荐了解一下vLLM的最新版。支持了speculativ

如果你在做推理部署,强烈推荐了解一下vLLM的最新版。支持了speculative decoding,推理速度提升50%以上,显存占用反而降了。

比TGI和Triton Inference Server好用不是一点半点。开源而且社区活跃,文档也终于跟上了。

AI 推理 开源工具