利用好LLM的prefix特性,用小模型先回复,然后大模型续上,LLM首句延

JavaEdge聊AIss 2025-07-21 00:28:27

利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延迟可以大幅降低到100ms级别。编程严选网 人工智能

0 阅读:0
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注