专为Mac搞的一款本地AI推理引擎:Rapid-MLX,比Ollama快最高4.2倍,4B模型能到160 tok/s
基于Apple的MLX框架,原生Metal GPU计算,直接利用统一内存架构
同样跑Qwen3.5-9B,Rapid-MLX 108 tok/s,Ollama 41 tok/s,相差2.6倍
4bit量化模型的工具调用输出会在多轮后退化,Rapid-MLX内置17种工具解析器,能自动检测损坏输出并将其转换回结构化的tool_calls
对话不用每次从头算:标准transformer通过KV缓存裁剪实现,混合架构模型(比如Qwen3.5 DeltaNet)则通过保存 RNN状态快照从内存恢复不可裁剪层、避免重复计算,整体TTFT快2-5倍
兼容OpenAI API格式,Cursor/Claude Code/Aider改一个 URL就能用
github:网页链接
RapidMLX本地AI推理引擎
