专为Mac搞的一款本地AI推理引擎：Rapid-MLX，比Ollama快最高4.

2026-05-07 17:43:52 群星寒光科技

专为Mac搞的一款本地AI推理引擎：Rapid-MLX，比Ollama快最高4.2倍，4B模型能到160 tok/s

基于Apple的MLX框架，原生Metal GPU计算，直接利用统一内存架构

同样跑Qwen3.5-9B，Rapid-MLX 108 tok/s，Ollama 41 tok/s，相差2.6倍

4bit量化模型的工具调用输出会在多轮后退化，Rapid-MLX内置17种工具解析器，能自动检测损坏输出并将其转换回结构化的tool_calls

对话不用每次从头算：标准transformer通过KV缓存裁剪实现，混合架构模型（比如Qwen3.5 DeltaNet）则通过保存 RNN状态快照从内存恢复不可裁剪层、避免重复计算，整体TTFT快2-5倍

兼容OpenAI API格式，Cursor/Claude Code/Aider改一个 URL就能用

github：网页链接

RapidMLX本地AI推理引擎

阅读：0 点赞：0

DC娱乐网