antirez前一阵开发了一个专门面向DeepSeek v4 Flash的推理引

antirez前一阵开发了一个专门面向DeepSeek v4 Flash的推理引擎，很受欢迎。他写了一篇短文总结这段历程。他对本地跑的ds4评价很高啊。假设你脑中把“小而不错的本地模型体验”想成 A，把你在线使用的前沿模型想成 B，那么 DS4 更接近 B，而不是 A。----------------------关于 DS4 的几句话antirez

我没想到 DwarfStar 4（ github.com/antirez/ds4）会这么快变得这么受欢迎。很明显，大家确实需要一种专注于单模型集成的本地 AI 体验，而几件事刚好同时发生了：一个准前沿模型发布了，它足够大、也足够快，足以改变本地推理的格局；同时它又能很好地配合一种极其不对称的 2/8 bit 量化方案，所以 96GB 或 128GB RAM 就足够运行它。当然，还有近几年本地 AI 运动积累下来的所有经验；因为有 GPT 5.5，这些经验可以更快地被利用起来。（否则你不可能在一周内做出 DS4——即便有这些帮助，你也得知道怎么温和地和 LLM 对话。）

过去一周很有趣，也很累。我平均每天工作 14 个小时。自 Redis 早期以来，我正常的平均工作时间是每天 4 到 6 小时，不过 Redis 最初几个月也是这样。

那么，接下来呢？这个项目是不是从 DeepSeek v4 Flash 开始，也到 DeepSeek v4 Flash 结束？不是，模型可以随着时间变化。在我的设想里，这个位置会由当下最好的 open weights 模型占据，前提是它能在高端 Mac 或“盒子里的 GPU”设备上实际快速运行，比如 DGX Spark 和其他类似配置。我猜下一个竞争者还是 DeepSeek v4 Flash 自己，也就是未来将发布的新 checkpoint；希望还会有一个专门针对 coding 调优的版本，谁知道呢，也许还会有其他 expert variants——这里不是 MoE experts 的那个意思。毕竟，对本地推理来说，拥有 ds4-coding、ds4-legal、ds4-medical 这样的模型是很合理的。你只需要根据问题加载需要的模型。

自从我开始玩本地推理以来——我从一开始就在玩——这是第一次我发现自己会用本地模型处理严肃事情，而这些事情我通常会去问 Claude / GPT。我觉得这真的是一件大事。这也是第一次，通过 vector steering，我能享受到一种 LLM 可以被更自由使用的体验。DeepSeek v4 Flash 确实是一个令人印象深刻的模型，毫无疑问。假设你脑中把“小而不错的本地模型体验”想成 A，把你在线使用的前沿模型想成 B，那么 DS4 更接近 B，而不是 A。老实说，我已经等不及新版本了。（顺便说一句，谢谢 DeepSeek。）

所以，经历了最初几天的混乱之后，我希望这个项目接下来专注于：质量 benchmarks；可能加入一个 coding agent，并让它也成为项目的一部分；在我家搭一套硬件环境来运行 CI 测试，以保证长期质量；更多移植；最后也是非常重要的一点：distributed inference，包括串行和并行两种方式。

目前，感谢大家的支持：这真的让我很感激 :) AI 太关键了，不能只是一个由别人提供的服务。

AI创造营

DC娱乐网

antirez前一阵开发了一个专门面向DeepSeek v4 Flash的推理引

热门分类