DC娱乐网

antirez前一阵开发了一个专门面向DeepSeek v4 Flash的推理引

antirez前一阵开发了一个专门面向DeepSeek v4 Flash的推理引擎,很受欢迎。他写了一篇短文总结这段历程。他对本地跑的ds4评价很高啊。假设你脑中把“小而不错的本地模型体验”想成 A,把你在线使用的前沿模型想成 B,那么 DS4 更接近 B,而不是 A。----------------------关于 DS4 的几句话antirez

我没想到 DwarfStar 4( github.com/antirez/ds4)会这么快变得这么受欢迎。很明显,大家确实需要一种专注于单模型集成的本地 AI 体验,而几件事刚好同时发生了:一个准前沿模型发布了,它足够大、也足够快,足以改变本地推理的格局;同时它又能很好地配合一种极其不对称的 2/8 bit 量化方案,所以 96GB 或 128GB RAM 就足够运行它。当然,还有近几年本地 AI 运动积累下来的所有经验;因为有 GPT 5.5,这些经验可以更快地被利用起来。(否则你不可能在一周内做出 DS4——即便有这些帮助,你也得知道怎么温和地和 LLM 对话。)

过去一周很有趣,也很累。我平均每天工作 14 个小时。自 Redis 早期以来,我正常的平均工作时间是每天 4 到 6 小时,不过 Redis 最初几个月也是这样。

那么,接下来呢?这个项目是不是从 DeepSeek v4 Flash 开始,也到 DeepSeek v4 Flash 结束?不是,模型可以随着时间变化。在我的设想里,这个位置会由当下最好的 open weights 模型占据,前提是它能在高端 Mac 或“盒子里的 GPU”设备上实际快速运行,比如 DGX Spark 和其他类似配置。我猜下一个竞争者还是 DeepSeek v4 Flash 自己,也就是未来将发布的新 checkpoint;希望还会有一个专门针对 coding 调优的版本,谁知道呢,也许还会有其他 expert variants——这里不是 MoE experts 的那个意思。毕竟,对本地推理来说,拥有 ds4-coding、ds4-legal、ds4-medical 这样的模型是很合理的。你只需要根据问题加载需要的模型。

自从我开始玩本地推理以来——我从一开始就在玩——这是第一次我发现自己会用本地模型处理严肃事情,而这些事情我通常会去问 Claude / GPT。我觉得这真的是一件大事。这也是第一次,通过 vector steering,我能享受到一种 LLM 可以被更自由使用的体验。DeepSeek v4 Flash 确实是一个令人印象深刻的模型,毫无疑问。假设你脑中把“小而不错的本地模型体验”想成 A,把你在线使用的前沿模型想成 B,那么 DS4 更接近 B,而不是 A。老实说,我已经等不及新版本了。(顺便说一句,谢谢 DeepSeek。)

所以,经历了最初几天的混乱之后,我希望这个项目接下来专注于:质量 benchmarks;可能加入一个 coding agent,并让它也成为项目的一部分;在我家搭一套硬件环境来运行 CI 测试,以保证长期质量;更多移植;最后也是非常重要的一点:distributed inference,包括串行和并行两种方式。

目前,感谢大家的支持:这真的让我很感激 :) AI 太关键了,不能只是一个由别人提供的服务。

AI创造营