llmnode:本地GPU变身私有AI推理服务器,告别Token成本
这张图展示的是 llmnode 项目,它能把你的本地GPU变成兼容OpenAI/Anthropic协议的私有AI推理服务,让Claude Code、Codex CLI、openclaw、harness等工具直接开箱即用,零Token成本。
✨ 核心优势
1. 本地无限使用,数据不出机器
所有推理在本地完成,数据不上传第三方,天然安全合规;没有Token计费,成本仅由硬件和电力决定,长期使用比云API更省钱。
2. 多协议兼容,无缝对接主流工具
对外提供兼容OpenAI/Anthropic的API,Claude Code、Codex CLI、openclaw、harness等工具可直接接入,无需额外改造;支持 /v1/messages 原生交互、 /count_tokens 兼容,适配主流Agent生态。
3. 三后端可选,适配不同场景
- vLLM:性能最优,短请求(4K)可达90 tok/s,适合追求速度、显存充足的场景,适配27B+大模型。
- llama.cpp:显存需求低,对GGUF量化模型友好,24GB显存可运行27B量化模型,适合显存有限的设备。
- SGLang:服务稳定性高,已完成线上验证,适合生产级部署,追求稳定与性能平衡。
📊 核心功能模块
1. 管理台(总览)
- 系统运行状态、GPU占用率/温度、运行时长实时监控
- 模型列表、上下文窗口、运行状态统一管理
- 请求路由分析、缓存命中率、请求分布可视化
2. 请求记录与用量统计
- 输入/输出Token总量、请求数、平均响应时间等指标
- Token使用趋势、按模型/后端分布分析
- 缓存命中率统计,优化模型调用效率
3. 密钥管理
- 多API Key权限控制,支持为不同工具分配独立密钥
- 单Key用量统计、启用/禁用状态管理
- 密钥本地存储,无后门访问风险
🛠️ 快速上手命令
bash
创建管理员密钥(首次使用)
python -m llmnode.control create-admin-key
启动服务
python -m llmnode.control start
查看服务状态
python -m llmnode.control status
查看日志
python -m llmnode.control logs
- 管理台地址: :4000/console/
- 推理API地址: :4000/v1/
📌 模型推荐与部署方案
- 首推: Qwen3.6-27B-MTP-GGUF ,24GB显存即可部署,日常编码场景体验佳。
- 次选: Qwen3.6-35B-A3B-AWQ-4bit (MoE架构,3B激活参数),单条256K上下文仅需约5GB显存,12GB显卡即可部署。
⚠️ 安全与局限说明
- 安全设计:纯本地部署,无默认后门,密钥仅存本地,数据不出机器。
- 当前局限:
- 暂不支持Windows,仅推荐Linux + Docker + GPU环境。
- 不是一键安装,需自行准备模型文件(可从ModelScope下载)。
- 多节点/分布式部署功能尚在完善中。
- 长上下文(256K)速度偏慢,不推荐跨模型交互场景。
一句话总结:llmnode 是个人/团队级本地AI推理的“一站式底座”,用你的闲置GPU跑起Claude Code、Codex等Agent工具,彻底摆脱云API的Token成本与数据泄露风险。
开源Agent CUDA开发 NPU架构 Adam算法 开源LLM平台 ai计算服务器 knn算法