Features
Drop-in Replacement
完全相容 OpenAI v1 格式,支援 streaming。任何支援 OpenAI API 的客戶端——Cursor、Continue、Open WebUI——直接切換 base URL 即可使用。
Dual-Layer Load Balancing
Layer 1 過濾群組、模型、健康狀態;Layer 2 以加權評分選最優節點。熱模型優先策略,VRAM 中已載入的模型權重最高,避免 10-60 秒冷啟動。
Multi-Backend Support
自動掃描端口偵測 LM Studio、Ollama、Generic OpenAI 後端。API Translator 統一格式,NDJSON 自動轉換 SSE,零手動配置。
NAT Traversal
Provider 在 NAT/防火牆後方也能連線。WSS 反向隧道同時承載 Heartbeat 與 Request Forwarding,無需 frp 或公網 IP。
Group-Based Trust
核心為朋友互助會模型——信任建立在社交關係上。群組隔離避免陌生人佔用 GPU,無需複雜的 Reputation System。
Real-Time Metrics
透過 nvidia-smi / rocm-smi 蒐集即時 GPU 使用率、VRAM、溫度、延遲。Dashboard 一覽群組所有節點狀態。
Architecture
Consumer、Relay、Provider 三層分離,雲端中繼服務處理認證與調度,Desktop Agent 負責本地推理。
FastAPI 非同步架構,處理 API Gateway、認證、調度與 WebSocket 管理
FastAPI · PostgreSQL · RedisPython 核心 + Tauri Shell,自動偵測後端、GPU 監控、API 轉譯
Python · Tauri · WebSocket群組管理、節點監控、API Key 管理、使用量統計
SvelteKit · TailwindCSS · shadcnSupported Backends
支援主流本地推理引擎,自動偵測、自動轉譯,Consumer 端完全透明。
原生 OpenAI v1 相容
NDJSON → SSE 自動轉換
任何 OpenAI 相容端點
Security
Who is it for
共享閒置 GPU,統一 API 介面開發
降低推理成本 80%多模型切換測試,A/B 比較不同推理後端
模型實驗零等待朋友聚集算力,跑更大的模型
4090 × N 的算力池數據不出群組,本地推理零上傳
完全離線可部署