去中心化 GPU 算力網絡

LLM ClusterDecentralized GPU Compute

不只是分享 GPU,更是一個算力互助平台
朋友之間共享本地 GPU,統一 OpenAI 相容 API,智慧調度零延遲。

How it works

連線 → 調度 → 推理

01

節點上線

Desktop Agent 自動偵測本地 LM Studio / Ollama 並建立 WSS 隧道

02

智慧調度

雙重負載平衡,優先選擇已載入模型的節點避免冷啟動

03

統一推理

透過 OpenAI v1 相容 API,像使用雲端服務一樣呼叫本地算力

Features

為朋友圈打造的 GPU 網絡

OpenAI 相容 API

Drop-in Replacement

完全相容 OpenAI v1 格式,支援 streaming。任何支援 OpenAI API 的客戶端——Cursor、Continue、Open WebUI——直接切換 base URL 即可使用。

雙重負載平衡

Dual-Layer Load Balancing

Layer 1 過濾群組、模型、健康狀態;Layer 2 以加權評分選最優節點。熱模型優先策略,VRAM 中已載入的模型權重最高,避免 10-60 秒冷啟動。

多後端自動偵測

Multi-Backend Support

自動掃描端口偵測 LM Studio、Ollama、Generic OpenAI 後端。API Translator 統一格式,NDJSON 自動轉換 SSE,零手動配置。

WebSocket 反向隧道

NAT Traversal

Provider 在 NAT/防火牆後方也能連線。WSS 反向隧道同時承載 Heartbeat 與 Request Forwarding,無需 frp 或公網 IP。

群組隔離信任

Group-Based Trust

核心為朋友互助會模型——信任建立在社交關係上。群組隔離避免陌生人佔用 GPU,無需複雜的 Reputation System。

即時 GPU 監控

Real-Time Metrics

透過 nvidia-smi / rocm-smi 蒐集即時 GPU 使用率、VRAM、溫度、延遲。Dashboard 一覽群組所有節點狀態。

Architecture

三層架構設計

Consumer、Relay、Provider 三層分離,雲端中繼服務處理認證與調度,Desktop Agent 負責本地推理。

Relay 中繼服務

FastAPI 非同步架構,處理 API Gateway、認證、調度與 WebSocket 管理

FastAPI · PostgreSQL · Redis

Desktop Agent

Python 核心 + Tauri Shell,自動偵測後端、GPU 監控、API 轉譯

Python · Tauri · WebSocket

Web 管理介面

群組管理、節點監控、API Key 管理、使用量統計

SvelteKit · TailwindCSS · shadcn

Supported Backends

你的推理後端,你做主

支援主流本地推理引擎,自動偵測、自動轉譯,Consumer 端完全透明。

LM Studio

原生 OpenAI v1 相容

Ollama

NDJSON → SSE 自動轉換

Generic OpenAI

任何 OpenAI 相容端點

Security

三層安全認證

Consumer → Relay
API Key (Bearer Token)
Frontend → Relay
JWT (Google OAuth)
Provider → Relay
JWT + Node Token (WSS 雙重驗證)
所有外部通訊走 TLSAPI Key 只儲存 SHA-256 hash三層速率限制:Key / User / Group

Who is it for

誰適合 LLM Cluster?

👨‍💻

小型開發團隊

共享閒置 GPU,統一 API 介面開發

降低推理成本 80%
🔬

AI 研究者

多模型切換測試,A/B 比較不同推理後端

模型實驗零等待
🎮

個人玩家

朋友聚集算力,跑更大的模型

4090 × N 的算力池
🔒

隱私優先團隊

數據不出群組,本地推理零上傳

完全離線可部署

算力共享,從這裡開始。

建立你的算力互助圈,讓閒置 GPU 發揮最大價值。