亞太 GPU 算力與 AI 基礎設施

在東京、香港、新加坡、孟買租用 NVIDIA H100、H200、B200 GPU 集群。按時計費、無年度承諾、廠商中立採購,針對服務亞洲終端用戶的低延遲推論與中小型訓練工作負載優化。

為什麼亞太運營商需要亞太 GPU 算力

多數公開 GPU 定價基準來自美國 hyperscaler,但對服務華語、日語、韓語、越南語、泰語市場的運營商,美國機房租用意味著 150–250ms RTT 推論延遲 — 即時聊天、語音、互動應用無法使用。亞太 GPU 算力歷史上受限,目錄價是美國的 2–3 倍,AWS Trainium 或 Google TPU 上機往往需要數月期企業合約。我們整合東京(NTT、Equinix)、香港(Sunevision、MEGA)、新加坡(Equinix SG3、Digital Realty)的 H100 與 H200 產能,按時計費租出,無最低承諾。

推論部署模式

中文優先 LLM 服務(DeepSeek、Qwen、Yi、GLM-4)我們部署 vLLM 或 TGI 在 H100 80GB SXM5 單節點 8-GPU 配置,前端 token-aware 負載平衡。Qwen2.5-72B FP16 吞吐:H100 8-GPU 節點聚合約 840 tokens/sec,p50 首 token 延遲 280ms,p99 750ms。長上下文(>32K tokens)推薦 H200 配 HBM3e 擴展記憶體 — 即使 128K 上下文首 token 延遲仍 <400ms。多模態(vision-language)在同一 H100 8x 堆疊跑 InternVL2-78B 或 Qwen2-VL-72B。

訓練與保留定價

實際時薪:H100 8x SXM5 $32–38/小時(亞洲 spot 可用時,否則 on-demand);H200 8x SXM5 $42–48/小時;B200(早期可用,僅東京)$58–65/小時。InfiniBand HDR 200Gbps 多節點集群(16–64 GPU)東京與新加坡可用。保留產能:月承諾 H100 降到 $28–32/小時,3 月承諾降到 $24–28/小時。若達不到 99.5% 可用性 SLA 保留費全額退。

工作負載接受

我們託管 LLM 推論、微調、中小型訓練(最多 ~64 GPU 多節點)給合法 AI 工作負載:聊天應用、內容生成、程式助手、語音/影片合成、推薦系統、多模態搜尋、科學研究。我們不託管設計來繞過我們不營運的上游 API 安全過濾器的工作負載、含已知非法訓練資料暴露的訓練、或意圖生成可辨識真實人物未經同意描繪的服務。標準合作從 MNDA 開始。結算選項包含電匯、區域支付通道、商業上適當時的穩定幣。

匿名案例輪廓 — 一家新加坡 AI 新創營運中文優先對話平台,在 4 節點 H100 集群(32 GPU、InfiniBand HDR)上微調 Qwen2.5-72B 共 6 天。計費總時數 4,608 GPU 小時 × $34/GPU 小時 = $156,672。推論部署在香港 2 節點 H200 集群,服務 4,200 並發用戶 p99 首 token 延遲 380ms。客戶從美國 GPU 租用商遷移過來 — 後者貴 60% 且亞洲終端用戶推論延遲多 220ms。

FAQ

按時計費 — 真的按時嗎?

真按時。14:23 開機 14:51 關機,付 0.47 小時。無日最低。Provisioning 一般 4–12 分鐘。

InfiniBand 可用性?

東京與新加坡:機架內 HDR 200Gbps,新機架 NDR 400Gbps。香港:HDR 200Gbps。多節點配置需提前 24h 明確保留。

訓練資料儲存?

本地 NVMe 每節點 30–60 TB,加可選 S3 相容物件儲存當區(新加坡/東京 Cloudflare R2、香港 騰訊雲 COS、新加坡 阿里雲 OSS)。

AI 工作負載結算選項?

電匯、SWIFT、USDT TRC20/ERC20、USDC ERC20。月結,保留產能按比例消耗。

聯絡我們的基礎設施團隊

MNDA 標準。多通道:Email、預約通話、或 Telegram。4 個工作小時內回覆。