亞太 GPU 算力與 AI 基礎設施

為什麼亞太運營商需要亞太 GPU 算力

多數公開 GPU 定價基準來自美國 hyperscaler，但對服務華語、日語、韓語、越南語、泰語市場的運營商，美國機房租用意味著 150–250ms RTT 推論延遲 — 即時聊天、語音、互動應用無法使用。亞太 GPU 算力歷史上受限，目錄價是美國的 2–3 倍，AWS Trainium 或 Google TPU 上機往往需要數月期企業合約。我們整合東京（NTT、Equinix）、香港（Sunevision、MEGA）、新加坡（Equinix SG3、Digital Realty）的 H100 與 H200 產能，按時計費租出，無最低承諾。

推論部署模式

中文優先 LLM 服務（DeepSeek、Qwen、Yi、GLM-4）我們部署 vLLM 或 TGI 在 H100 80GB SXM5 單節點 8-GPU 配置，前端 token-aware 負載平衡。Qwen2.5-72B FP16 吞吐：H100 8-GPU 節點聚合約 840 tokens/sec，p50 首 token 延遲 280ms，p99 750ms。長上下文（>32K tokens）推薦 H200 配 HBM3e 擴展記憶體 — 即使 128K 上下文首 token 延遲仍 <400ms。多模態（vision-language）在同一 H100 8x 堆疊跑 InternVL2-78B 或 Qwen2-VL-72B。

訓練與保留定價

實際時薪：H100 8x SXM5 $32–38/小時（亞洲 spot 可用時，否則 on-demand）；H200 8x SXM5 $42–48/小時；B200（早期可用，僅東京）$58–65/小時。InfiniBand HDR 200Gbps 多節點集群（16–64 GPU）東京與新加坡可用。保留產能：月承諾 H100 降到 $28–32/小時，3 月承諾降到 $24–28/小時。若達不到 99.5% 可用性 SLA 保留費全額退。

工作負載接受

我們託管 LLM 推論、微調、中小型訓練（最多 ~64 GPU 多節點）給合法 AI 工作負載：聊天應用、內容生成、程式助手、語音/影片合成、推薦系統、多模態搜尋、科學研究。我們不託管設計來繞過我們不營運的上游 API 安全過濾器的工作負載、含已知非法訓練資料暴露的訓練、或意圖生成可辨識真實人物未經同意描繪的服務。標準合作從 MNDA 開始。結算選項包含電匯、區域支付通道、商業上適當時的穩定幣。

匿名案例輪廓 — 一家新加坡 AI 新創營運中文優先對話平台，在 4 節點 H100 集群（32 GPU、InfiniBand HDR）上微調 Qwen2.5-72B 共 6 天。計費總時數 4,608 GPU 小時 × $34/GPU 小時 = $156,672。推論部署在香港 2 節點 H200 集群，服務 4,200 並發用戶 p99 首 token 延遲 380ms。客戶從美國 GPU 租用商遷移過來 — 後者貴 60% 且亞洲終端用戶推論延遲多 220ms。

FAQ

按時計費 — 真的按時嗎？

真按時。14:23 開機 14:51 關機，付 0.47 小時。無日最低。Provisioning 一般 4–12 分鐘。

InfiniBand 可用性？

東京與新加坡：機架內 HDR 200Gbps，新機架 NDR 400Gbps。香港：HDR 200Gbps。多節點配置需提前 24h 明確保留。

訓練資料儲存？

本地 NVMe 每節點 30–60 TB，加可選 S3 相容物件儲存當區（新加坡/東京 Cloudflare R2、香港騰訊雲 COS、新加坡阿里雲 OSS）。

AI 工作負載結算選項？

電匯、SWIFT、USDT TRC20/ERC20、USDC ERC20。月結，保留產能按比例消耗。

聯絡我們的基礎設施團隊

MNDA 標準。多通道：Email、預約通話、或 Telegram。4 個工作小時內回覆。

寄信給我們預約通話