为什么亚太运营商需要亚太 GPU 算力
多数公开 GPU 定价基准来自美国 hyperscaler,但对服务华语、日语、韩语、越南语、泰语市场的运营商,美国机房租用意味着 150–250ms RTT 推理延迟 — 即时聊天、语音、互动应用无法使用。亚太 GPU 算力历史上受限,目录价是美国的 2–3 倍,AWS Trainium 或 Google TPU 上机往往需要数月期企业合约。我们整合东京(NTT、Equinix)、香港(Sunevision、MEGA)、新加坡(Equinix SG3、Digital Realty)的 H100 与 H200 产能,按时计费租出,无最低承诺。
推理部署模式
中文优先 LLM 服务(DeepSeek、Qwen、Yi、GLM-4)我们部署 vLLM 或 TGI 在 H100 80GB SXM5 单节点 8-GPU 配置,前端 token-aware 负载均衡。Qwen2.5-72B FP16 吞吐:H100 8-GPU 节点聚合约 840 tokens/sec,p50 首 token 延迟 280ms,p99 750ms。长上下文(>32K tokens)推荐 H200 配 HBM3e 扩展显存 — 即使 128K 上下文首 token 延迟仍 <400ms。多模态(vision-language)在同一 H100 8x 堆栈跑 InternVL2-78B 或 Qwen2-VL-72B。
训练与保留定价
实际时薪:H100 8x SXM5 $32–38/小时(亚洲 spot 可用时,否则 on-demand);H200 8x SXM5 $42–48/小时;B200(早期可用,仅东京)$58–65/小时。InfiniBand HDR 200Gbps 多节点集群(16–64 GPU)东京与新加坡可用。保留产能:月承诺 H100 降到 $28–32/小时,3 月承诺降到 $24–28/小时。若达不到 99.5% 可用性 SLA 保留费全额退。
工作负载接受
我们托管 LLM 推理、微调、中小型训练(最多 ~64 GPU 多节点)给合法 AI 工作负载:聊天应用、内容生成、程序助手、语音/视频合成、推荐系统、多模态搜索、科学研究。我们不托管设计来绕过我们不运营的上游 API 安全过滤器的工作负载、含已知非法训练数据暴露的训练、或意图生成可辨识真实人物未经同意描绘的服务。标准合作从 MNDA 开始。结算选项包含电汇、区域支付通道、商业上适当时的稳定币。
匿名案例轮廓 — 一家新加坡 AI 初创运营中文优先对话平台,在 4 节点 H100 集群(32 GPU、InfiniBand HDR)上微调 Qwen2.5-72B 共 6 天。计费总时数 4,608 GPU 小时 × $34/GPU 小时 = $156,672。推理部署在香港 2 节点 H200 集群,服务 4,200 并发用户 p99 首 token 延迟 380ms。客户从美国 GPU 租用商迁移过来 — 后者贵 60% 且亚洲终端用户推理延迟多 220ms。
FAQ
按时计费 — 真的按时吗?
真按时。14:23 开机 14:51 关机,付 0.47 小时。无日最低。Provisioning 一般 4–12 分钟。
InfiniBand 可用性?
东京与新加坡:机架内 HDR 200Gbps,新机架 NDR 400Gbps。香港:HDR 200Gbps。多节点配置需提前 24h 明确保留。
训练数据存储?
本地 NVMe 每节点 30–60 TB,加可选 S3 兼容对象存储当区(新加坡/东京 Cloudflare R2、香港 腾讯云 COS、新加坡 阿里云 OSS)。
AI 工作负载结算选项?
电汇、SWIFT、USDT TRC20/ERC20、USDC ERC20。月结,保留产能按比例消耗。