在您独享的硬件上部署和运行大型语言模型。完整显存,完整带宽,每个请求都享有稳定一致的低延迟。

共享GPU基础设施会引入您无法预测或控制的延迟波动。当多个租户争夺相同的内存带宽时,推理吞吐量会下降,尤其是在高负载下。在1Legion裸金属服务器上,您将获得完整的GPU,没有竞争性任务。无论是第一个请求还是第一万个请求,吞吐量都保持一致。我们的8x RTX Pro 6000 Blackwell Max-Q服务器在专用硬件上运行,并提供直接的工程支持,能够以全精度运行高达70B参数的模型,并支持使用FP4量化运行更大的模型。