专用裸金属上的LLM推理

在您独享的硬件上部署和运行大型语言模型。完整显存,完整带宽,每个请求都享有稳定一致的低延迟。

在专为LLM构建的基础设施上运行您的LLM流水线

完整GPU,完整显存

每颗GPU配备96 GB GDDR7 ECC显存,总计768 GB。无虚拟化层,无共享租户,无基础设施施加的内存限制。

FP4和FP8精度

原生支持Blackwell精度,适用于现代LLM推理框架,如vLLM、TGI、TensorRT-LLM、Ollama。

可预测的成本

无出口流量费,无隐藏基础设施成本。12个月合约期,低至$1.34/GPU/小时。

为什么裸金属对LLM推理至关重要

共享GPU基础设施会引入您无法预测或控制的延迟波动。当多个租户争夺相同的内存带宽时,推理吞吐量会下降,尤其是在高负载下。在1Legion裸金属服务器上,您将获得完整的GPU,没有竞争性任务。无论是第一个请求还是第一万个请求,吞吐量都保持一致。我们的8x RTX Pro 6000 Blackwell Max-Q服务器在专用硬件上运行,并提供直接的工程支持,能够以全精度运行高达70B参数的模型,并支持使用FP4量化运行更大的模型。

申请裸金属试点项目 →

准备好在裸金属服务器上部署您的LLM了吗?

请告诉我们您的模型和工作负载。我们将为您匹配合适的配置。

联系我们的工程师