LLM Inference on Bare Metal GPU

在专为LLM构建的基础设施上运行您的LLM流水线

完整GPU，完整显存

每颗GPU配备96 GB GDDR7 ECC显存，总计768 GB。无虚拟化层，无共享租户，无基础设施施加的内存限制。

FP4和FP8精度

原生支持Blackwell精度，适用于现代LLM推理框架，如vLLM、TGI、TensorRT-LLM、Ollama。

可预测的成本

无出口流量费，无隐藏基础设施成本。12个月合约期，低至$1.34/GPU/小时。

为什么裸金属对LLM推理至关重要

共享GPU基础设施会引入您无法预测或控制的延迟波动。当多个租户争夺相同的内存带宽时，推理吞吐量会下降，尤其是在高负载下。在1Legion裸金属服务器上，您将获得完整的GPU，没有竞争性任务。无论是第一个请求还是第一万个请求，吞吐量都保持一致。我们的8x RTX Pro 6000 Blackwell Max-Q服务器在专用硬件上运行，并提供直接的工程支持，能够以全精度运行高达70B参数的模型，并支持使用FP4量化运行更大的模型。

申请裸金属试点项目 →

专用裸金属上的LLM推理

在专为LLM构建的基础设施上运行您的LLM流水线

完整GPU，完整显存

FP4和FP8精度

可预测的成本

为什么裸金属对LLM推理至关重要

准备好在裸金属服务器上部署您的LLM了吗？

专用裸金属上的LLM推理

在专为LLM构建的基础设施上运行您的LLM流水线

完整GPU，完整显存

FP4和FP8精度

可预测的成本

为什么裸金属对LLM推理至关重要

准备好在裸金属服务器上部署您的LLM了吗？

联系我们

快速链接

聚焦