Inferencia de LLM en Bare Metal Dedicado

Implemente y sirva modelos de lenguaje grandes en hardware que no comparte con nadie. VRAM completa, ancho de banda completo, latencia consistente, en cada solicitud.

Ejecute su pipeline de LLM en una infraestructura diseñada para ello

GPU completa, VRAM completa

96 GB GDDR7 ECC por GPU, 768 GB en total. Sin capa de virtualización, sin inquilinos compartidos, sin límites de memoria impuestos por la infraestructura.

Precisión FP4 y FP8

Soporte nativo de precisión Blackwell para frameworks modernos de inferencia de LLM: vLLM, TGI, TensorRT-LLM, Ollama.

Costo predecible

Sin cargos por egreso, sin costos de infraestructura ocultos. Desde $1.34/GPU/hora con un plazo de 12 meses.

Por qué el bare metal es importante para la inferencia de LLM

La infraestructura de GPU compartida introduce una variación de latencia que no se puede predecir ni controlar. Cuando varios inquilinos compiten por el mismo ancho de banda de memoria, el rendimiento de inferencia se degrada, especialmente bajo carga.

En el bare metal de 1Legion, obtiene la GPU completa. Sin trabajos en competencia. El mismo rendimiento en la solicitud 1 y en la solicitud 10.000.

El servidor 8x RTX Pro 6000 Blackwell Max-Q ejecuta modelos de hasta 70 mil millones de parámetros en precisión completa, y modelos más grandes con cuantificación FP4, en hardware dedicado, con soporte de ingeniería directo.

Solicite un programa piloto de Bare Metal →

¿Listo para implementar su LLM en bare metal?

Háblenos de su modelo y carga de trabajo. Le asignaremos la configuración adecuada.

Contacte a nuestros ingenieros