Cómo Baseten Usa NVIDIA Blackwell para Lograr 5x de Rendimiento en Inferencia de IA
Baseten, la plataforma de inferencia de IA que agrupa GPU de más de 10 proveedores de nube para algunas de las empresas de IA de mayor crecimiento del mundo, adoptó GPU NVIDIA Blackwell en Google Cloud junto con NVIDIA Dynamo y TensorRT-LLM. El resultado: 5x más rendimiento para endpoints de alto tráfico, hasta un 225% mejor relación precio-rendimiento al servir DeepSeek-R1 y Llama 4, y una latencia un 38% menor en el servicio de modelos de lenguaje de gran tamaño.
Impacto
5x
Mejora de rendimiento para endpoints de alto tráfico
Up to 225%
Mejora de relación precio-rendimiento para modelos de razonamiento
Up to 38%
Reducción de latencia en el servicio de LLMs
<5 minutes
Velocidad de aprovisionamiento de GPU
Desafío
Baseten necesitaba servir modelos de razonamiento de última generación como DeepSeek-R1 y Llama 4 en producción sin aceptar compensaciones inaceptables entre latencia y costo—la infraestructura GPU anterior no podía manejar las enormes ventanas de contexto y el cómputo de inferencia extendido para modelos de razonamiento a una relación precio-rendimiento competitiva.
Solución
Baseten adoptó GPU NVIDIA Blackwell en Google Cloud—siendo la primera empresa en hacerlo—combinadas con NVIDIA Dynamo para la orquestación de inferencia multinodo y TensorRT-LLM para el servicio de modelos optimizado por hardware, logrando 5x de mejora en rendimiento, hasta 225% mejor relación precio-rendimiento en modelos de razonamiento y una reducción del 38% en latencia.
Herramientas y tecnologías
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.
Historia completa
Baseten opera una plataforma global de inferencia de IA que agrega capacidad de GPU de más de 10 proveedores de nube en docenas de regiones, formando un grupo unificado de cómputo. Los clientes de la empresa son compañías nativas de IA que ejecutan cargas de trabajo en producción con modelos de lenguaje de última generación, con exigencias innegociables: baja latencia, alto rendimiento y eficiencia de costos, todo a escala. La capa de orquestación de Baseten abstrae la complejidad de gestionar infraestructura GPU geográficamente distribuida, convirtiendo un conjunto fragmentado de instancias en la nube en un único grupo de cómputo fungible.
A medida que los modelos de IA crecieron en tamaño y capacidad de razonamiento, servirlos en producción se volvió cada vez más difícil de equilibrar. Modelos como DeepSeek-R1 requieren enormes cantidades de memoria GPU y generan tokens de razonamiento que aumentan drásticamente el cómputo de inferencia. El contexto de 10 millones de tokens de Llama 4 Scout creó presión adicional de memoria. Antes de adoptar NVIDIA Blackwell, Baseten tenía que hacer concesiones difíciles entre la latencia del usuario y los costos de inferencia al servir estos modelos.
Baseten fue la primera empresa en adoptar máquinas virtuales A4 con GPU NVIDIA Blackwell en Google Cloud, combinándolas con el marco de inferencia NVIDIA Dynamo y NVIDIA TensorRT-LLM. NVIDIA Dynamo gestiona el servicio de inferencia multinodo en el grupo global de GPU, mientras que TensorRT-LLM optimiza la ejecución de modelos en hardware Blackwell. La plataforma puede ahora aprovisionar miles de GPU en menos de cinco minutos mediante gestión de capacidad multi-nube.
Las mejoras de rendimiento fueron sustanciales. Baseten puede ahora atender cinco veces más solicitudes de usuarios para modelos personalizados usando el mismo número de GPU. Para modelos de razonamiento de vanguardia como DeepSeek-R1 y Llama 4, la relación precio-rendimiento mejoró hasta un 225%. La latencia en el servicio de modelos grandes cayó hasta un 38%, mejorando directamente la experiencia del usuario.
La adopción de Blackwell posiciona a Baseten en la vanguardia de la infraestructura de inferencia en un momento en que la complejidad de los modelos de IA—y el valor empresarial que los clientes obtienen de ella—crece de forma exponencial.