¿Qué herramientas de IA usó Baseten?

Baseten utilizó NVIDIA Dynamo, NVIDIA TensorRT-LLM en esta implementación.

¿Qué función de negocio aborda este caso de uso?

Este caso se enfoca en Ingeniería de Software.

TecnologíaIngeniería de Software

Cómo Baseten Usa NVIDIA Blackwell para Lograr 5x de Rendimiento en Inferencia de IA

Baseten, la plataforma de inferencia de IA que agrupa GPU de más de 10 proveedores de nube para algunas de las empresas de IA de mayor crecimiento del mundo, adoptó GPU NVIDIA Blackwell en Google Cloud junto con NVIDIA Dynamo y TensorRT-LLM. El resultado: 5x más rendimiento para endpoints de alto tráfico, hasta un 225% mejor relación precio-rendimiento al servir DeepSeek-R1 y Llama 4, y una latencia un 38% menor en el servicio de modelos de lenguaje de gran tamaño.

Resultados

5xMejora de rendimiento para endpoints de alto tráfico

Up to 225%Mejora de relación precio-rendimiento para modelos de razonamiento

Up to 38%Reducción de latencia en el servicio de LLMs

<5 minutesVelocidad de aprovisionamiento de GPU

Herramientas y tecnologías

NVIDIA Dynamo

Inference optimization framework for distributed LLM serving on NVIDIA GPUs, enabling high-throughput multi-node deployments.

NVIDIA TensorRT-LLM

Compiler and runtime library that accelerates LLM inference on NVIDIA GPUs through quantization, kernel fusion, and batching.

Categorías de IA

ML Platform

Developer Tools

Desafío

Baseten necesitaba servir modelos de razonamiento de última generación como DeepSeek-R1 y Llama 4 en producción sin aceptar compensaciones inaceptables entre latencia y costo—la infraestructura GPU anterior no podía manejar las enormes ventanas de contexto y el cómputo de inferencia extendido para modelos de razonamiento a una relación precio-rendimiento competitiva.

Solución

Baseten adoptó GPU NVIDIA Blackwell en Google Cloud—siendo la primera empresa en hacerlo—combinadas con NVIDIA Dynamo para la orquestación de inferencia multinodo y TensorRT-LLM para el servicio de modelos optimizado por hardware, logrando 5x de mejora en rendimiento, hasta 225% mejor relación precio-rendimiento en modelos de razonamiento y una reducción del 38% en latencia.

Historia completa

Baseten opera una plataforma global de inferencia de IA que agrega capacidad de GPU de más de 10 proveedores de nube en docenas de regiones, formando un grupo unificado de cómputo. Los clientes de la empresa son compañías nativas de IA que ejecutan cargas de trabajo en producción con modelos de lenguaje de última generación, con exigencias innegociables: baja latencia, alto rendimiento y eficiencia de costos, todo a escala. La capa de orquestación de Baseten abstrae la complejidad de gestionar infraestructura GPU geográficamente distribuida, convirtiendo un conjunto fragmentado de instancias en la nube en un único grupo de cómputo fungible.

Accede a 451+ casos de uso de IA, 424+ herramientas y rankings de señales de adopción.

Fuente

NVIDIA

mayo de 2026

Caso de estudio original ↗

Casos similares

How Headstart Uses Claude to Write 90-97% of Enterprise Client Code

Headstart

90–97%

Code written by Claude

90–97%Code written by Claude

How Rakuten Uses Claude Managed Agents to Cut Release Cycles from Quarterly to Biweekly

Rakuten

From quarterly to every 2 weeks

Release frequency improvement

From quarterly to every 2 weeksRelease frequency improvement

How AirOps 5x’d Revenue and Doubled Internal Productivity with Claude

AirOps

Revenue growth (past year)

5xRevenue growth (past year)

How Assembled Cuts Support Response Time 95% with Pinecone RAG

Assembled

~95%

Ticket handling time reduction

~95%Ticket handling time reduction

How Bolt Generates On-Brand Prototypes in 5 Minutes with Claude Agent SDK

StackBlitz

~53 minutes

Design system generation time (one-time autonomous run)

~53 minutesDesign system generation time (one-time autonomous run)

How Contextual AI Uses Elasticsearch to Achieve 90%+ RAG Accuracy at Scale

Contextual AI

90%+

RAG accuracy achieved in production

90%+RAG accuracy achieved in production

How ADT Uses UiPath to Cut Technician Confirmation Calls from 15 Minutes to Under 2

ADT

<2 minutes

Technician confirmation call time

<2 minutesTechnician confirmation call time

How Cognition Tripled Merged PRs Per Week Using Claude to Power Devin, Its Autonomous AI Engineer

Cognition

3.5×

Increase in merged PRs per week after adopting Claude Sonnet 3.6

3.5×Increase in merged PRs per week after adopting Claude Sonnet 3.6

Ver todos los casos →