TecnologíaIngeniería de Software

Cómo Baseten Usa NVIDIA Blackwell para Lograr 5x de Rendimiento en Inferencia de IA

Baseten, la plataforma de inferencia de IA que agrupa GPU de más de 10 proveedores de nube para algunas de las empresas de IA de mayor crecimiento del mundo, adoptó GPU NVIDIA Blackwell en Google Cloud junto con NVIDIA Dynamo y TensorRT-LLM. El resultado: 5x más rendimiento para endpoints de alto tráfico, hasta un 225% mejor relación precio-rendimiento al servir DeepSeek-R1 y Llama 4, y una latencia un 38% menor en el servicio de modelos de lenguaje de gran tamaño.

Impacto

5x

Mejora de rendimiento para endpoints de alto tráfico

Up to 225%

Mejora de relación precio-rendimiento para modelos de razonamiento

Up to 38%

Reducción de latencia en el servicio de LLMs

<5 minutes

Velocidad de aprovisionamiento de GPU

Desafío

Baseten necesitaba servir modelos de razonamiento de última generación como DeepSeek-R1 y Llama 4 en producción sin aceptar compensaciones inaceptables entre latencia y costo—la infraestructura GPU anterior no podía manejar las enormes ventanas de contexto y el cómputo de inferencia extendido para modelos de razonamiento a una relación precio-rendimiento competitiva.

Solución

Baseten adoptó GPU NVIDIA Blackwell en Google Cloud—siendo la primera empresa en hacerlo—combinadas con NVIDIA Dynamo para la orquestación de inferencia multinodo y TensorRT-LLM para el servicio de modelos optimizado por hardware, logrando 5x de mejora en rendimiento, hasta 225% mejor relación precio-rendimiento en modelos de razonamiento y una reducción del 38% en latencia.

Herramientas y tecnologías

Entiende todo el contexto.

Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.

Historia completa

Baseten opera una plataforma global de inferencia de IA que agrega capacidad de GPU de más de 10 proveedores de nube en docenas de regiones, formando un grupo unificado de cómputo. Los clientes de la empresa son compañías nativas de IA que ejecutan cargas de trabajo en producción con modelos de lenguaje de última generación, con exigencias innegociables: baja latencia, alto rendimiento y eficiencia de costos, todo a escala. La capa de orquestación de Baseten abstrae la complejidad de gestionar infraestructura GPU geográficamente distribuida, convirtiendo un conjunto fragmentado de instancias en la nube en un único grupo de cómputo fungible.

A medida que los modelos de IA crecieron en tamaño y capacidad de razonamiento, servirlos en producción se volvió cada vez más difícil de equilibrar. Modelos como DeepSeek-R1 requieren enormes cantidades de memoria GPU y generan tokens de razonamiento que aumentan drásticamente el cómputo de inferencia. El contexto de 10 millones de tokens de Llama 4 Scout creó presión adicional de memoria. Antes de adoptar NVIDIA Blackwell, Baseten tenía que hacer concesiones difíciles entre la latencia del usuario y los costos de inferencia al servir estos modelos.

Baseten fue la primera empresa en adoptar máquinas virtuales A4 con GPU NVIDIA Blackwell en Google Cloud, combinándolas con el marco de inferencia NVIDIA Dynamo y NVIDIA TensorRT-LLM. NVIDIA Dynamo gestiona el servicio de inferencia multinodo en el grupo global de GPU, mientras que TensorRT-LLM optimiza la ejecución de modelos en hardware Blackwell. La plataforma puede ahora aprovisionar miles de GPU en menos de cinco minutos mediante gestión de capacidad multi-nube.

Las mejoras de rendimiento fueron sustanciales. Baseten puede ahora atender cinco veces más solicitudes de usuarios para modelos personalizados usando el mismo número de GPU. Para modelos de razonamiento de vanguardia como DeepSeek-R1 y Llama 4, la relación precio-rendimiento mejoró hasta un 225%. La latencia en el servicio de modelos grandes cayó hasta un 38%, mejorando directamente la experiencia del usuario.

La adopción de Blackwell posiciona a Baseten en la vanguardia de la infraestructura de inferencia en un momento en que la complejidad de los modelos de IA—y el valor empresarial que los clientes obtienen de ella—crece de forma exponencial.

Casos similares

P
Pfizer
93%
database reduction

Pfizer achieved a 93% database reduction and 20% cost avoidance by migrating their global SAP environment to S/4HANA on IBM Power10 infrastructure.

PharmaceuticalsTechnologyICIBM ConsultingIPIBM Power Virtual Server
A
Allspice
20% → 97%
ingredient matching accuracy

Allspice, a food technology startup building a kitchen operating system for consumers and recipe publishers, deployed Pinecone’s vector database to solve the inherent messiness of ingredient data that traditional text search could not handle. The implementation raised ingredient matching accuracy from roughly 20% to 97%, enabling the launch of recipe importing as a core product feature and expanding into a platform-wide semantic layer for search, recommendations, and conversational AI.

TechnologyTtext-embedding-3-largePPinecone
J
Jamf
Under 45 minutes
performance review skill build time

Jamf deployed Claude Enterprise across 16 departments, then built interactive workflow skills using Claude Cowork that transformed manual spreadsheet-based processes into guided, conversational experiences. Performance reviews that previously required months of effort are now built in under 45 minutes, and non-engineering teams independently create custom data dashboards.

TechnologyCEClaude EnterpriseCCClaude Cowork
R
Rappi
40%
search response latency reduction

Rappi, Latin America’s fastest-growing on-demand delivery app serving over 300 cities, replaced its keyword-based search engine with Oracle AI Vector Search and Oracle Cloud Infrastructure Generative AI to enable semantic and image-based product discovery. The upgrade reduced search response latency by 40% and improved conversion rate by 25%, driving higher engagement and order volumes across the platform.

TechnologyOAOracle AI Vector SearchOAOracle Autonomous AI Database
C
Confluent
15,000+
hours saved monthly

Confluent, a data streaming platform company with 2,000+ employees and 4,000+ customers, deployed Glean to solve the knowledge fragmentation that came with rapid growth from 250 to 2,000+ employees across 20+ systems. Glean indexed the company's full tool stack — Slack, Salesforce, Confluence, and more — enabling instant knowledge retrieval across all teams. The result: 15,000+ hours saved monthly, a 13% increase in support team satisfaction, and over 70% employee adoption.

TechnologyGGlean
H
Headstart
90–97%
code written by claude

Headstart, an AI-native software studio, uses Claude 3.5 Sonnet to write 90-97% of client code, compressing enterprise software project timelines from months to weeks and delivering 10-100x development speed.

TechnologyC3Claude 3.5 Sonnet
L
Lusha
300%
increase in outbound leads

Lusha is a B2B sales intelligence platform with 1.5 million users and a database of over 200 million business contacts. By deploying Elasticsearch as both a full-text search engine and a vector database for AI-powered lead recommendations, Lusha helps customers generate 300% more leads, achieve conversion rates up to 10x higher, and realize return on investment of up to 1,000%.

TechnologyEElasticsearch
A
Aquant
98%+
retrieval accuracy

Aquant is an agentic AI platform purpose-built for professionals servicing complex industrial and medical equipment at large manufacturing companies. When the company’s homegrown vector search infrastructure—built on PostgreSQL extensions—began to slow under real-time production demands, Aquant migrated to Pinecone as the retrieval backbone for its AI platform. The switch delivered sub-100ms semantic search, pushed retrieval accuracy above 98%, and helped Aquant’s customers cut average service resolution time by 49%.

TechnologyPPinecone