TecnologíaIngeniería de Software

Cómo Trillion Labs Reduce el Tiempo de Entrenamiento de LLM 7 Veces con NVIDIA NeMo Curator

Trillion Labs, una startup coreana de IA que construye LLMs soberanos para el idioma coreano, desplegó NVIDIA NeMo Curator para acelerar la curación de datos en más de 2 billones de tokens. El procesamiento acelerado por GPU en 8x H100 redujo el tiempo de procesamiento de 24 horas a 3,4 horas — una mejora de 7 veces — y redujo los costes de computación hasta 10 veces en comparación con los pipelines basados en CPU, logrando además una mejora del 5% en precisión para los modelos de lenguaje coreano.

Impacto

7x

Aceleración del procesamiento de datos

up to 10x

Reducción de costes de computación frente a CPU

5%

Mejora de precisión para el coreano

Desafío

El pipeline de curación de datos basado en CPU de Trillion Labs para el entrenamiento de LLMs coreanos tardaba 24 horas por ejecución en conjuntos de datos que superaban los 2 billones de tokens, creando cuellos de botella en la iteración que ralentizaban el desarrollo de modelos y hacían prácticamente imposible la experimentación rápida con datos de alta calidad en coreano.

Solución

Trillion Labs desplegó NVIDIA NeMo Curator en 8x H100 con DASK para el procesamiento paralelo, acelerando por GPU la deduplicación, el filtrado de calidad y la mezcla de datos en 100.000 millones de tokens coreanos curados, reduciendo el tiempo de procesamiento de 24 horas a 3,4 horas y los costes de computación hasta 10 veces.

Herramientas y tecnologías

Lo que dicen los líderes

La deduplicación es uno de los procesos más lentos cuando se manejan conjuntos de datos muy grandes. El tiempo ahorrado gracias a la aceleración GPU de NeMo Curator fue el beneficio más significativo.

Jason Park, Cofundador, Trillion Labs
Entiende todo el contexto.

Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.

Historia completa

Trillion Labs es una startup coreana de IA dedicada a construir grandes modelos de lenguaje soberanos para el idioma coreano. Su misión es cerrar la brecha entre los modelos fundacionales dominantes en inglés y las necesidades de las organizaciones del sector público coreano y las empresas, que requieren LLMs que entiendan los matices lingüísticos coreanos, la terminología gubernamental y el contexto cultural. Construir LLMs de alta calidad para el coreano a gran escala exige pipelines de curación capaces de procesar conjuntos de datos que superan los 2 billones de tokens, volúmenes que exponen cualquier ineficiencia en los flujos de trabajo tradicionales basados en CPU.

El problema central era el rendimiento del pipeline de datos. Las operaciones de deduplicación y mezcla en conjuntos de datos de esta escala tardaban 24 horas por ejecución en infraestructura CPU. Los ciclos de iteración se volvieron prohibitivamente lentos: cada experimento en arquitectura de modelos o composición de datos requería esperar casi un día completo solo para completar el preprocesamiento. Este cuello de botella hacía imposible avanzar rápidamente en el desarrollo de modelos, creando una desventaja acumulativa frente a competidores con más recursos trabajando en modelos de lenguajes con alta disponibilidad de datos.

Trillion Labs desplegó NVIDIA NeMo Curator, una librería de curación de datos acelerada por GPU, ejecutándose en un clúster de 8x H100 con DASK para el procesamiento paralelo y distribuido. La aceleración GPU de NeMo Curator se aplicó a los pasos más intensivos en cómputo — deduplicación exacta y difusa, filtrado de calidad y mezcla de datos — en un conjunto de datos curado de 100.000 millones de tokens coreanos de alta calidad. NVIDIA NeMo proporcionó el marco más amplio para el entrenamiento y evaluación de modelos en la fase posterior.

La aceleración del procesamiento fue inmediata y dramática. Los pipelines de curación que antes tardaban 24 horas se completaron en 3,4 horas en la configuración 8x H100, una mejora de 7 veces en el rendimiento. Los costes de energía y computación se redujeron hasta 10 veces en comparación con los enfoques basados en CPU. El conjunto de datos coreano curado de 100.000 millones de tokens produjo una mejora medible del 5% en las tareas de lenguaje coreano, validando la calidad de la curación acelerada por GPU frente a la alternativa de fuerza bruta en CPU. El cofundador Jason Park resumió el cuello de botella que NeMo Curator eliminó: «La deduplicación es uno de los procesos más lentos cuando se manejan conjuntos de datos muy grandes. El tiempo ahorrado gracias a la aceleración GPU de NeMo Curator fue el beneficio más significativo».

Para Trillion Labs, la ganancia operativa va más allá de la velocidad bruta. Los ciclos de iteración más rápidos significan experimentos más rápidos, lanzamientos de modelos más rápidos y una vía más rápida hacia LLMs coreanos competitivos que las instituciones del sector público coreano puedan adoptar sin enrutar datos sensibles a través de infraestructura extranjera. La empresa sigue escalando su trabajo de IA soberana, con el pipeline GPU de NeMo Curator como base para procesar la próxima generación de conjuntos de datos de entrenamiento en coreano.

Casos similares

A
Allspice
20% → 97%
ingredient matching accuracy

Allspice, a food technology startup building a kitchen operating system for consumers and recipe publishers, deployed Pinecone’s vector database to solve the inherent messiness of ingredient data that traditional text search could not handle. The implementation raised ingredient matching accuracy from roughly 20% to 97%, enabling the launch of recipe importing as a core product feature and expanding into a platform-wide semantic layer for search, recommendations, and conversational AI.

TechnologyTtext-embedding-3-largePPinecone
S
Sommo
500–800
additional leads generated monthly

Sommo built an AI-powered SRS generator in Make in a single day, generating 500–800 additional leads per month and achieving a 5x increase in active website users.

TechnologyMMakeOOpenAI
C
Confluent
15,000+
hours saved monthly

Confluent, a data streaming platform company with 2,000+ employees and 4,000+ customers, deployed Glean to solve the knowledge fragmentation that came with rapid growth from 250 to 2,000+ employees across 20+ systems. Glean indexed the company's full tool stack — Slack, Salesforce, Confluence, and more — enabling instant knowledge retrieval across all teams. The result: 15,000+ hours saved monthly, a 13% increase in support team satisfaction, and over 70% employee adoption.

TechnologyGGlean
H
Headstart
90–97%
code written by claude

Headstart, an AI-native software studio, uses Claude 3.5 Sonnet to write 90-97% of client code, compressing enterprise software project timelines from months to weeks and delivering 10-100x development speed.

TechnologyC3Claude 3.5 Sonnet
M
Motive
2,000+
ai agents deployed

Motive, an AI platform for physical operations serving nearly 100,000 customers, deployed Glean across its workforce to democratize enterprise AI through unified search and agentic workflows. The company has deployed over 2,000 AI agents, cut account planning time by 75%, and reports thousands of hours saved per week across teams.

TechnologyGGleanGAGlean Agent Builder
N
Nextdoor
2–3x
engineering productivity improvement

Nextdoor, the neighborhood social network, deployed Glean as a unified Work AI layer embedded directly into the tools employees already use. Rather than mandating adoption, the team built a self-reinforcing learning loop of Slack channels, live office hours, and quick-win storytelling that turned early experimentation into company-wide AI habits — with engineering productivity gains of 2–3x and RevOps workflows shrinking from hours to minutes.

TechnologyGGlean
A
ASAPP
91%
first-call resolution rate

ASAPP is an AI-native customer service platform that orchestrates large language models to automate contact center interactions for enterprise clients. By deploying Anthropic’s Claude through Amazon Bedrock, ASAPP eliminated its homegrown PII redaction layer and reduced call escalations by up to 40%, while helping clients achieve a 91% first-call resolution rate. The platform now automates more than 90% of contact center interactions, with human agents freed to handle three times the volume of complex cases.

TechnologyABAmazon BedrockCClaude
D
Draftwise
30%
improvement in search result quality

Draftwise, an AI-powered contract drafting and negotiation platform, built its Smart Draft product on Cohere’s Command, Embed, and Rerank models to enable semantic search and AI-generated contract language grounded in clients’ own document libraries. The system delivered a 30% improvement in search result quality and tripled API usage within a single quarter.

TechnologyCCCohere CommandCRCohere Rerank