¿Qué herramientas de IA usó Trillion Labs?

Trillion Labs utilizó NVIDIA NeMo, NVIDIA NeMo Curator en esta implementación.

¿Qué función de negocio aborda este caso de uso?

Este caso se enfoca en Ingeniería de Software.

TecnologíaIngeniería de Software

Cómo Trillion Labs Reduce el Tiempo de Entrenamiento de LLM 7 Veces con NVIDIA NeMo Curator

Trillion Labs, una startup coreana de IA que construye LLMs soberanos para el idioma coreano, desplegó NVIDIA NeMo Curator para acelerar la curación de datos en más de 2 billones de tokens. El procesamiento acelerado por GPU en 8x H100 redujo el tiempo de procesamiento de 24 horas a 3,4 horas — una mejora de 7 veces — y redujo los costes de computación hasta 10 veces en comparación con los pipelines basados en CPU, logrando además una mejora del 5% en precisión para los modelos de lenguaje coreano.

Resultados

7xAceleración del procesamiento de datos

up to 10xReducción de costes de computación frente a CPU

5%Mejora de precisión para el coreano

Herramientas y tecnologías

NVIDIA NeMo

Open-source framework for training, fine-tuning, and deploying large language models at scale.

NVIDIA NeMo Curator

GPU-accelerated data curation library for deduplication, filtering, and preprocessing LLM training datasets.

Categorías de IA

ML Platform

Desafío

El pipeline de curación de datos basado en CPU de Trillion Labs para el entrenamiento de LLMs coreanos tardaba 24 horas por ejecución en conjuntos de datos que superaban los 2 billones de tokens, creando cuellos de botella en la iteración que ralentizaban el desarrollo de modelos y hacían prácticamente imposible la experimentación rápida con datos de alta calidad en coreano.

Solución

Trillion Labs desplegó NVIDIA NeMo Curator en 8x H100 con DASK para el procesamiento paralelo, acelerando por GPU la deduplicación, el filtrado de calidad y la mezcla de datos en 100.000 millones de tokens coreanos curados, reduciendo el tiempo de procesamiento de 24 horas a 3,4 horas y los costes de computación hasta 10 veces.

Historia completa

Trillion Labs es una startup coreana de IA dedicada a construir grandes modelos de lenguaje soberanos para el idioma coreano. Su misión es cerrar la brecha entre los modelos fundacionales dominantes en inglés y las necesidades de las organizaciones del sector público coreano y las empresas, que requieren LLMs que entiendan los matices lingüísticos coreanos, la terminología gubernamental y el contexto cultural. Construir LLMs de alta calidad para el coreano a gran escala exige pipelines de curación capaces de procesar conjuntos de datos que superan los 2 billones de tokens, volúmenes que exponen cualquier ineficiencia en los flujos de trabajo tradicionales basados en CPU.

Accede a 451+ casos de uso de IA, 425+ herramientas y rankings de señales de adopción.

Fuente

NVIDIA

mayo de 2026

Caso de estudio original ↗

Casos similares

How AirOps 5x’d Revenue and Doubled Internal Productivity with Claude

AirOps

Revenue growth (past year)

5xRevenue growth (past year)

How Attentive Uses Writer to Get Content to Market Faster

Attentive

1 week vs. months

Time to produce comparable content

1 week vs. monthsTime to produce comparable content

How Headstart Uses Claude to Write 90-97% of Enterprise Client Code

Headstart

90–97%

Code written by Claude

90–97%Code written by Claude

How Rakuten Uses Claude Managed Agents to Cut Release Cycles from Quarterly to Biweekly

Rakuten

From quarterly to every 2 weeks

Release frequency improvement

From quarterly to every 2 weeksRelease frequency improvement

How Bolt Generates On-Brand Prototypes in 5 Minutes with Claude Agent SDK

StackBlitz

~53 minutes

Design system generation time (one-time autonomous run)

~53 minutesDesign system generation time (one-time autonomous run)

How ADT Uses UiPath to Cut Technician Confirmation Calls from 15 Minutes to Under 2

ADT

<2 minutes

Technician confirmation call time

<2 minutesTechnician confirmation call time

How Slack Uses Claude to Save Users 97 Minutes Per Week

Slack

97 minutes

Time saved per user per week via summarization and recap features

97 minutesTime saved per user per week via summarization and recap features

How HP Built a GenAI Data Chatbot in 3 Weeks Using Databricks Mosaic AI to Recover 20-30% of Data Team Time

20-30%

Cost savings vs AWS Redshift

20-30%Cost savings vs AWS Redshift

Ver todos los casos →