Cómo Trillion Labs Reduce el Tiempo de Entrenamiento de LLM 7 Veces con NVIDIA NeMo Curator
Trillion Labs, una startup coreana de IA que construye LLMs soberanos para el idioma coreano, desplegó NVIDIA NeMo Curator para acelerar la curación de datos en más de 2 billones de tokens. El procesamiento acelerado por GPU en 8x H100 redujo el tiempo de procesamiento de 24 horas a 3,4 horas — una mejora de 7 veces — y redujo los costes de computación hasta 10 veces en comparación con los pipelines basados en CPU, logrando además una mejora del 5% en precisión para los modelos de lenguaje coreano.
Impacto
7x
Aceleración del procesamiento de datos
up to 10x
Reducción de costes de computación frente a CPU
5%
Mejora de precisión para el coreano
Desafío
El pipeline de curación de datos basado en CPU de Trillion Labs para el entrenamiento de LLMs coreanos tardaba 24 horas por ejecución en conjuntos de datos que superaban los 2 billones de tokens, creando cuellos de botella en la iteración que ralentizaban el desarrollo de modelos y hacían prácticamente imposible la experimentación rápida con datos de alta calidad en coreano.
Solución
Trillion Labs desplegó NVIDIA NeMo Curator en 8x H100 con DASK para el procesamiento paralelo, acelerando por GPU la deduplicación, el filtrado de calidad y la mezcla de datos en 100.000 millones de tokens coreanos curados, reduciendo el tiempo de procesamiento de 24 horas a 3,4 horas y los costes de computación hasta 10 veces.
Herramientas y tecnologías
Lo que dicen los líderes
“La deduplicación es uno de los procesos más lentos cuando se manejan conjuntos de datos muy grandes. El tiempo ahorrado gracias a la aceleración GPU de NeMo Curator fue el beneficio más significativo.”
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.
Historia completa
Trillion Labs es una startup coreana de IA dedicada a construir grandes modelos de lenguaje soberanos para el idioma coreano. Su misión es cerrar la brecha entre los modelos fundacionales dominantes en inglés y las necesidades de las organizaciones del sector público coreano y las empresas, que requieren LLMs que entiendan los matices lingüísticos coreanos, la terminología gubernamental y el contexto cultural. Construir LLMs de alta calidad para el coreano a gran escala exige pipelines de curación capaces de procesar conjuntos de datos que superan los 2 billones de tokens, volúmenes que exponen cualquier ineficiencia en los flujos de trabajo tradicionales basados en CPU.
El problema central era el rendimiento del pipeline de datos. Las operaciones de deduplicación y mezcla en conjuntos de datos de esta escala tardaban 24 horas por ejecución en infraestructura CPU. Los ciclos de iteración se volvieron prohibitivamente lentos: cada experimento en arquitectura de modelos o composición de datos requería esperar casi un día completo solo para completar el preprocesamiento. Este cuello de botella hacía imposible avanzar rápidamente en el desarrollo de modelos, creando una desventaja acumulativa frente a competidores con más recursos trabajando en modelos de lenguajes con alta disponibilidad de datos.
Trillion Labs desplegó NVIDIA NeMo Curator, una librería de curación de datos acelerada por GPU, ejecutándose en un clúster de 8x H100 con DASK para el procesamiento paralelo y distribuido. La aceleración GPU de NeMo Curator se aplicó a los pasos más intensivos en cómputo — deduplicación exacta y difusa, filtrado de calidad y mezcla de datos — en un conjunto de datos curado de 100.000 millones de tokens coreanos de alta calidad. NVIDIA NeMo proporcionó el marco más amplio para el entrenamiento y evaluación de modelos en la fase posterior.
La aceleración del procesamiento fue inmediata y dramática. Los pipelines de curación que antes tardaban 24 horas se completaron en 3,4 horas en la configuración 8x H100, una mejora de 7 veces en el rendimiento. Los costes de energía y computación se redujeron hasta 10 veces en comparación con los enfoques basados en CPU. El conjunto de datos coreano curado de 100.000 millones de tokens produjo una mejora medible del 5% en las tareas de lenguaje coreano, validando la calidad de la curación acelerada por GPU frente a la alternativa de fuerza bruta en CPU. El cofundador Jason Park resumió el cuello de botella que NeMo Curator eliminó: «La deduplicación es uno de los procesos más lentos cuando se manejan conjuntos de datos muy grandes. El tiempo ahorrado gracias a la aceleración GPU de NeMo Curator fue el beneficio más significativo».
Para Trillion Labs, la ganancia operativa va más allá de la velocidad bruta. Los ciclos de iteración más rápidos significan experimentos más rápidos, lanzamientos de modelos más rápidos y una vía más rápida hacia LLMs coreanos competitivos que las instituciones del sector público coreano puedan adoptar sin enrutar datos sensibles a través de infraestructura extranjera. La empresa sigue escalando su trabajo de IA soberana, con el pipeline GPU de NeMo Curator como base para procesar la próxima generación de conjuntos de datos de entrenamiento en coreano.