Cómo Canva utiliza W&B Registry para optimizar el despliegue de modelos de ML
Canva, la plataforma de diseño con más de 150 millones de usuarios activos mensuales, construyó un equipo de más de 100 ingenieros de machine learning cuyos flujos de trabajo de despliegue estaban sobrecargados por una gestión ruidosa de artefactos y una lógica de etiquetado compleja. La empresa adoptó Weights & Biases Registry como centro de referencia para separar los modelos experimentales de los que están listos para producción, eliminando la fricción en el despliegue y proporcionando a todo el equipo de ML una única fuente de verdad. El cambio creó un límite claro entre la experimentación y la producción que el equipo afirma que transformó fundamentalmente cómo funciona el despliegue de ML en Canva.
Impacto
100+
Ingenieros de ML en el equipo
150M+
Usuarios activos mensuales en la plataforma Canva
Desafío
Los más de 100 ingenieros de ML de Canva no contaban con una separación clara entre modelos experimentales y de producción, lo que obligaba a usar una lógica de etiquetado compleja para determinar qué artefactos estaban listos para el despliegue, generando ruido y fricción en todo el ciclo de vida del ML.
Solución
Weights & Biases Registry se desplegó como centro de referencia para los modelos listos para producción, utilizando un modelo de promoción limpio y aliases para separar la experimentación del despliegue. El Registry se integra con Anyscale, Nix y Amazon ECS para conformar un flujo de trabajo de ML coherente de extremo a extremo.
Herramientas y tecnologías
Lo que dicen los líderes
“El W&B Registry simplifica nuestras vidas de muchas maneras. Reduce el ruido en la experiencia del usuario, ya que ahora solo vemos los modelos que están listos para producción. Almacena toda la información de nivel de producción que necesitamos.”
“Todos nuestros MLEs y algunos gestores de producto tienen acceso a Weights & Biases. Nos encanta la interfaz de W&B; todo lo que viene de serie es realmente útil con métricas del sistema muy prácticas, y es fácil gestionar el acceso y la seguridad en el lado de administración.”
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.
Historia completa
Canva ha evolucionado de ser una herramienta de diseño para consumidores a convertirse en una de las plataformas creativas más utilizadas del mundo, con más de 150 millones de usuarios activos mensuales y reconocida habitualmente entre las empresas más innovadoras en software empresarial. Detrás del producto, un equipo de más de 100 ingenieros de machine learning trabaja en todo, desde modelos generativos y sistemas de recomendación hasta algoritmos de personalización y mejora de la búsqueda. Gestionar ese volumen de trabajo de ML de forma ordenada —desde el experimento hasta la producción— se convirtió en uno de los principales retos de infraestructura del equipo.
Antes de adoptar W&B Registry, el equipo de ML de Canva no tenía un límite arquitectónico claro entre las ejecuciones de entrenamiento experimentales y los modelos listos para producción. Todo convivía en el mismo espacio de artefactos, y determinar qué modelo debía desplegarse requería interpretar una combinación compleja de etiquetas. Para un equipo de más de 100 ingenieros trabajando con múltiples tipos de modelos, esto generaba ruido constante: era fácil perder de vista qué artefacto estaba listo para producción y cuál seguía en experimentación. Como resultado, el proceso de despliegue era lento y propenso a errores.
El responsable del equipo de plataforma de ML, Thibault Main de Boissiere, y su equipo implementaron Weights & Biases Registry como eje central de un flujo de trabajo reestructurado. El Registry se sitúa en el centro del stack de ML de Canva, actuando como punto de transición entre la experimentación y el despliegue. Las ejecuciones experimentales rastreadas en W&B permanecen en la capa de seguimiento de experimentos; solo los modelos listos para producción se promueven al Registry, donde los alias dejan claro sin ambigüedad qué artefacto está destinado al despliegue o a las pruebas A/B. El stack más amplio conecta el Registry con Anyscale para notebooks bajo demanda y entrenamiento distribuido, Nix para la gestión de dependencias, y Amazon ECS para el despliegue en producción.
El impacto fue una claridad inmediata. Los ingenieros del equipo —incluidos los gestores de producto que también tienen acceso a W&B— ahora solo ven modelos listos para producción en el Registry. La complejidad de etiquetado que anteriormente dictaba las decisiones de despliegue fue sustituida por un modelo de promoción limpio. Como describe Thibault, el Registry “simplifica nuestras vidas de muchas maneras” al eliminar el ruido y almacenar toda la información de nivel de producción en un solo lugar. El equipo también elogió la interfaz de W&B en general, destacando las métricas de sistema útiles y la facilidad de gestión de accesos y seguridad como cualidades que facilitaron la operación de la plataforma a escala de equipo.
El equipo de Canva considera el Registry como algo más que un problema resuelto: es una plataforma que planean ampliar más adelante. Thibault describió la ambición de utilizar el Registry para transformar cómo funciona el despliegue de ML en toda la organización, posicionándolo como una palanca clave para evolucionar desde un proceso de despliegue reactivo hacia un pipeline de producción deliberado y gobernado. Para una empresa que invierte tan fuertemente en IA como Canva, contar con esa base es fundamental a medida que la superficie de modelos sigue expandiéndose.