Cómo monday Service Usa LangSmith y LangGraph para Construir Agentes de Servicio de IA Fiables
monday Service implementó un framework de desarrollo basado en evaluaciones con LangSmith y LangGraph para construir y monitorizar agentes de servicio de IA orientados al cliente, logrando ciclos de evaluación 8,7 veces más rápidos para flujos de trabajo de soporte de TI, RRHH y Legal.
Impacto
8.7x faster
Mejora en la velocidad de evaluación
4.1x faster
Beneficio de la paralelización
Desafío
Construir agentes de IA fiables orientados al cliente donde pequeñas desviaciones en los prompts generan resultados incorrectos en cascada, sin una forma eficiente de probar y validar el comportamiento del agente antes de la producción.
Solución
monday Service implementó un framework de desarrollo basado en evaluaciones usando LangSmith para la evaluación y el trazado, y LangGraph para la orquestación de agentes, con pruebas de regresión offline y monitorización de trayectorias online.
Herramientas y tecnologías
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.
Historia completa
monday Service, la división de gestión de servicios empresariales de monday.com, se propuso construir agentes de IA de nivel productivo capaces de gestionar conversaciones complejas y de múltiples turnos con clientes de los departamentos de TI, RRHH y Legal. El reto fundamental: en los sistemas agénticos, incluso pequeñas desviaciones en los prompts o en las llamadas a herramientas pueden desencadenar resultados significativamente incorrectos en cascada, lo que hace que los enfoques de desarrollo tradicionales sean insuficientes.
El equipo construyó un framework de desarrollo basado en evaluaciones (EDD) sustentado en dos pilares. Las evaluaciones offline actúan como red de seguridad, ejecutando cientos de escenarios de prueba sobre tickets de TI anonimizados antes de que cualquier código llegue a producción. Las evaluaciones online actúan como monitor en tiempo real, puntuando trayectorias completas de conversaciones de múltiples turnos mediante métricas de LLM-as-judge y haciendo seguimiento de señales de negocio como las tasas de resolución automatizada y de contención. LangSmith proporcionó la plataforma de evaluación y la infraestructura de trazado, mientras que LangGraph impulsó la arquitectura de agentes basada en ReAct.
Los resultados demostraron la potencia del enfoque: la velocidad de evaluación mejoró 8,7 veces, pasando de 162 segundos a tan solo 18 segundos por ciclo de evaluación, gracias a la paralelización y la puntuación concurrente de LLMs. El equipo puede ahora evaluar cientos de ejemplos en minutos en lugar de horas, lo que permite iterar rápidamente sobre el comportamiento de los agentes. El patrón de Evaluaciones como Código (EaC) que desarrollaron trata a los jueces de IA como objetos TypeScript versionados en el control de código fuente, integrados directamente en los pipelines de CI/CD para una garantía de calidad continua.