TecnologíaAtención al Cliente

Cómo monday Service Usa LangSmith y LangGraph para Construir Agentes de Servicio de IA Fiables

monday Service implementó un framework de desarrollo basado en evaluaciones con LangSmith y LangGraph para construir y monitorizar agentes de servicio de IA orientados al cliente, logrando ciclos de evaluación 8,7 veces más rápidos para flujos de trabajo de soporte de TI, RRHH y Legal.

Impacto

8.7x faster

Mejora en la velocidad de evaluación

4.1x faster

Beneficio de la paralelización

Desafío

Construir agentes de IA fiables orientados al cliente donde pequeñas desviaciones en los prompts generan resultados incorrectos en cascada, sin una forma eficiente de probar y validar el comportamiento del agente antes de la producción.

Solución

monday Service implementó un framework de desarrollo basado en evaluaciones usando LangSmith para la evaluación y el trazado, y LangGraph para la orquestación de agentes, con pruebas de regresión offline y monitorización de trayectorias online.

Herramientas y tecnologías

Entiende todo el contexto.

Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.

Historia completa

monday Service, la división de gestión de servicios empresariales de monday.com, se propuso construir agentes de IA de nivel productivo capaces de gestionar conversaciones complejas y de múltiples turnos con clientes de los departamentos de TI, RRHH y Legal. El reto fundamental: en los sistemas agénticos, incluso pequeñas desviaciones en los prompts o en las llamadas a herramientas pueden desencadenar resultados significativamente incorrectos en cascada, lo que hace que los enfoques de desarrollo tradicionales sean insuficientes.

El equipo construyó un framework de desarrollo basado en evaluaciones (EDD) sustentado en dos pilares. Las evaluaciones offline actúan como red de seguridad, ejecutando cientos de escenarios de prueba sobre tickets de TI anonimizados antes de que cualquier código llegue a producción. Las evaluaciones online actúan como monitor en tiempo real, puntuando trayectorias completas de conversaciones de múltiples turnos mediante métricas de LLM-as-judge y haciendo seguimiento de señales de negocio como las tasas de resolución automatizada y de contención. LangSmith proporcionó la plataforma de evaluación y la infraestructura de trazado, mientras que LangGraph impulsó la arquitectura de agentes basada en ReAct.

Los resultados demostraron la potencia del enfoque: la velocidad de evaluación mejoró 8,7 veces, pasando de 162 segundos a tan solo 18 segundos por ciclo de evaluación, gracias a la paralelización y la puntuación concurrente de LLMs. El equipo puede ahora evaluar cientos de ejemplos en minutos en lugar de horas, lo que permite iterar rápidamente sobre el comportamiento de los agentes. El patrón de Evaluaciones como Código (EaC) que desarrollaron trata a los jueces de IA como objetos TypeScript versionados en el control de código fuente, integrados directamente en los pipelines de CI/CD para una garantía de calidad continua.

Casos similares

J
Jamf
Under 45 minutes
performance review skill build time

Jamf deployed Claude Enterprise across 16 departments, then built interactive workflow skills using Claude Cowork that transformed manual spreadsheet-based processes into guided, conversational experiences. Performance reviews that previously required months of effort are now built in under 45 minutes, and non-engineering teams independently create custom data dashboards.

TechnologyCEClaude EnterpriseCCClaude Cowork
P
Pfizer
93%
database reduction

Pfizer achieved a 93% database reduction and 20% cost avoidance by migrating their global SAP environment to S/4HANA on IBM Power10 infrastructure.

PharmaceuticalsTechnologyICIBM ConsultingIPIBM Power Virtual Server
C
Confluent
15,000+
hours saved monthly

Confluent, a data streaming platform company with 2,000+ employees and 4,000+ customers, deployed Glean to solve the knowledge fragmentation that came with rapid growth from 250 to 2,000+ employees across 20+ systems. Glean indexed the company's full tool stack — Slack, Salesforce, Confluence, and more — enabling instant knowledge retrieval across all teams. The result: 15,000+ hours saved monthly, a 13% increase in support team satisfaction, and over 70% employee adoption.

TechnologyGGlean
H
Headstart
90–97%
code written by claude

Headstart, an AI-native software studio, uses Claude 3.5 Sonnet to write 90-97% of client code, compressing enterprise software project timelines from months to weeks and delivering 10-100x development speed.

TechnologyC3Claude 3.5 Sonnet
L
Lusha
300%
increase in outbound leads

Lusha is a B2B sales intelligence platform with 1.5 million users and a database of over 200 million business contacts. By deploying Elasticsearch as both a full-text search engine and a vector database for AI-powered lead recommendations, Lusha helps customers generate 300% more leads, achieve conversion rates up to 10x higher, and realize return on investment of up to 1,000%.

TechnologyEElasticsearch
A
Aquant
98%+
retrieval accuracy

Aquant is an agentic AI platform purpose-built for professionals servicing complex industrial and medical equipment at large manufacturing companies. When the company’s homegrown vector search infrastructure—built on PostgreSQL extensions—began to slow under real-time production demands, Aquant migrated to Pinecone as the retrieval backbone for its AI platform. The switch delivered sub-100ms semantic search, pushed retrieval accuracy above 98%, and helped Aquant’s customers cut average service resolution time by 49%.

TechnologyPPinecone
N
Nextdoor
2–3x
engineering productivity improvement

Nextdoor, the neighborhood social network, deployed Glean as a unified Work AI layer embedded directly into the tools employees already use. Rather than mandating adoption, the team built a self-reinforcing learning loop of Slack channels, live office hours, and quick-win storytelling that turned early experimentation into company-wide AI habits — with engineering productivity gains of 2–3x and RevOps workflows shrinking from hours to minutes.

TechnologyGGlean
H
Hostinger
Minutes vs. days
website creation time

Hostinger partnered with Anthropic to build Hostinger Horizons, an AI-powered platform that converts natural language prompts into complete, functional websites and applications. The solution eliminates the steep learning curve of traditional web builders, enabling non-technical users to create professional online presences in minutes instead of days.

TechnologyCClaude