Término

Evals (evaluación de agentes)

Tests automatizados que miden la calidad del agente en producción.

Conjunto de casos de prueba con inputs y outputs esperados que se corren cada vez que cambia el prompt, el modelo o el grafo. Miden métricas como precisión, cobertura, coste, latencia y toxicidad. Los evals son a los agentes lo que los tests unitarios a una API: sin ellos, cualquier cambio es una apuesta.

Relacionados

Observabilidad de agentes

Capacidad de ver qué hizo el agente, cuándo y por qué.

Regresión

Degradación silenciosa del agente tras un cambio.