Término
Evals (evaluación de agentes)
Tests automatizados que miden la calidad del agente en producción.
Conjunto de casos de prueba con inputs y outputs esperados que se corren cada vez que cambia el prompt, el modelo o el grafo. Miden métricas como precisión, cobertura, coste, latencia y toxicidad. Los evals son a los agentes lo que los tests unitarios a una API: sin ellos, cualquier cambio es una apuesta.
Relacionados
