ACEM systems

Término

Evals (evaluación de agentes)

Tests automatizados que miden la calidad del agente en producción.

Conjunto de casos de prueba con inputs y outputs esperados que se corren cada vez que cambia el prompt, el modelo o el grafo. Miden métricas como precisión, cobertura, coste, latencia y toxicidad. Los evals son a los agentes lo que los tests unitarios a una API: sin ellos, cualquier cambio es una apuesta.

Relacionados