Cuando un equipo deploya un cambio en un agente — nueva versión de modelo, prompt ajustado, herramienta añadida — hay dos caminos. Camino A: probarlo manualmente, lanzar a producción, esperar que los clientes no reporten nada raro. Camino B: ejecutar un set de evals automatizados, comparar métricas con el baseline, decidir con datos. El camino A es el estándar en la industria hoy. No debería serlo.
Los tipos de evals que importan
1. Evals de regresión. Un conjunto de casos históricos con inputs y outputs esperados. Cada cambio los ejecuta y compara. Si baja la precisión en más de un umbral, se bloquea el deploy.
2. Evals de calidad subjetiva. Casos donde la calidad la juzga otro modelo (LLM-as-judge) o un humano. Útil para evaluar tono, coherencia o utilidad, que no tienen respuesta única correcta.
3. Evals de seguridad. Casos adversariales: prompts con injection, inputs fuera de scope, intentos de extracción de datos. Verifican que el agente respete límites y no se deje manipular.
4. Evals de coste y latencia. Verifican que el cambio no dispare el coste por llamada ni la latencia end-to-end más allá de un umbral operativo.
Cómo integrarlos a CI
- Cada PR que toca prompt, grafo o modelo dispara el suite de evals automáticamente.
- El resultado queda comentado en el PR con diff contra el baseline.
- Fallos en evals críticas bloquean el merge.
- Los evals corren también en un cron diario sobre muestras recientes de producción, detectando drift.
Este ciclo es caro los primeros meses (construir el corpus, definir umbrales, calibrar) pero elimina el mayor factor de ansiedad al operar agentes: el miedo a que "algo cambió".
El corpus mínimo viable
Un set de 50 casos bien elegidos vale más que 500 generados al voleo. Criterios para seleccionar:
- cubrir las cinco o seis rutas principales del grafo,
- incluir al menos 10 casos adversariales,
- incluir casos que fallaron en producción (aprendizaje histórico),
- incluir casos de borde donde la política del cliente no es obvia.
Cada vez que el agente falla en producción, ese caso se agrega al corpus. Así los evals crecen con la madurez del sistema.
Un agente sin evals en producción no es un agente profesional: es un experimento que funcionó una vez y se dejó vivo.
