Coste real de un agente de IA en producción

Coste real de un agente en producción: prompt, modelo, infra y supervisión

'Son centavos por consulta' solo es cierto en la demo. En producción, la ecuación completa incluye cosas que nadie estima al inicio.

Tema

Economía de agentes

Lectura

6 min

Resumen

El coste por token es solo una parte. Un cálculo realista incluye infraestructura, observabilidad, supervisión humana y evolución. Desglosamos la ecuación completa.

El primer presupuesto de un proyecto con agentes suele armarse sobre el coste por token del modelo elegido. Es una base razonable para estimar el gasto en inferencia, pero ignora el 60% de lo que realmente cuesta operar el agente.

Los cinco componentes del TCO

1. Inferencia del modelo. Input tokens, output tokens, eventuales llamadas en paralelo. Se mide en dólares por 1.000 llamadas. Fácil de estimar.

2. Infraestructura de soporte. Base vectorial (si hay RAG), base de datos de estado para LangGraph, cola de mensajería, storage de trazas. Suele sumar un 20-40% adicional sobre el coste puro de inferencia.

3. Observabilidad y evals. Tracking por decisión (Langfuse, LangSmith), dashboards, alertas, ejecución periódica de evals. Un ítem pequeño en absoluto, pero crítico para que el resto tenga sentido.

4. Supervisión humana. Si el agente tiene gates HITL, cada aprobación consume tiempo humano. Si procesa 1.000 tareas al día y el 10% requiere gate, son 100 aprobaciones diarias con tiempo humano asociado. Este es el bloque más subestimado.

5. Evolución del agente. Revisar prompts, ajustar el grafo, actualizar fuentes, regenerar embeddings cuando cambia la base documental. No es un paso una-vez; es mantenimiento continuo.

Cómo estimar realista desde el día cero

Una regla práctica: para estimar el coste mensual total, calculá el coste puro de inferencia y multiplicá por tres. Así cubrís con margen la infra, la observabilidad y la supervisión en régimen estable.

Esto no incluye evolución, que suele tarificarse aparte como servicio. Para evolución, dejar una bolsa equivalente al 10-15% del coste del proyecto original por año.

Qué no aparece en el coste pero sí en el retorno

Contra ese TCO, el retorno típico de un agente bien implementado suele superar el 3× en el primer año. No por el ahorro directo de tokens, sino por:

Horas humanas liberadas (medido sobre salario cargado, no salario nominal).
Reducción de errores costosos (retrabajo, penalizaciones, litigios).
Velocidad operativa que abre nuevos ingresos (más cotizaciones enviadas, más SLA cumplidos).

El error común es comparar el coste del agente con el coste del modelo. La comparación correcta es con el coste total del proceso que reemplaza, incluyendo tiempo humano, retrabajo y oportunidad perdida.