Resumen: Operativizamos los 2 requisitos como determinismo de ejecución (ED) y flexibilidad conversacional (CF), y utilizamos estos ejes para revisar 20 sistemas que abarcan 5 grupos arquitectónicos a lo largo de un espectro de alcance de validación. Las puntuaciones se asignan mediante un protocolo multimodelo (15 sesiones independientes en 3 familias de LLM), lo que produce un acuerdo entre modelos sustancial o casi perfecto (Krippendorff a=0,80 para ED y a=0,98 para CF), lo que demuestra que la puntuación de LLM multimodelo puede servir como una alternativa reutilizable a los paneles de expertos humanos para la evaluación arquitectónica.
El panorama resultante revela un frente empírico de Pareto (ningún sistema revisado logra al mismo tiempo una alta flexibilidad y un alto determinismo), pero emerge una zona de convergencia entre los extremos generativo y centrado en el flujo de trabajo. Argumentamos que una arquitectura controlada por esquemas, que separa la autoridad conversacional de la de ejecución, está posicionada para desacoplar esta compensación y destilar tres principios operativos (aclaración antes de la ejecución, orquestación restringida de plan-acto y conexión de herramienta a nivel de flujo de trabajo) para guiar la adopción.
Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original
