Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes mejorados con herramientas capaces de ejecutar operaciones a nivel de sistema. Si bien los puntos de referencia existentes evalúan principalmente la alineación textual o el éxito de la tarea, se ha prestado menos atención a la relación estructural entre la señalización lingüística y el comportamiento ejecutable bajo distintos andamios de autonomía. Este estudio presenta un enfoque de medición del comportamiento de la capa de ejecución basado en un espacio A-R bidimensional definido por la Tasa de acción (A) y la Señal de rechazo (R), con la Divergencia (D) capturando la coordinación entre los dos. Los modelos se evalúan a través de cuatro regímenes normativos (Control, Gris, Dilema y Malicioso) y tres configuraciones de autonomía (ejecución directa, planificación y reflexión). En lugar de asignar puntuaciones de seguridad agregadas, el método caracteriza cómo la ejecución y el rechazo se redistribuyen a través del marco contextual y la profundidad del andamio. Los resultados empíricos muestran que la ejecución y el rechazo constituyen dimensiones conductuales separables cuya distribución conjunta varía sistemáticamente entre regímenes y niveles de autonomía. El andamiaje basado en la reflexión a menudo cambia las configuraciones hacia un mayor rechazo en contextos cargados de riesgo, pero los patrones de redistribución difieren estructuralmente entre los modelos. La representación AR hace que los perfiles de comportamiento transversales, las transiciones inducidas por el andamio y la variabilidad de la coordinación sean directamente observables. Al poner en primer plano la caracterización de la capa de ejecución sobre la clasificación escalar, este trabajo proporciona una lente orientada a la implementación para analizar y seleccionar agentes LLM habilitados para herramientas en entornos organizacionales donde los privilegios de ejecución y la tolerancia al riesgo varían.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
