Descomposición de la incertidumbre para la búsqueda de aclaraciones en agentes de LLM

Resumen: Documentos de posición recientes sostienen que el marco de incertidumbre aleatorio/epistémico clásico es insuficiente para los agentes interactivos de modelos de lenguaje grande (LLM) y exigen representaciones de incertidumbre comunicables, descompuestas y conscientes de la subespecificación que puedan desbloquear nuevas capacidades de los agentes, como la búsqueda proactiva de aclaraciones y la construcción de modelos mentales compartidos. Las restricciones prácticas de implementación (API de caja negra, presupuestos de latencia interactiva y ausencia de trayectorias etiquetadas) descartan los métodos basados en logprob, muestreo múltiple y entrenamiento, dejando la estimación basada en avisos como la familia más viable para mostrar tales señales en el momento de la implementación. Respondemos a esta llamada con una descomposición simple basada en indicaciones que separa la confianza de la acción de la incertidumbre de la solicitud (u), lo que permite al agente solicitar una aclaración cuando la especificación de la tarea es ambigua. Para evaluarlo, presentamos dos puntos de referencia con clarificación aumentada (WebShop-Clarification y ALFWorld-Clarification) en los que el 50% de las tareas están deliberadamente subespecificadas, y comparamos sistemáticamente la descomposición propuesta con ReAct+UE y Uncertainty-Aware Memory (UAM) en cinco pilares de LLM (GPT-5.1, DeepSeek-v3.2-exp, GLM-4.7, Qwen3.5-35B, GPT-OSS-120B) en estas variantes junto con los puntos de referencia estándar WebShop, ALFWorld y REAL para la detección de fallas. Promediando las cinco redes troncales, la descomposición propuesta mejora la aclaración F1 en ALFWorld-Clarification en un 73 % con respecto a ReAct+UE y en un 36 % con respecto a UAM, y lidera la aclaración F1 en cada columna vertebral de WebShop-Clarification y en cuatro de las cinco troncales de ALFWorld-Clarification, lo que indica que las ganancias se generalizan más allá de un solo LLM.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Múltiples sistemas de memoria para mejorar la memoria a largo plazo del agente

Síntesis heurística impulsada por LLM para el control de procesos industriales: lecciones del laminado de acero en caliente

Modelo de fusión para la edición de conocimiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido