Inteligencia implícita: evaluación de agentes sobre lo que los usuarios no dicen

Resumen: Las solicitudes del mundo real a agentes de IA están fundamentalmente poco especificadas. La comunicación humana natural se basa en un contexto compartido y en limitaciones no declaradas que los hablantes esperan que los oyentes infieran. Los puntos de referencia agentes actuales prueban el seguimiento de instrucciones explícitas, pero no evalúan si los agentes pueden razonar sobre requisitos implícitos que abarcan necesidades de accesibilidad, límites de privacidad, riesgos catastróficos y limitaciones contextuales. Presentamos Inteligencia implícita, un marco de evaluación que prueba si los agentes de IA pueden ir más allá del seguimiento de indicaciones para convertirse en verdaderos cumplidores de objetivos, junto con Agent-as-a-World (AaW), un arnés donde los mundos interactivos se definen en archivos YAML legibles por humanos y se simulan mediante modelos de lenguaje. Nuestros escenarios presentan una aparente simplicidad en las solicitudes de los usuarios, una complejidad oculta en las soluciones correctas y la posibilidad de descubrir restricciones a través de la exploración ambiental. Al evaluar 16 modelos de frontera y de peso abierto en 205 escenarios, encontramos que incluso el modelo de mejor rendimiento logra solo una tasa de aprobación de escenarios del 48,3%, lo que revela un margen sustancial de mejora para cerrar la brecha entre el seguimiento literal de instrucciones y el razonamiento contextual similar al humano.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DISMINUCIÓN: Al reducir el tamaño de los programas ASP de conexión a tierra

La descarga: ética embrionaria y reducción de los riesgos de los chatbots

Comprensión de los patrones de evaluación de la IA: cómo los diferentes modelos GPT evalúan las descripciones en el idioma de la visión

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido