Agentes de razonamiento en tiempo real en entornos en evolución

Resumen: Los agentes en el mundo real deben emitir juicios no sólo lógicos sino también oportunos. Esto requiere una conciencia continua del entorno dinámico: surgen peligros, surgen oportunidades y otros agentes actúan, mientras el razonamiento del agente aún se está desarrollando. A pesar de los avances en el razonamiento de los modelos lingüísticos, los enfoques existentes no tienen en cuenta esta naturaleza dinámica. Introducimos el razonamiento en tiempo real como una nueva formulación de problemas para agentes en entornos en evolución y construimos Real-Time Reasoning Gym para demostrarlo. Estudiamos dos paradigmas para implementar modelos de lenguaje en agentes: (1) agentes reactivos, que emplean modelos de lenguaje con cálculo de razonamiento acotado para respuestas rápidas, y (2) agentes de planificación, que permiten cálculo de razonamiento extendido para problemas complejos. Nuestros experimentos muestran que incluso los modelos más modernos tienen dificultades para emitir juicios lógicos y oportunos en cualquiera de los dos paradigmas. Para abordar esta limitación, proponemos AgileThinker, que involucra simultáneamente ambos paradigmas de razonamiento. AgileThinker supera consistentemente a los agentes que utilizan un solo paradigma de razonamiento a medida que aumentan la dificultad de la tarea y la presión del tiempo, equilibrando efectivamente la profundidad del razonamiento y la latencia de la respuesta. Nuestro trabajo establece el razonamiento en tiempo real como un banco de pruebas crítico para el desarrollo de agentes prácticos y proporciona una base para la investigación en sistemas de IA temporalmente limitados, destacando un camino hacia agentes con capacidad en tiempo real.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia un marco LLM en cascada para la toma de decisiones rentables de Human-AI

CQE bajo dependencias epistémicas: algoritmos y experimentos (versión extendida)

Escudo: solucionador de enrutamiento de vehículos multi-distribución de varias tareas con escasez y jerarquía

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido