Razonamiento de varios pasos para responder preguntas incorporadas mediante el aumento de herramientas

Resumen:Embodied Question Answering (EQA) requiere que los agentes exploren entornos 3D para obtener observaciones y responder preguntas relacionadas con la escena. Los métodos existentes aprovechan los VLM para explorar directamente el entorno y responder preguntas sin pensamiento o planificación explícitos, lo que limita su capacidad de razonamiento y da como resultado una exploración excesiva o ineficiente, así como respuestas ineficaces. En este artículo, presentamos ToolEQA, un agente que integra herramientas externas con razonamiento de múltiples pasos, donde las herramientas externas pueden proporcionar información más útil para completar la tarea, ayudando al modelo a derivar mejores direcciones de exploración en el siguiente paso del razonamiento y así obtener información efectiva adicional. Esto permite a ToolEQA generar respuestas más precisas con una distancia de exploración más corta. Para mejorar la capacidad del modelo para el uso de herramientas y el razonamiento de varios pasos, diseñamos además un novedoso canal de generación de datos EQA que construye automáticamente tareas EQA a gran escala con trayectorias de razonamiento y respuestas correspondientes. Según la canalización, recopilamos el conjunto de datos EQA-RT que contiene aproximadamente 18 000 tareas, divididas en un conjunto de entrenamiento EQA-RT-Train y dos conjuntos de prueba EQA-RT-Seen (escenas que se superponen con el conjunto de entrenamiento) y EQA-RT-Unseen (escenas novedosas). Los experimentos con EQA-RT-Seen y EQA-RT-Unseen muestran que ToolEQA mejora la tasa de éxito entre un 9,2% y un 20,2% con respecto a las líneas de base más modernas, mientras que supera al ToolEQA de disparo cero en un 10% en tasa de éxito. Además, ToolEQA también logra un rendimiento de última generación en los conjuntos de datos HM-EQA, OpenEQA y EXPRESS-Bench, lo que demuestra su generalidad. Nuestra página de inicio ver esta URL https.

Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ThinkPilot: dirección de modelos de razonamiento mediante optimización automatizada de prefijos de pensamiento

Uso de refuerzo Aprender a capacitar a grandes modelos de idiomas para explicar las decisiones humanas

Producción de información controlable

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido