La introspección del pensamiento ayuda a los agentes de IA

Resumen: Los agentes de IA confían en modelos de lenguaje grande (LLM) y multimodal-LLM (MLLMS) para realizar interpretación e inferencia en las tareas de texto e imágenes sin post-entrenamiento, donde las LLM y los MLLM juegan el papel más crítico y determinan la capacidad inicial y las limitaciones de los agentes de IA. Por lo general, los agentes de IA utilizan un marco sofisticado de ingeniería y razonamiento externo para obtener una interacción prometedora con LLM, por ejemplo, cadena de pensamiento, iteración del pensamiento y la imagen de pensamiento. Sin embargo, todavía están limitados por las limitaciones inherentes de LLM para comprender el lenguaje natural, y el proceso de razonamiento iterativo generará una gran cantidad de costo de inferencia. Con este fin, proponemos un nuevo marco de razonamiento de agente de IA con introspección del pensamiento (INOT) diseñando un nuevo código de lectura LLM en el aviso. Permite a LLM ejecutar procesos de razonamiento de diálogo programático que siguen el código en el aviso. Por lo tanto, la autodenial y la reflexión ocurren dentro de LLM en lugar de fuera de LLM, lo que puede reducir el costo del token de manera efectiva. A través de nuestros experimentos en seis puntos de referencia para tres tareas diferentes, se verifica la efectividad de INOT, con una mejora promedio de 7.95 % en rendimiento, excediendo las líneas de base. Además, el costo del token de INOT es más bajo en promedio que el método de mejor rendimiento al inicio en 58.3 %. Además, demostramos la versatilidad de INOT en la interpretación e inferencia de imágenes a través de experimentos de verificación.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Evolucionando más allá de las instantáneas: armonización de la estructura y la secuencia mediante el ajuste del estado de la entidad para la previsión de gráficos de conocimiento temporal

La descarga: las primeras imágenes del Observatorio de Vera C. Rubin y la privacidad de reformulación

Sigma: refinar el razonamiento del modelo de idioma grande a través del aumento de Monte Carlo guiado por hermanos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido