AIRA_2: Superar los obstáculos en los agentes de investigación de IA

Resumen:La investigación existente ha identificado tres cuellos de botella estructurales en el rendimiento de los agentes de investigación de IA: (1) la ejecución sincrónica de una sola GPU restringe el rendimiento de la muestra, lo que limita el beneficio de la búsqueda; (2) una brecha de generalización donde la selección basada en validación hace que el rendimiento se degrade en horizontes de búsqueda extendidos; y (3) la capacidad limitada de los operadores LLM fijos de un solo turno impone un límite al rendimiento de la búsqueda. Presentamos AIRA$_2$, que aborda estos cuellos de botella a través de tres opciones arquitectónicas: un grupo de trabajadores asincrónicos de múltiples GPU que aumenta linealmente el rendimiento del experimento; un protocolo de evaluación consistente oculto que entrega una señal de evaluación confiable; y agentes ReAct que analizan dinámicamente sus acciones y depuran interactivamente. En MLE-bench-30, AIRA$_2$ alcanza un rango percentil medio del 71,8 % a las 24 horas (superando el mejor anterior del 69,9 %) y mejora constantemente hasta el 76,0 % a las 72 horas. Los estudios de ablación revelan que cada componente es necesario y que el “sobreajuste” informado en trabajos anteriores fue impulsado por el ruido de la evaluación en lugar de por la verdadera memorización de datos.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Bongard-RWR+: Representaciones del mundo real de conceptos de grano fino en problemas de Bongard

Un motor gráfico para la educación sobre solos de tonos de acordes de guitarra

La descarga: Presentación de nuestros 35 innovadores en la lista de 35 para 2025

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido