Resumen:La investigación existente ha identificado tres cuellos de botella estructurales en el rendimiento de los agentes de investigación de IA: (1) la ejecución sincrónica de una sola GPU restringe el rendimiento de la muestra, lo que limita el beneficio de la búsqueda; (2) una brecha de generalización donde la selección basada en validación hace que el rendimiento se degrade en horizontes de búsqueda extendidos; y (3) la capacidad limitada de los operadores LLM fijos de un solo turno impone un límite al rendimiento de la búsqueda. Presentamos AIRA$_2$, que aborda estos cuellos de botella a través de tres opciones arquitectónicas: un grupo de trabajadores asincrónicos de múltiples GPU que aumenta linealmente el rendimiento del experimento; un protocolo de evaluación consistente oculto que entrega una señal de evaluación confiable; y agentes ReAct que analizan dinámicamente sus acciones y depuran interactivamente. En MLE-bench-30, AIRA$_2$ alcanza un rango percentil medio del 71,8 % a las 24 horas (superando el mejor anterior del 69,9 %) y mejora constantemente hasta el 76,0 % a las 72 horas. Los estudios de ablación revelan que cada componente es necesario y que el “sobreajuste” informado en trabajos anteriores fue impulsado por el ruido de la evaluación en lugar de por la verdadera memorización de datos.
Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original
