 Resumen:Presentamos AlphaApollo, un sistema de razonamiento agente autoevolutivo que tiene como objetivo abordar dos cuellos de botella en el razonamiento del modelo básico (FM): la capacidad intrínseca del modelo limitada y la iteración poco confiable en el tiempo de prueba. AlphaApollo organiza múltiples modelos con herramientas profesionales para permitir un razonamiento deliberado y verificable. Combina (i) una herramienta de cálculo (Python con bibliotecas numéricas y simbólicas) y (ii) una herramienta de recuperación (información externa relevante para la tarea) para ejecutar cálculos exactos y decisiones terrestres. Además, el sistema admite la evolución de soluciones de múltiples rondas y modelos a través de un mapa de estado compartido que registra candidatos, verificaciones ejecutables y comentarios para un refinamiento iterativo. En las evaluaciones de AIME 2024/2025 en múltiples modelos, AlphaApollo ofrece ganancias constantes: +5,15 % de promedio@32 y +23,34 % de aprobado@32 para Qwen2.5-14B-Instruct, y +8,91 % de promedio@32 con +26,67 % de aprobado@32 para Llama-3.3-70B-Instruct. El análisis del uso de herramientas muestra que más del 80% de las llamadas a herramientas se ejecutan con éxito, con un rendimiento superior constante a las líneas de base que no son herramientas, elevando así el límite de capacidad de los FM. Se actualizarán más resultados empíricos y detalles de implementación en esta URL https.
Resumen:Presentamos AlphaApollo, un sistema de razonamiento agente autoevolutivo que tiene como objetivo abordar dos cuellos de botella en el razonamiento del modelo básico (FM): la capacidad intrínseca del modelo limitada y la iteración poco confiable en el tiempo de prueba. AlphaApollo organiza múltiples modelos con herramientas profesionales para permitir un razonamiento deliberado y verificable. Combina (i) una herramienta de cálculo (Python con bibliotecas numéricas y simbólicas) y (ii) una herramienta de recuperación (información externa relevante para la tarea) para ejecutar cálculos exactos y decisiones terrestres. Además, el sistema admite la evolución de soluciones de múltiples rondas y modelos a través de un mapa de estado compartido que registra candidatos, verificaciones ejecutables y comentarios para un refinamiento iterativo. En las evaluaciones de AIME 2024/2025 en múltiples modelos, AlphaApollo ofrece ganancias constantes: +5,15 % de promedio@32 y +23,34 % de aprobado@32 para Qwen2.5-14B-Instruct, y +8,91 % de promedio@32 con +26,67 % de aprobado@32 para Llama-3.3-70B-Instruct. El análisis del uso de herramientas muestra que más del 80% de las llamadas a herramientas se ejecutan con éxito, con un rendimiento superior constante a las líneas de base que no son herramientas, elevando así el límite de capacidad de los FM. Se actualizarán más resultados empíricos y detalles de implementación en esta URL https.
Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							