En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->AlphaApollo: Orquestación de modelos básicos y herramientas profesionales en un sistema autoevolutivo para un razonamiento agente profundo

AlphaApollo: Orquestación de modelos básicos y herramientas profesionales en un sistema autoevolutivo para un razonamiento agente profundo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos AlphaApollo, un sistema de razonamiento agente autoevolutivo que tiene como objetivo abordar dos cuellos de botella en el razonamiento del modelo básico (FM): la capacidad intrínseca del modelo limitada y la iteración poco confiable en el tiempo de prueba. AlphaApollo organiza múltiples modelos con herramientas profesionales para permitir un razonamiento deliberado y verificable. Combina (i) una herramienta de cálculo (Python con bibliotecas numéricas y simbólicas) y (ii) una herramienta de recuperación (información externa relevante para la tarea) para ejecutar cálculos exactos y decisiones terrestres. Además, el sistema admite la evolución de soluciones de múltiples rondas y modelos a través de un mapa de estado compartido que registra candidatos, verificaciones ejecutables y comentarios para un refinamiento iterativo. En las evaluaciones de AIME 2024/2025 en múltiples modelos, AlphaApollo ofrece ganancias constantes: +5,15 % de promedio@32 y +23,34 % de aprobado@32 para Qwen2.5-14B-Instruct, y +8,91 % de promedio@32 con +26,67 % de aprobado@32 para Llama-3.3-70B-Instruct. El análisis del uso de herramientas muestra que más del 80% de las llamadas a herramientas se ejecutan con éxito, con un rendimiento superior constante a las líneas de base que no son herramientas, elevando así el límite de capacidad de los FM. Se actualizarán más resultados empíricos y detalles de implementación en esta URL https.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web