AlphaApollo: Orquestación de modelos básicos y herramientas profesionales en un sistema autoevolutivo para un razonamiento agente profundo

Resumen:Presentamos AlphaApollo, un sistema de razonamiento agente autoevolutivo que tiene como objetivo abordar dos cuellos de botella en el razonamiento del modelo básico (FM): la capacidad intrínseca del modelo limitada y la iteración poco confiable en el tiempo de prueba. AlphaApollo organiza múltiples modelos con herramientas profesionales para permitir un razonamiento deliberado y verificable. Combina (i) una herramienta de cálculo (Python con bibliotecas numéricas y simbólicas) y (ii) una herramienta de recuperación (información externa relevante para la tarea) para ejecutar cálculos exactos y decisiones terrestres. Además, el sistema admite la evolución de soluciones de múltiples rondas y modelos a través de un mapa de estado compartido que registra candidatos, verificaciones ejecutables y comentarios para un refinamiento iterativo. En las evaluaciones de AIME 2024/2025 en múltiples modelos, AlphaApollo ofrece ganancias constantes: +5,15 % de promedio@32 y +23,34 % de aprobado@32 para Qwen2.5-14B-Instruct, y +8,91 % de promedio@32 con +26,67 % de aprobado@32 para Llama-3.3-70B-Instruct. El análisis del uso de herramientas muestra que más del 80% de las llamadas a herramientas se ejecutan con éxito, con un rendimiento superior constante a las líneas de base que no son herramientas, elevando así el límite de capacidad de los FM. Se actualizarán más resultados empíricos y detalles de implementación en esta URL https.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo la visión se convierte en lenguaje: un análisis teórico de la información por capas del razonamiento multimodal

Wasmcon 2024 Moviéndose hasta el 11 y 12 de noviembre, ubicando con Kubecon + CloudNativecon North America en Salt Lake.

Cómo asegurar dispositivos médicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido