En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Escalamiento de la lógica de escalamiento: metasíntesis agente del razonamiento lógico

Escalamiento de la lógica de escalamiento: metasíntesis agente del razonamiento lógico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La ampliación de señales de entrenamiento verificables sigue siendo un cuello de botella clave para el aprendizaje por refuerzo a partir de recompensas verificables (RLVR). El razonamiento lógico es un sustrato natural: las restricciones son formales y las respuestas se pueden verificar mediante programación. Sin embargo, los canales de síntesis anteriores dependen de código escrito por expertos u operan dentro de plantillas/esqueletos fijos, lo que limita el crecimiento en gran medida a perturbaciones a nivel de instancia. Proponemos SSLogic, un marco de meta-síntesis agente que escala a nivel de familia de tareas sintetizando y reparando iterativamente pares de programas ejecutables Generador-Validador en un ciclo cerrado Generar-Validar-Reparar, lo que permite una evolución familiar continua con dificultad controlable. Para garantizar la confiabilidad, presentamos un protocolo de validación de puertas múltiples que combina comprobaciones de coherencia de estrategias múltiples con revisión ciega adversaria, donde agentes independientes deben resolver instancias escribiendo y ejecutando código para filtrar tareas ambiguas o mal planteadas. A partir de 400 familias de semillas, dos rondas de evolución se expanden a 953 familias y 21.389 instancias verificables (de 5.718). El entrenamiento con datos evolucionados de SSLogic produce ganancias consistentes sobre la línea de base inicial en pasos de entrenamiento coincidentes, mejorando SynLogic en +5,2, BBEH en +1,4, AIME25 en +3,0 y Brumo25 en +3,7.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web