En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Agentes de codificación de edificios a través de la optimización de preferencias múltiples con entropía mejorada

Agentes de codificación de edificios a través de la optimización de preferencias múltiples con entropía mejorada

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Un enfoque prometedor para mejorar el rendimiento es la escala de tiempo de prueba (TTS), pero sus ganancias dependen en gran medida de la diversidad de los resultados del modelo.
Si bien los métodos de alineación estándar, como la optimización de preferencias directas (DPO) y la optimización de Kahneman-Tversky (KTO) son efectivos para alinear los resultados del modelo con las preferencias humanas, este proceso puede tener costo de una diversidad reducida, lo que limita la efectividad de TTS.
Además, los algoritmos de optimización de preferencias existentes generalmente están diseñados para tareas de un solo cambio y no abordan completamente las complejidades del razonamiento múltiple y la integración de herramientas requeridas para los agentes de codificación interactivos.
Para cerrar esta brecha, introducimos sys, un marco mejorado con entropía que adapta los algoritmos de optimización de preferencias existentes a la configuración multipurno asistida por herramientas.
SYS aumenta el objetivo de preferencia para preservar explícitamente la entropía de políticas y generaliza el aprendizaje para optimizar las interacciones múltiples en lugar de las respuestas de un solo cambio.
Validamos sys ajustando un conjunto diverso de modelos de diferentes familias y tamaños (parámetros de hasta 106b).
Para maximizar las ganancias de rendimiento de TTS, proponemos además un esquema de selección de mejor trayectoria híbrido que combina un modelo de verificador aprendido con enfoques sin modelo.
En la tabla de clasificación Swebench, nuestro enfoque establece nuevos resultados de última generación entre los modelos de peso abierto. Un modelo de parámetros de 30B entrenado con sys ocupa el primer lugar en lite y 4to en verificado en la tabla de clasificación de peso abierto, superado solo por modelos con más de 10 veces más parámetros ( por ejemplo, $> $ 350b).

Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web