Agentes de codificación de edificios a través de la optimización de preferencias múltiples con entropía mejorada

Resumen: Un enfoque prometedor para mejorar el rendimiento es la escala de tiempo de prueba (TTS), pero sus ganancias dependen en gran medida de la diversidad de los resultados del modelo.
Si bien los métodos de alineación estándar, como la optimización de preferencias directas (DPO) y la optimización de Kahneman-Tversky (KTO) son efectivos para alinear los resultados del modelo con las preferencias humanas, este proceso puede tener costo de una diversidad reducida, lo que limita la efectividad de TTS.
Además, los algoritmos de optimización de preferencias existentes generalmente están diseñados para tareas de un solo cambio y no abordan completamente las complejidades del razonamiento múltiple y la integración de herramientas requeridas para los agentes de codificación interactivos.
Para cerrar esta brecha, introducimos sys, un marco mejorado con entropía que adapta los algoritmos de optimización de preferencias existentes a la configuración multipurno asistida por herramientas.
SYS aumenta el objetivo de preferencia para preservar explícitamente la entropía de políticas y generaliza el aprendizaje para optimizar las interacciones múltiples en lugar de las respuestas de un solo cambio.
Validamos sys ajustando un conjunto diverso de modelos de diferentes familias y tamaños (parámetros de hasta 106b).
Para maximizar las ganancias de rendimiento de TTS, proponemos además un esquema de selección de mejor trayectoria híbrido que combina un modelo de verificador aprendido con enfoques sin modelo.
En la tabla de clasificación Swebench, nuestro enfoque establece nuevos resultados de última generación entre los modelos de peso abierto. Un modelo de parámetros de 30B entrenado con sys ocupa el primer lugar en lite y 4to en verificado en la tabla de clasificación de peso abierto, superado solo por modelos con más de 10 veces más parámetros ( por ejemplo, $> $ 350b).

Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Exploración segura de acciones novedosas en sistemas de recomendación mediante el aprendizaje de políticas con implementación eficiente

La Fundación Linux anuncia oradores principales para Open Source Summit India 2025

La Fundación Linux lanza la Alianza Abierta y Robusta de Compartimentación (ORCA) para promover la seguridad del software

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido