Resumen: Los modelos de recompensa (RM) desempeñan un papel fundamental a la hora de alinear los modelos de lenguaje grande (LLM) con las preferencias humanas. Sin embargo, en el ámbito del aprendizaje de herramientas, la falta de RM diseñados específicamente para tareas de llamada de funciones ha limitado el progreso hacia una IA agente más capaz. Presentamos ToolRM, una familia de RM generativos livianos diseñados para escenarios generales de uso de herramientas. Para construir estos modelos, proponemos un canal novedoso que construye datos de preferencia por pares utilizando puntuación basada en reglas y muestreo multidimensional. Esto produce ToolPref-Pairwise-30K, un conjunto de datos diverso, equilibrado y desafiante de tareas críticas que respalda el aprendizaje por refuerzo con retroalimentación verificable. Para evaluar los RM del uso de herramientas, también presentamos TRBench$_{BFCL}$, un punto de referencia creado sobre la suite de evaluación agente BFCL. Entrenados con nuestros datos construidos, los modelos de la serie Qwen3-4B/8B logran hasta un 14,28% más de precisión, superando sustancialmente a los modelos de frontera como Claude 4 y OpenAI o3 en juicios de recompensa por pares. Más allá de los objetivos de capacitación, ToolRM se generaliza a tareas críticas más amplias, incluido el muestreo Best-of-N y la autocorrección. Los experimentos en ACEBench destacan su efectividad y eficiencia, permitiendo escalar el tiempo de inferencia y reducir el uso de tokens de salida en más del 66%. Publicamos datos y modelamos puntos de control para facilitar futuras investigaciones.
Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original
