Resumen:Aumentar el presupuesto de pensamiento de los modelos de IA puede mejorar significativamente la precisión, pero no todas las preguntas justifican la misma cantidad de razonamiento. Es posible que los usuarios prefieran asignar diferentes cantidades de esfuerzo de razonamiento dependiendo de cómo valoran la calidad de la salida frente a la latencia y el costo. Para aprovechar esta compensación de manera efectiva, los usuarios necesitan un control detallado sobre la cantidad de pensamiento utilizado para una consulta en particular, pero pocos enfoques permiten ese control. Los métodos existentes requieren que los usuarios especifiquen el número absoluto de tokens deseados, pero esto requiere conocer de antemano la dificultad del problema para establecer adecuadamente el presupuesto de tokens para una consulta. Para abordar estos problemas, proponemos el Control Adaptativo del Esfuerzo, un método de aprendizaje por refuerzo autoadaptativo que entrena modelos para usar una fracción de tokens especificada por el usuario en relación con la longitud promedio actual de la cadena de pensamiento para cada consulta. Este enfoque elimina el ajuste específico del conjunto de datos y de la fase, al tiempo que produce mejores curvas de compensación de costo-precisión en comparación con los métodos estándar. Los usuarios pueden ajustar dinámicamente la compensación costo-precisión a través de un parámetro de esfuerzo continuo especificado en el momento de la inferencia. Observamos que el modelo aprende automáticamente a asignar recursos proporcionalmente a la dificultad de la tarea y, en escalas de modelo que van desde 1.5B a 32B de parámetros, nuestro enfoque permite una reducción de aproximadamente 3 veces en la longitud de la cadena de pensamiento mientras mantiene o mejora el rendimiento en relación con el modelo base utilizado para el entrenamiento de RL.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

e1: Aprendizaje del control adaptativo del esfuerzo de razonamiento

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cadena de agentes: modelos de base de agentes de extremo a extremo a través de la destilación de múltiples agentes y RL de agente

Juegos diferenciales potenciales basados ​​en el juego ficticios profundos para aprender interacción humana en intersecciones no firmadas

Las tres grandes preguntas sin respuesta sobre Sora

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Juegos diferenciales potenciales basados en el juego ficticios profundos para aprender interacción humana en intersecciones no firmadas