Aprendizaje por refuerzo en tándem con recompensas verificables

Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mejorado significativamente la capacidad de razonamiento de grandes modelos de lenguaje, alcanzando un rendimiento experto o incluso sobrehumano en dominios como las matemáticas de competición. Sin embargo, es mucho menos seguro si los agentes más débiles y los humanos realmente pueden aprovechar esta capacidad, ya que se ha documentado que el RLVR deriva el razonamiento hacia patrones idiosincrásicos como la mala legibilidad y la mezcla de idiomas. El entrenamiento en tándem es un paradigma introducido recientemente que apunta a este problema de compatibilidad: un senior capacitado y más fuerte cogenera cada lanzamiento con un junior congelado y más débil, y los dos son recompensados como un equipo, por lo que el senior se ve obligado a razonar de manera que el junior pueda seguir. Sin embargo, hasta ahora este paradigma se ha demostrado solo en entornos de prueba de concepto, lo que deja abierto si se adapta a las largas cadenas de pensamiento del moderno proceso RLVR. En este trabajo, proponemos el aprendizaje por refuerzo en tándem (TRL), que lleva el paradigma del entrenamiento en tándem al RLVR. En TRL, el senior y un junior congelado se alternan estocásticamente para cogenerar el razonamiento, la generación resultante es recompensada y la pérdida GRPO estándar se aplica al senior. Al entrenar Qwen3-4B-Instruct sobre matemáticas de competencia, encontramos que TRL coincide con GRPO básico en capacidad de razonamiento en solitario, mientras que tres propiedades emergen juntas de la misma estructura de implementación: mayor solidez de transferencia con el junior, menor deriva distributiva del junior y una cadena de pensamiento más legible para el junior. Nuestros resultados demuestran una ruta prometedora para RLVR con beneficios prácticos en comunicación multimodelo y compatibilidad humana.

Publicado originalmente en export.arxiv.org el 28 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La próxima guerra de Estados Unidos por la regulación de la IA

TABQAWORLD: Optimización del razonamiento multimodal para responder preguntas en mesas de varios turnos

Descomposición de la incertidumbre para la búsqueda de aclaraciones en agentes de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido