 Resumen: El aprendizaje por refuerzo (RL) puede refinar las capacidades de razonamiento de los grandes modelos de lenguaje (LLM), pero depende fundamentalmente de un prerrequisito clave: el LLM ya puede generar rutas de razonamiento de alta utilidad con una probabilidad no despreciable. Para tareas que van más allá de la competencia actual del LLM, dicha ruta de razonamiento puede ser difícil de probar, y el aprendizaje corre el riesgo de reforzar un razonamiento familiar pero subóptimo. Nos motiva la idea de la ciencia cognitiva de que por qué esta es la respuesta es a menudo una pregunta más fácil que cuál es la respuesta, ya que evita la pesada carga cognitiva de la exploración abierta, optando en cambio por la reconstrucción explicativa: volver sistemáticamente sobre el razonamiento que vincula una pregunta con su respuesta. Mostramos que los LLM pueden aprovechar de manera similar las respuestas para derivar rutas de razonamiento de alta calidad. Formalizamos este fenómeno y demostramos que el condicionamiento de la respuesta aumenta demostrablemente la utilidad esperada de los caminos de razonamiento muestreados, transformando así problemas intratables en problemas que se pueden aprender. Sobre la base de esta idea, presentamos RAVR (razonamiento variacional guiado por referencia y respuesta), un marco de trabajo de un extremo a otro que utiliza el razonamiento condicionado por respuestas como sustituto variacional del razonamiento de solo preguntas. Los experimentos tanto en el dominio general como en el de matemáticas demuestran mejoras consistentes con respecto a líneas de base sólidas. Analizamos más a fondo el comportamiento de razonamiento y encontramos que RAVR reduce la vacilación, fortalece la consolidación de conclusiones y promueve estrategias de razonamiento específicas de problemas.
Resumen: El aprendizaje por refuerzo (RL) puede refinar las capacidades de razonamiento de los grandes modelos de lenguaje (LLM), pero depende fundamentalmente de un prerrequisito clave: el LLM ya puede generar rutas de razonamiento de alta utilidad con una probabilidad no despreciable. Para tareas que van más allá de la competencia actual del LLM, dicha ruta de razonamiento puede ser difícil de probar, y el aprendizaje corre el riesgo de reforzar un razonamiento familiar pero subóptimo. Nos motiva la idea de la ciencia cognitiva de que por qué esta es la respuesta es a menudo una pregunta más fácil que cuál es la respuesta, ya que evita la pesada carga cognitiva de la exploración abierta, optando en cambio por la reconstrucción explicativa: volver sistemáticamente sobre el razonamiento que vincula una pregunta con su respuesta. Mostramos que los LLM pueden aprovechar de manera similar las respuestas para derivar rutas de razonamiento de alta calidad. Formalizamos este fenómeno y demostramos que el condicionamiento de la respuesta aumenta demostrablemente la utilidad esperada de los caminos de razonamiento muestreados, transformando así problemas intratables en problemas que se pueden aprender. Sobre la base de esta idea, presentamos RAVR (razonamiento variacional guiado por referencia y respuesta), un marco de trabajo de un extremo a otro que utiliza el razonamiento condicionado por respuestas como sustituto variacional del razonamiento de solo preguntas. Los experimentos tanto en el dominio general como en el de matemáticas demuestran mejoras consistentes con respecto a líneas de base sólidas. Analizamos más a fondo el comportamiento de razonamiento y encontramos que RAVR reduce la vacilación, fortalece la consolidación de conclusiones y promueve estrategias de razonamiento específicas de problemas.
Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							