En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->PEPS: aprendizaje de refuerzo de inspiración cuántica para trazas de razonamiento coherentes en LLMS

PEPS: aprendizaje de refuerzo de inspiración cuántica para trazas de razonamiento coherentes en LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Modelos de lenguaje grande (LLM) a menudo luchan por mantener trazas de razonamiento coherentes de varios pasos, particularmente en tareas que requieren un flujo lógico estructurado. Este trabajo introduce un enfoque de inspiración cuántica para abordar el desafío incorporando una recompensa basada en la fidelidad derivada de los estados de pares enredados (PEP) proyectados en la optimización de políticas proximales. A diferencia de los enfoques anteriores que utilizan la supervisión directa o los objetivos de contraste, el método propuesto guía el aprendizaje a través de la consistencia estructural, ofreciendo un enfoque novedoso para hacer cumplir la coherencia global en las trazas de razonamiento generadas. El marco propuesto se evalúa utilizando múltiples métricas de determinación de coherencia en diversos conjuntos de datos como GSM8K, StrategyQA y el banco de implicación que abarca el razonamiento aritmético, intuitivo y basado en la implicación. Los resultados muestran que el enfoque de inspiración cuántica propuesta ofrece mejoras significativas sobre los enfoques de referencia supervisados, contrastados y previos al estado previo, lo que destaca la efectividad de la fidelidad inspirada en la cantidad cuántica como base para mejorar la coherencia de rastreo de razonamiento en los LLM.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web