PEPS: aprendizaje de refuerzo de inspiración cuántica para trazas de razonamiento coherentes en LLMS

Resumen: Modelos de lenguaje grande (LLM) a menudo luchan por mantener trazas de razonamiento coherentes de varios pasos, particularmente en tareas que requieren un flujo lógico estructurado. Este trabajo introduce un enfoque de inspiración cuántica para abordar el desafío incorporando una recompensa basada en la fidelidad derivada de los estados de pares enredados (PEP) proyectados en la optimización de políticas proximales. A diferencia de los enfoques anteriores que utilizan la supervisión directa o los objetivos de contraste, el método propuesto guía el aprendizaje a través de la consistencia estructural, ofreciendo un enfoque novedoso para hacer cumplir la coherencia global en las trazas de razonamiento generadas. El marco propuesto se evalúa utilizando múltiples métricas de determinación de coherencia en diversos conjuntos de datos como GSM8K, StrategyQA y el banco de implicación que abarca el razonamiento aritmético, intuitivo y basado en la implicación. Los resultados muestran que el enfoque de inspiración cuántica propuesta ofrece mejoras significativas sobre los enfoques de referencia supervisados, contrastados y previos al estado previo, lo que destaca la efectividad de la fidelidad inspirada en la cantidad cuántica como base para mejorar la coherencia de rastreo de razonamiento en los LLM.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

GeoThought: un conjunto de datos para mejorar el razonamiento geométrico matemático en modelos de lenguaje visual

El efecto de la representación estatal en el comportamiento del agente de LLM en los juegos de enrutamiento dinámico

CrimeMind: Simulando el crimen urbano con agentes multimodales de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido