En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Alineación de modelos de lenguaje grandes con reglas de procedimiento: un estímulo de seguimiento de estado autorregresivo para el comercio dentro del juego

Alineación de modelos de lenguaje grandes con reglas de procedimiento: un estímulo de seguimiento de estado autorregresivo para el comercio dentro del juego

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) permiten interacciones dinámicas en el juego, pero no siguen los flujos de procedimientos esenciales en los sistemas comerciales regidos por reglas, lo que erosiona la confianza de los jugadores. Este trabajo resuelve la tensión central entre la flexibilidad creativa de los LLM y las demandas procesales del comercio dentro del juego (explorar-oferta-revisar-confirmar). Con este fin, se presenta el Aviso de seguimiento de estado autorregresivo (ASTP), una metodología centrada en un aviso estratégicamente orquestado que obliga a un LLM a hacer que su proceso de seguimiento de estado sea explícito y verificable. En lugar de depender de una comprensión contextual implícita, ASTP asigna al LLM la tarea de identificar e informar una etiqueta de estado predefinida del turno anterior. Para garantizar la integridad de las transacciones, esto se complementa con un método de posprocesamiento de marcador de posición específico del estado para cálculos de precios precisos. La evaluación de 300 diálogos comerciales demuestra >99% de cumplimiento estatal y 99,3% de precisión de cálculo. En particular, ASTP con posprocesamiento de marcador de posición en modelos más pequeños (Gemini-2.5-Flash) iguala el rendimiento de modelos más grandes (Gemini-2.5-Pro) al tiempo que reduce el tiempo de respuesta de 21,2 segundos a 2,4 segundos, estableciendo una base práctica que satisface tanto los requisitos en tiempo real como las limitaciones de recursos de los juegos comerciales.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web