Alineación de modelos de lenguaje grandes con reglas de procedimiento: un estímulo de seguimiento de estado autorregresivo para el comercio dentro del juego

Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) permiten interacciones dinámicas en el juego, pero no siguen los flujos de procedimientos esenciales en los sistemas comerciales regidos por reglas, lo que erosiona la confianza de los jugadores. Este trabajo resuelve la tensión central entre la flexibilidad creativa de los LLM y las demandas procesales del comercio dentro del juego (explorar-oferta-revisar-confirmar). Con este fin, se presenta el Aviso de seguimiento de estado autorregresivo (ASTP), una metodología centrada en un aviso estratégicamente orquestado que obliga a un LLM a hacer que su proceso de seguimiento de estado sea explícito y verificable. En lugar de depender de una comprensión contextual implícita, ASTP asigna al LLM la tarea de identificar e informar una etiqueta de estado predefinida del turno anterior. Para garantizar la integridad de las transacciones, esto se complementa con un método de posprocesamiento de marcador de posición específico del estado para cálculos de precios precisos. La evaluación de 300 diálogos comerciales demuestra >99% de cumplimiento estatal y 99,3% de precisión de cálculo. En particular, ASTP con posprocesamiento de marcador de posición en modelos más pequeños (Gemini-2.5-Flash) iguala el rendimiento de modelos más grandes (Gemini-2.5-Pro) al tiempo que reduce el tiempo de respuesta de 21,2 segundos a 2,4 segundos, estableciendo una base práctica que satisface tanto los requisitos en tiempo real como las limitaciones de recursos de los juegos comerciales.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: las mentes jóvenes brillantes de la computación y la limpieza de rayas satelitales

Títulos de trabajo del futuro: astrónomo satelital rayado

Evolucionando más allá de las instantáneas: armonización de la estructura y la secuencia mediante el ajuste del estado de la entidad para la previsión de gráficos de conocimiento temporal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido