En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->FactorSmith: Generación de simulación agente mediante la descomposición del proceso de decisión de Markov con refinamiento del planificador-diseñador-crítico

FactorSmith: Generación de simulación agente mediante la descomposición del proceso de decisión de Markov con refinamiento del planificador-diseñador-crítico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Generar simulaciones ejecutables a partir de especificaciones de lenguaje natural sigue siendo un problema desafiante debido a la limitada capacidad de razonamiento de los grandes modelos de lenguaje (LLM) cuando se enfrentan a bases de código grandes e interconectadas. Este artículo presenta FactorSmith, un marco que sintetiza simulaciones de juegos jugables en código a partir de descripciones textuales combinando dos ideas complementarias: descomposición factorizada de POMDP para la reducción del contexto de principios y un flujo de trabajo agente jerárquico planificador-diseñador-crítico para un refinamiento iterativo de la calidad en cada paso de generación. Basándose en la representación factorizada del proceso de decisión de Markov parcialmente observable (POMDP) ​​introducida por FactorSim [Sun et al., 2024], el método propuesto descompone una especificación de simulación en pasos modulares donde cada paso opera solo en un subconjunto mínimo de variables de estado relevantes, lo que limita la ventana de contexto que debe procesar cualquier llamada LLM. Inspirado en la arquitectura del trío agente de SceneSmith [Pfaff et al., 2025], FactorSmith incorpora en cada paso factorizado una interacción de tres agentes: un planificador que organiza el flujo de trabajo, un diseñador que propone artefactos de código y un crítico que evalúa la calidad a través de una puntuación estructurada, lo que permite un refinamiento iterativo con reversión de puntos de control. Este artículo formaliza el enfoque combinado, presenta el marco matemático que sustenta la selección del contexto y el refinamiento agente, y describe la implementación de código abierto. Los experimentos en el punto de referencia del entorno de aprendizaje PyGame demuestran que FactorSmith genera simulaciones con una alineación de mensajes mejorada, menos errores de tiempo de ejecución y una mayor calidad de código en comparación con las líneas base factorizadas no agentes.

Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web