Resumen: Consideramos el problema de aprender tiras proposicionales modelos mundiales de trazas de acción solas, utilizando una arquitectura de aprendizaje profundo (transformadores) y descenso de gradiente. La tarea se emite como un problema de predicción de token siguiente supervisado donde los tokens son las acciones, y una acción $ A $ puede seguir una secuencia de acción si los efectos ocultos de las acciones anteriores no hacen una condición previa de acción de $ A $ falso. Mostramos que una arquitectura de transformador adecuada puede representar fielmente los modelos mundiales de tiras proposicionales, y que los modelos se pueden aprender de conjuntos de secuencias de acción aleatorias válidas (positivas) e inválidas (negativas) solas. Se informan varios experimentos.
Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original