Una vida para aprender: inferir modelos mundiales simbólicos para entornos estocásticos a partir de exploración no guiada

Resumen:El modelado de mundos simbólicos requiere inferir y representar la dinámica transicional de un entorno como un programa ejecutable. El trabajo anterior se ha centrado en entornos en gran medida deterministas con abundantes datos de interacción, mecánicas simples y guía humana. Abordamos un escenario más realista y desafiante, aprendiendo en un ambiente complejo y estocástico donde el agente tiene sólo “una vida” para explorar un ambiente hostil sin guía humana. Presentamos OneLife, un marco que modela la dinámica mundial a través de leyes programáticas activadas condicionalmente dentro de un marco de programación probabilística. Cada ley opera a través de una estructura de precondición-efecto, que se activa en estados mundiales relevantes. Esto crea un gráfico de cálculo dinámico que dirige la inferencia y la optimización solo a través de leyes relevantes, evitando desafíos de escala cuando todas las leyes contribuyen a predicciones sobre un estado jerárquico complejo y permitiendo el aprendizaje de dinámicas estocásticas incluso con una activación escasa de reglas. Para evaluar nuestro enfoque bajo estas exigentes limitaciones, introducimos un nuevo protocolo de evaluación que mide (a) la clasificación estatal, la capacidad de distinguir estados futuros plausibles de los inverosímiles, y (b) la fidelidad del estado, la capacidad de generar estados futuros que se asemejen mucho a la realidad. Desarrollamos y evaluamos nuestro marco en Crafter-OO, nuestra reimplementación del entorno Crafter que expone un estado simbólico estructurado y orientado a objetos y una función de transición pura que opera solo en ese estado. OneLife puede aprender con éxito dinámicas ambientales clave a partir de una interacción mínima y no guiada, superando una sólida línea de base en 16 de 23 escenarios probados. También probamos la capacidad de planificación de OneLife, con implementaciones simuladas que identifican con éxito estrategias superiores. Nuestro trabajo establece una base para la construcción autónoma de modelos mundiales programáticos de entornos complejos y desconocidos.

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una lógica modal para modelos de clasificadores temporales y jurisdiccionales

Linux Foundation and OpenSSF Release Cybersecurity Skills Marco para fortalecer la preparación empresarial

Este microondas gigante puede cambiar el futuro de la guerra

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido