Worldllm: Mejora del modelado mundial de LLMS utilizando la creación de teoría impulsada por la curiosidad

Resumen: Los modelos de lenguaje grande (LLM) poseen conocimiento general del mundo, pero a menudo luchan por generar predicciones precisas en contextos estructurados y específicos de dominio como las simulaciones. Estas limitaciones surgen de su incapacidad para fundamentar su amplia comprensión no estructurada en entornos específicos. Para abordar esto, presentamos WorldLLM, un marco que mejora el modelado mundial basado en LLM al combinar la inferencia bayesiana y la exploración activa autónoma con el aprendizaje de refuerzo. WorldLLM aprovecha las habilidades de aprendizaje en contexto de LLM para guiar las predicciones de un modelo mundial basado en LLM utilizando hipótesis de lenguaje natural dadas en su aviso. Estas hipótesis se refinan iterativamente a través de un marco de inferencia bayesiana que aprovecha un segundo LLM como la distribución de la propuesta dada evidencia recopilada. Esta evidencia se recopila utilizando una política de aprendizaje de refuerzo impulsada por la curiosidad que explora el entorno para encontrar transiciones con una baja veracilización de registro bajo nuestro modelo predictivo basado en LLM utilizando las hipótesis actuales. Al alternar entre refinar hipótesis y recopilar nuevas pruebas, nuestro marco impulsa de forma autónoma la mejora continua de las predicciones. Nuestros experimentos demuestran la efectividad de WorldllM en un entorno de juego textual que requiere que los agentes manipulen y combine objetos. El marco no solo mejora la precisión predictiva, sino que también genera teorías de dinámica del medio ambiente interpretable por humanos.

Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

No se limite a ajustar el agente, ajuste el entorno

BioPro: sobre la equidad de género consciente de las diferencias para modelos de visión y lenguaje

Programa de Trabajo 2025 Horizonte Europa. Clúster 4: Digital E Industria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido