En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Worldllm: Mejora del modelado mundial de LLMS utilizando la creación de teoría impulsada por la curiosidad

Worldllm: Mejora del modelado mundial de LLMS utilizando la creación de teoría impulsada por la curiosidad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) poseen conocimiento general del mundo, pero a menudo luchan por generar predicciones precisas en contextos estructurados y específicos de dominio como las simulaciones. Estas limitaciones surgen de su incapacidad para fundamentar su amplia comprensión no estructurada en entornos específicos. Para abordar esto, presentamos WorldLLM, un marco que mejora el modelado mundial basado en LLM al combinar la inferencia bayesiana y la exploración activa autónoma con el aprendizaje de refuerzo. WorldLLM aprovecha las habilidades de aprendizaje en contexto de LLM para guiar las predicciones de un modelo mundial basado en LLM utilizando hipótesis de lenguaje natural dadas en su aviso. Estas hipótesis se refinan iterativamente a través de un marco de inferencia bayesiana que aprovecha un segundo LLM como la distribución de la propuesta dada evidencia recopilada. Esta evidencia se recopila utilizando una política de aprendizaje de refuerzo impulsada por la curiosidad que explora el entorno para encontrar transiciones con una baja veracilización de registro bajo nuestro modelo predictivo basado en LLM utilizando las hipótesis actuales. Al alternar entre refinar hipótesis y recopilar nuevas pruebas, nuestro marco impulsa de forma autónoma la mejora continua de las predicciones. Nuestros experimentos demuestran la efectividad de WorldllM en un entorno de juego textual que requiere que los agentes manipulen y combine objetos. El marco no solo mejora la precisión predictiva, sino que también genera teorías de dinámica del medio ambiente interpretable por humanos.

Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web