En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Información que busca una toma de decisiones sólida bajo observabilidad parcial

Información que busca una toma de decisiones sólida bajo observabilidad parcial

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La búsqueda de información explícita es esencial para la resolución de problemas humanos en entornos prácticos caracterizados por información incompleta y dinámica ruidosa. Cuando el verdadero estado ambiental no es directamente observable, los humanos buscan información para actualizar su dinámica interna e informar la toma de decisiones futuras. Aunque los agentes de planificación del modelo de lenguaje grande (LLM) existente han abordado la incertidumbre de observación, a menudo pasan por alto las discrepancias entre su dinámica interna y el entorno real. Presentamos la información que busca el planificador de decisiones (InfoSeeker), un marco de toma de decisiones de LLM que integra la planificación orientada a tareas con información que busca alinear la dinámica interna y tomar decisiones óptimas bajo incertidumbre tanto en las observaciones de los agentes como en la dinámica ambiental. InfoSeeker solicita a una LLM que recopile información activamente mediante la planificación de acciones para validar su comprensión, detectar cambios ambientales o probar hipótesis antes de generar o revisar los planes orientados a las tareas. Para evaluar a InfoSeeker, presentamos una nueva suite de referencia con entornos parcialmente observables con observaciones incompletas y dinámicas inciertas. Los experimentos demuestran que InfoSeeker logra una ganancia de rendimiento absoluto del 74% sobre métodos anteriores sin sacrificar la eficiencia de la muestra. Además, InfoSeeker se generaliza a través de LLM y supera a las líneas de base en puntos de referencia establecidos, como la manipulación robótica y la navegación web. Estos hallazgos subrayan la importancia de integrar estrechamente la planificación y la búsqueda de información para un comportamiento robusto en entornos parcialmente observables. La página del proyecto está disponible en esta URL HTTPS

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web