En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El primer día del agente: evaluación comparativa de escenarios de aprendizaje, exploración y programación en el lugar de trabajo

El primer día del agente: evaluación comparativa de escenarios de aprendizaje, exploración y programación en el lugar de trabajo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La rápida evolución de los modelos de lenguajes grandes multimodales (MLLM) ha avanzado en la automatización del flujo de trabajo; sin embargo, las investigaciones existentes se centran principalmente en los límites superiores del rendimiento en entornos estáticos, pasando por alto la solidez para la implementación estocástica en el mundo real. Identificamos tres desafíos clave: programación dinámica de tareas, exploración activa en condiciones de incertidumbre y aprendizaje continuo a partir de la experiencia. Para cerrar esta brecha, presentamos method{}, un entorno de evaluación dinámica que simula a un agente “en formación” que explora continuamente un entorno novedoso. A diferencia de los puntos de referencia tradicionales, method{} evalúa los agentes en tres dimensiones: (1) programación consciente del contexto para tareas de transmisión con diferentes prioridades; (2) adquisición prudente de información para reducir las alucinaciones mediante la exploración activa; y (3) evolución continua al destilar estrategias generalizadas a partir de tareas generadas dinámicamente y basadas en reglas. Los experimentos muestran que los agentes de vanguardia tienen deficiencias significativas en entornos dinámicos, especialmente en la exploración activa y el aprendizaje continuo. Nuestro trabajo establece un marco para evaluar la confiabilidad de los agentes, trasladando la evaluación de pruebas estáticas a escenarios realistas orientados a la producción. Nuestros códigos están disponibles en esta URL https

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web