En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Agentes en coevolución: aprender de los fracasos como aspectos negativos

Agentes en coevolución: aprender de los fracasos como aspectos negativos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:El rápido progreso de los modelos de grandes fundaciones ha acelerado el desarrollo de agentes especializados en tareas en diversos dominios. Sin embargo, la eficacia de los agentes sigue estrechamente ligada a la calidad de los datos de capacitación, mientras que la curación de conjuntos de datos de tareas específicas sigue siendo costosa y, a menudo, inviable en escenarios del mundo real. Trabajos recientes han explorado agentes de superación personal que generan, refinan y reentrenan de forma autónoma en sus propias trayectorias. Una línea destacada de enfoques aprovecha aún más la optimización de preferencias al combinar trayectorias previstas con trayectorias escasas de verdad sobre el terreno, lo que permite a los agentes aprender directamente de sus propios fracasos. Si bien estos métodos superan el ajuste supervisado, su gran dependencia de trayectorias predichas bajo una supervisión limitada de la verdad del terreno los deja propensos al sobreajuste. Para abordar esto, proponemos un marco de agentes coevolutivos en el que un agente objetivo mejora junto con un agente auxiliar de falla. El agente fallido aprende a través de la optimización de preferencias sobre las trayectorias de fracaso tanto del objetivo como de sí mismo, generando así negativos duros que están cerca del éxito pero siguen siendo fracasos. La incorporación de estos aspectos negativos informativos en la optimización del agente objetivo agudiza los límites de decisión y mejora la generalización. Nuestro análisis integral y experimentos en conjuntos de datos de referencia muestran que nuestro método no solo muestra un rendimiento mejorado, sino que también demuestra que las fallas, en lugar de usarse tal como están, pueden transformarse sistemáticamente en señales de aprendizaje estructuradas y valiosas en agentes que mejoran a sí mismos.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web