Agentes en coevolución: aprender de los fracasos como aspectos negativos

Resumen:El rápido progreso de los modelos de grandes fundaciones ha acelerado el desarrollo de agentes especializados en tareas en diversos dominios. Sin embargo, la eficacia de los agentes sigue estrechamente ligada a la calidad de los datos de capacitación, mientras que la curación de conjuntos de datos de tareas específicas sigue siendo costosa y, a menudo, inviable en escenarios del mundo real. Trabajos recientes han explorado agentes de superación personal que generan, refinan y reentrenan de forma autónoma en sus propias trayectorias. Una línea destacada de enfoques aprovecha aún más la optimización de preferencias al combinar trayectorias previstas con trayectorias escasas de verdad sobre el terreno, lo que permite a los agentes aprender directamente de sus propios fracasos. Si bien estos métodos superan el ajuste supervisado, su gran dependencia de trayectorias predichas bajo una supervisión limitada de la verdad del terreno los deja propensos al sobreajuste. Para abordar esto, proponemos un marco de agentes coevolutivos en el que un agente objetivo mejora junto con un agente auxiliar de falla. El agente fallido aprende a través de la optimización de preferencias sobre las trayectorias de fracaso tanto del objetivo como de sí mismo, generando así negativos duros que están cerca del éxito pero siguen siendo fracasos. La incorporación de estos aspectos negativos informativos en la optimización del agente objetivo agudiza los límites de decisión y mejora la generalización. Nuestro análisis integral y experimentos en conjuntos de datos de referencia muestran que nuestro método no solo muestra un rendimiento mejorado, sino que también demuestra que las fallas, en lugar de usarse tal como están, pueden transformarse sistemáticamente en señales de aprendizaje estructuradas y valiosas en agentes que mejoran a sí mismos.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia el diseño de ingeniería autónomo: un marco multiagente guiado por el conocimiento

Enfoque adaptativo para mejorar los algoritmos de programación de aprendizaje automático durante el tiempo de ejecución utilizando el aprendizaje de refuerzo en aplicaciones de metasquedulación

Más allá de la recuperación de hechos: memoria episódica para RAG con espacios de trabajo semánticos generativos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido