Evocurr: plan de estudios de autoevolución con generación de código de comportamiento para la toma de decisiones complejas

Resumen: Grandes modelos de idiomas (LLM) han demostrado capacidades notables en diversos dominios, incluida la programación, la planificación y la toma de decisiones. Sin embargo, su rendimiento a menudo se degrada cuando se enfrenta a instancias problemáticas altamente complejas que requieren un razonamiento profundo en horizontes largos. En tales casos, los enfoques directos de resolución de problemas pueden conducir a ineficiencia o falla debido a la falta de orientación intermedia estructurada. Para abordar esto, proponemos un nuevo marco de evolucionamiento de autoevoluciones, Evocurr, en el que un LLM de generación curricular dedicada construye una secuencia de instancias problemáticas con dificultades aumentadas gradualmente, adaptadas al progreso del aprendizaje de la solver LLM. El plan de estudios adapta dinámicamente desafíos cuando el solucionador lucha y aumenta cuando el éxito es consistente, manteniendo así una trayectoria de aprendizaje óptima. Este enfoque permite que la Solucione LLM, implementada como un modelo de generación de código que produce scripts de árbol de decisión de Python, adquiere progresivamente las habilidades necesarias para tareas complejas de toma de decisiones. Los resultados experimentales sobre los puntos de referencia desafiantes de la toma de decisiones muestran que nuestro método mejora significativamente las tasas de éxito de las tareas y la eficiencia de la solución en comparación con las líneas de base de resolución directa. Estos hallazgos sugieren que el aprendizaje curricular impulsado por LLM tiene un fuerte potencial para mejorar el razonamiento automatizado en los dominios de alta complejidad del mundo real.

Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje de refuerzo de generación a nivel de procedimiento alineado por humanos a través de la representación compartida

Hecho de la semana – 5/5/2025

Avanzando hacia LessOps con migraciones de VMware a la nube

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido