DeepPlanner: ampliación de la capacidad de planificación para agentes de investigación profunda a través de la configuración de ventajas

Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) aumentados con capacidades de razonamiento de múltiples pasos y generación de acciones se han mostrado prometedores a la hora de aprovechar herramientas externas para abordar tareas complejas que requieren una planificación a largo plazo. Sin embargo, los enfoques existentes se basan en la planificación implícita en la etapa de razonamiento o introducen planificadores explícitos sin abordar sistemáticamente cómo optimizar la etapa de planificación. Como evidencia, observamos que bajo el aprendizaje por refuerzo (RL) básico, los tokens de planificación exhiben una entropía significativamente mayor que otros tokens de acción, lo que revela puntos de decisión inciertos que permanecen suboptimizados. Para abordar esto, proponemos DeepPlanner, un marco de RL de extremo a extremo que mejora efectivamente las capacidades de planificación de los agentes de investigación profunda. Nuestro enfoque da forma a la ventaja a nivel de token con un término basado en entropía para asignar actualizaciones más grandes a tokens de alta entropía y aumenta selectivamente las ventajas a nivel de muestra para implementaciones que requieren una planificación intensiva. Amplios experimentos en siete puntos de referencia de investigación profunda demuestran que DeepPlanner mejora la calidad de la planificación y logra resultados de vanguardia con un presupuesto de capacitación sustancialmente menor.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje de refuerzo consciente de la evaluación

Avanzando en el conocimiento del enrutamiento en los circuitos integrados analógicos

EmboMatrix: un campo de entrenamiento escalable para la toma de decisiones incorporada

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido