Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) aumentados con capacidades de razonamiento de múltiples pasos y generación de acciones se han mostrado prometedores a la hora de aprovechar herramientas externas para abordar tareas complejas que requieren una planificación a largo plazo. Sin embargo, los enfoques existentes se basan en la planificación implícita en la etapa de razonamiento o introducen planificadores explícitos sin abordar sistemáticamente cómo optimizar la etapa de planificación. Como evidencia, observamos que bajo el aprendizaje por refuerzo (RL) básico, los tokens de planificación exhiben una entropía significativamente mayor que otros tokens de acción, lo que revela puntos de decisión inciertos que permanecen suboptimizados. Para abordar esto, proponemos DeepPlanner, un marco de RL de extremo a extremo que mejora efectivamente las capacidades de planificación de los agentes de investigación profunda. Nuestro enfoque da forma a la ventaja a nivel de token con un término basado en entropía para asignar actualizaciones más grandes a tokens de alta entropía y aumenta selectivamente las ventajas a nivel de muestra para implementaciones que requieren una planificación intensiva. Amplios experimentos en siete puntos de referencia de investigación profunda demuestran que DeepPlanner mejora la calidad de la planificación y logra resultados de vanguardia con un presupuesto de capacitación sustancialmente menor.
Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original
