Resumen: Los modelos de lenguaje grande (LLM) han mejorado recientemente el razonamiento matemático a través del aprendizaje por refuerzo con recompensa verificable (RLVR). Sin embargo, los algoritmos RLVR existentes requieren grandes presupuestos de consulta, lo que hace que la anotación sea costosa.
Leer más →
Resumen: El avance de los agentes impulsados por el modelo de lenguaje grande (LLM) ha permitido el procesamiento automatizado de tareas a través de capacidades de invocación de herramientas y razonamiento.
Leer más →
Resumen: Los avances recientes se han centrado cada vez más en aprovechar modelos de lenguajes grandes (LLM) para construir agentes autónomos para tareas complejas de resolución de problemas. Sin embargo, los enfoques existentes emplean predominantemente un marco de agente único para generar ramas de búsqueda y estimar recompensas durante la planificación de Monte Carlo Tree Search (MCTS).
Leer más →