Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

Resumen: Los modelos de lenguaje grande (LLM) han mejorado recientemente el razonamiento matemático a través del aprendizaje por refuerzo con recompensa verificable (RLVR). Sin embargo, los algoritmos RLVR existentes requieren grandes presupuestos de consulta, lo que hace que la anotación sea costosa.

Leer más →

Comentarios desactivados en Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

SYMPHONY: Planificación sinérgica de múltiples agentes con ensamblaje de modelos de lenguaje heterogéneo

Resumen: Los avances recientes se han centrado cada vez más en aprovechar modelos de lenguajes grandes (LLM) para construir agentes autónomos para tareas complejas de resolución de problemas. Sin embargo, los enfoques existentes emplean predominantemente un marco de agente único para generar ramas de búsqueda y estimar recompensas durante la planificación de Monte Carlo Tree Search (MCTS).

Leer más →

Comentarios desactivados en SYMPHONY: Planificación sinérgica de múltiples agentes con ensamblaje de modelos de lenguaje heterogéneo

Fin del contenido

No hay más páginas por cargar