Sobre la brecha de generalización en la planificación de LLM: pruebas y RL de recompensa por el verificador

Resumen:Trabajos recientes muestran que los modelos de lenguaje grande (LLM) ajustados pueden lograr altas tasas de planificación válidas en tareas de planificación PDDL. Sin embargo, aún no está claro si esto refleja una competencia de planificación transferible o una memorización de un dominio específico. En este trabajo, ajustamos un LLM de 1,7B de parámetros en 40.

Leer más →

Comentarios desactivados en Sobre la brecha de generalización en la planificación de LLM: pruebas y RL de recompensa por el verificador

Fin del contenido

No hay más páginas por cargar