Sobre la brecha de generalización en la planificación de LLM: pruebas y RL de recompensa por el verificador

Resumen:Trabajos recientes muestran que los modelos de lenguaje grande (LLM) ajustados pueden lograr altas tasas de planificación válidas en tareas de planificación PDDL. Sin embargo, aún no está claro si esto refleja una competencia de planificación transferible o una memorización de un dominio específico. En este trabajo, ajustamos un LLM de 1,7B de parámetros en 40.000 tuplas de plan de problema de dominio de 10 dominios de IPC 2023 y evaluamos la generalización tanto en el dominio como entre dominios. Si bien el modelo alcanza una tasa de plan válida del 82,9 % en condiciones de dominio, alcanza el 0 % en dos dominios invisibles. Para analizar esta falla, introducimos tres intervenciones de diagnóstico, a saber, (i) anonimización de símbolos por instancia, (ii) serialización del plan compacto y (iii) ajuste fino de la recompensa del verificador utilizando el validador VAL como una señal de refuerzo centrada en el éxito. La anonimización de símbolos y la serialización compacta provocan caídas significativas en el rendimiento a pesar de preservar la semántica del plan, lo que revela una fuerte sensibilidad a las representaciones superficiales. El ajuste fino de la recompensa del verificador alcanza la saturación del rendimiento en la mitad de las épocas de entrenamiento supervisadas, pero no mejora la generalización entre dominios. Para las configuraciones exploradas, el rendimiento en el dominio se estabiliza alrededor del 80%, mientras que el rendimiento entre dominios colapsa, lo que sugiere que nuestro modelo ajustado depende en gran medida de patrones específicos de dominio en lugar de competencia de planificación transferible en este entorno. Nuestros resultados resaltan una brecha de generalización persistente en la planificación basada en LLM y proporcionan herramientas de diagnóstico para estudiar sus causas.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: Talking Dirty With Deepseek y los riesgos y las recompensas de la restricción de calorías

Alimentando la IA perfecta a escala

Craft-Gui: agente reforzado con el plan de estudios para tareas de GUI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido