Resumen: El aumento de los modelos de lenguaje grande (LLMS) ha impulsado el progreso en las tareas de razonamiento, desde la síntesis del programa hasta la generación de hipótesis científica, sin embargo, su capacidad para manejar las preferencias clasificadas y los algoritmos estructurados en los dominios combinatorios no se aplican. Estudiamos los mercados coincidentes, un marco central detrás de aplicaciones como la asignación de recursos y el viaje compartido, que requieren conciliar las preferencias clasificadas para garantizar resultados estables. Evaluamos varios modelos de vanguardia en una jerarquía de tareas de razonamiento basadas en preferencias, que van desde la generación de combate estable hasta la detección de inestabilidad, la resolución de inestabilidad y las consultas de preferencias de grano fino, para exponer sistemáticamente sus limitaciones lógicas y algorítmicas en las entradas clasificadas por manejo. Sorprendentemente, incluso los modelos de alto rendimiento con una lucha de razonamiento avanzado para resolver la inestabilidad en grandes mercados, a menudo no identificar pares de bloqueo o ejecutar algoritmos de forma iterativa. Además, mostramos que el ajuste fino (LORA) eficiente en los parámetros mejora significativamente el rendimiento en pequeños mercados, pero no puede lograr una mejora similar en grandes casos, lo que sugiere la necesidad de estrategias más sofisticadas para mejorar el razonamiento de LLMS con entradas de contexto más grandes.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original