SLR: un marco de síntesis automatizado para un razonamiento lógico escalable

Resumen: Introducimos SLR, un marco de extremo a extremo para la evaluación sistemática y la capacitación de modelos de idiomas grandes (LLM) a través del razonamiento lógico escalable. Dada la especificación de tareas de un usuario, SLR permite una síntesis escalable y automatizada de tareas de razonamiento inductivo con dificultad controlada con precisión. Para cada tarea, SLR sintetiza (i) una regla latente de verdad terrestre, (ii) un programa de validación ejecutable utilizado por un juez simbólico para verificar deterministas los resultados del modelo y (iii) un indicador de instrucciones para la tarea de razonamiento. Usando SLR, creamos SLR Bench, un punto de referencia que comprende más de 19k indicaciones que abarcan 20 niveles curriculares que aumentan progresivamente en la complejidad relacional, aritmética y recursiva. La evaluación a gran escala revela que los LLM contemporáneos producen reglas sintácticamente válidas, pero a menudo fallan en la inferencia lógica correcta. Los LLM de razonamiento reciente funcionan algo mejor, pero incurren en aumentos sustanciales en el cálculo de tiempo de prueba, a veces superando los tokens de finalización de 15k. Finalmente, el ajuste de la lógica a través de SLR Doubles Llama-3-8B precisión en el banco SLR, logrando la paridad con el pensamiento de Gemini-Flash a una fracción de costo computacional. La SLR está completamente automatizada, no requiere anotación humana, garantiza la novedad del conjunto de datos y ofrece un entorno escalable para sondear y avanzar en las capacidades de razonamiento de LLMS.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Orquestación del agente consciente de la dificultad en flujos de trabajo alimentados por LLM

Knarsack: enseñando razonadores algorítmicos neuronales para resolver problemas pseudopolinomiales

GPT-5 está aquí. ¿Ahora que?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido