En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SLR: un marco de síntesis automatizado para un razonamiento lógico escalable

SLR: un marco de síntesis automatizado para un razonamiento lógico escalable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos SLR, un marco de extremo a extremo para la evaluación sistemática y la capacitación de modelos de idiomas grandes (LLM) a través del razonamiento lógico escalable. Dada la especificación de tareas de un usuario, SLR permite una síntesis escalable y automatizada de tareas de razonamiento inductivo con dificultad controlada con precisión. Para cada tarea, SLR sintetiza (i) una regla latente de verdad terrestre, (ii) un programa de validación ejecutable utilizado por un juez simbólico para verificar deterministas los resultados del modelo y (iii) un indicador de instrucciones para la tarea de razonamiento. Usando SLR, creamos SLR Bench, un punto de referencia que comprende más de 19k indicaciones que abarcan 20 niveles curriculares que aumentan progresivamente en la complejidad relacional, aritmética y recursiva. La evaluación a gran escala revela que los LLM contemporáneos producen reglas sintácticamente válidas, pero a menudo fallan en la inferencia lógica correcta. Los LLM de razonamiento reciente funcionan algo mejor, pero incurren en aumentos sustanciales en el cálculo de tiempo de prueba, a veces superando los tokens de finalización de 15k. Finalmente, el ajuste de la lógica a través de SLR Doubles Llama-3-8B precisión en el banco SLR, logrando la paridad con el pensamiento de Gemini-Flash a una fracción de costo computacional. La SLR está completamente automatizada, no requiere anotación humana, garantiza la novedad del conjunto de datos y ofrece un entorno escalable para sondear y avanzar en las capacidades de razonamiento de LLMS.

Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web