En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Puzzleclone: ​​un marco con SMT para sintetizar datos verificables

Puzzleclone: ​​un marco con SMT para sintetizar datos verificables

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los conjuntos de datos matemáticos y lógicos de alta calidad con respuestas verificables son esenciales para fortalecer las capacidades de razonamiento de los modelos de idiomas grandes (LLM). Si bien las técnicas recientes de aumento de datos han facilitado la creación de puntos de referencia a gran escala, los conjuntos de datos generados por LLM existentes a menudo sufren una confiabilidad, diversidad y escalabilidad limitadas. Para abordar estos desafíos, presentamos Puzzleclone, un marco formal para sintetizar datos verificables a escala utilizando teorías de módulos de satisfacción (SMT). Nuestro enfoque presenta tres innovaciones clave: (1) codificar rompecabezas de semillas en especificaciones lógicas estructuradas, (2) generar variantes escalables a través de la aleatorización sistemática de variables y restricciones, y (3) garantizar la validez a través de un mecanismo de reproducción. Aplicando Puzzleclone, construimos un punto de referencia curado que comprende más de 83k rompecabezas diversos y validados programáticamente. Los rompecabezas generados abarcan un amplio espectro de dificultad y formatos, lo que plantea desafíos significativos para los modelos actuales de vanguardia. Llevamos a cabo la capacitación posterior (SFT y RL) en conjuntos de datos Puzzleclone. Los resultados experimentales muestran que el entrenamiento en Puzzleclone produce mejoras sustanciales no solo en Puzzleclone TestSet sino también en puntos de referencia lógicos y matemáticos. El entrenamiento posterior a la capacitación eleva el promedio de Puzzleclone de 14.4 a 56.2 y ofrece mejoras consistentes en 7 puntos de referencia lógicos y matemáticos de hasta 12.5 puntos porcentuales absolutos (AMC2023 de 52.5 a 65.0). Nuestro código y datos están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web