Resumen: Los conjuntos de datos matemáticos y lógicos de alta calidad con respuestas verificables son esenciales para fortalecer las capacidades de razonamiento de los modelos de idiomas grandes (LLM). Si bien las técnicas recientes de aumento de datos han facilitado la creación de puntos de referencia a gran escala, los conjuntos de datos generados por LLM existentes a menudo sufren una confiabilidad, diversidad y escalabilidad limitadas. Para abordar estos desafíos, presentamos Puzzleclone, un marco formal para sintetizar datos verificables a escala utilizando teorías de módulos de satisfacción (SMT). Nuestro enfoque presenta tres innovaciones clave: (1) codificar rompecabezas de semillas en especificaciones lógicas estructuradas, (2) generar variantes escalables a través de la aleatorización sistemática de variables y restricciones, y (3) garantizar la validez a través de un mecanismo de reproducción. Aplicando Puzzleclone, construimos un punto de referencia curado que comprende más de 83k rompecabezas diversos y validados programáticamente. Los rompecabezas generados abarcan un amplio espectro de dificultad y formatos, lo que plantea desafíos significativos para los modelos actuales de vanguardia. Llevamos a cabo la capacitación posterior (SFT y RL) en conjuntos de datos Puzzleclone. Los resultados experimentales muestran que el entrenamiento en Puzzleclone produce mejoras sustanciales no solo en Puzzleclone TestSet sino también en puntos de referencia lógicos y matemáticos. El entrenamiento posterior a la capacitación eleva el promedio de Puzzleclone de 14.4 a 56.2 y ofrece mejoras consistentes en 7 puntos de referencia lógicos y matemáticos de hasta 12.5 puntos porcentuales absolutos (AMC2023 de 52.5 a 65.0). Nuestro código y datos están disponibles en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original