Resumen: Mejorar modelos de idiomas grandes simplemente ampliando conjuntos de datos ha comenzado a producir rendimientos decrecientes, cambiando el foco de atención a la calidad de los datos. La búsqueda de árboles de Monte Carlo (MCTS) se ha convertido en una técnica poderosa para generar datos de cadena de pensamiento de alta calidad, sin embargo, los enfoques convencionales suelen retener solo la trayectoria de puntuación superior del árbol de búsqueda, descartar nodos hermanos que a menudo contienen ideas parciales valiosas, patrones de errores recurrentes y estrategias de razonamiento alternativo. Este rechazo incondicional de las ramas de razonamiento no óptimas puede desperdiciar grandes cantidades de datos informativos en todo el árbol de búsqueda. Proponemos Sigma (Aumento de Monte Carlo guiado por hermanos), un marco novedoso que reintegra estos nodos hermanos descartados para refinar el razonamiento de LLM. Sigma forja enlaces semánticos entre los nodos hermanos a lo largo de cada ruta de búsqueda y aplica un refinamiento de dos etapas: un modelo de crítica identifica las fortalezas y debilidades pasadas por alto a través del conjunto de hermanos, y un modelo de revisión realiza la respaldo basada en texto para refinar la trayectoria de perforación superior a la luz de esta retroalimentación comparativa. Al recuperar y amplificar las señales subutilizadas pero valiosas de las ramas de razonamiento no óptimas, Sigma mejora sustancialmente las trayectorias de razonamiento. En el desafiante punto de referencia de matemáticas, nuestro modelo 7B sintonizado por sigma alcanza una precisión del 54.92% utilizando solo 30k muestras, superando a los modelos de vanguardia entrenados en muestras de 590k. Este resultado destaca que nuestra optimización guiada por hermanos no solo reduce significativamente el uso de datos, sino que también aumenta significativamente el razonamiento de LLM.
Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original