Sigma: refinar el razonamiento del modelo de idioma grande a través del aumento de Monte Carlo guiado por hermanos

Resumen: Mejorar modelos de idiomas grandes simplemente ampliando conjuntos de datos ha comenzado a producir rendimientos decrecientes, cambiando el foco de atención a la calidad de los datos. La búsqueda de árboles de Monte Carlo (MCTS) se ha convertido en una técnica poderosa para generar datos de cadena de pensamiento de alta calidad, sin embargo, los enfoques convencionales suelen retener solo la trayectoria de puntuación superior del árbol de búsqueda, descartar nodos hermanos que a menudo contienen ideas parciales valiosas, patrones de errores recurrentes y estrategias de razonamiento alternativo. Este rechazo incondicional de las ramas de razonamiento no óptimas puede desperdiciar grandes cantidades de datos informativos en todo el árbol de búsqueda. Proponemos Sigma (Aumento de Monte Carlo guiado por hermanos), un marco novedoso que reintegra estos nodos hermanos descartados para refinar el razonamiento de LLM. Sigma forja enlaces semánticos entre los nodos hermanos a lo largo de cada ruta de búsqueda y aplica un refinamiento de dos etapas: un modelo de crítica identifica las fortalezas y debilidades pasadas por alto a través del conjunto de hermanos, y un modelo de revisión realiza la respaldo basada en texto para refinar la trayectoria de perforación superior a la luz de esta retroalimentación comparativa. Al recuperar y amplificar las señales subutilizadas pero valiosas de las ramas de razonamiento no óptimas, Sigma mejora sustancialmente las trayectorias de razonamiento. En el desafiante punto de referencia de matemáticas, nuestro modelo 7B sintonizado por sigma alcanza una precisión del 54.92% utilizando solo 30k muestras, superando a los modelos de vanguardia entrenados en muestras de 590k. Este resultado destaca que nuestra optimización guiada por hermanos no solo reduce significativamente el uso de datos, sino que también aumenta significativamente el razonamiento de LLM.

Publicado Originalme en rss.arxiv.org El 9 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

De texto a red: construyendo un gráfico de conocimiento de los estudios de China basados ​​en Taiwán utilizando IA generativa

Comprensión del mapa cartográfico de modelo multimodal grande para la georreferencia de la localidad textual

Aprendizaje de refuerzo de los comentarios de los usuarios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

De texto a red: construyendo un gráfico de conocimiento de los estudios de China basados en Taiwán utilizando IA generativa