En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Salamander: Atribución de expresión matemática basada en Shapley y métrica para el razonamiento de la cadena de pensamiento

Salamander: Atribución de expresión matemática basada en Shapley y métrica para el razonamiento de la cadena de pensamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La provisión de cadena de pensamiento (COT) mejora la capacidad de razonamiento matemático de los modelos de idiomas grandes (LLM) a un gran margen. Sin embargo, el mecanismo subyacente a tales mejoras permanece inexplorada. En este artículo, presentamos textbf {salamander} ( textbf {s} h textbf {a} p textbf {l} ey-b textbf {a} sed textbf {m} expresión atmática textbf {a} ttribution a textbf {nd} M textbf {e} t textbf {r} ic), una metodología teóricamente fundamentada, así como una métrica de evaluación matemáticamente rigurosa para cuantificar las contribuciones a nivel de componentes en el razonamiento de pocos disparos. Concretamente, aprovechamos el valor de Shapley para la atribución de la expresión matemática y desarrollamos un algoritmo de muestreo estratificado eficiente que reduce significativamente la complejidad computacional. Además, desarrollamos el textbf {Cosp} ( textbf {c} ardinity textbf {o} f textbf {s} hAPAY textbf {p} ositives) métrico a través del análisis de covarianza. La validación integral en modelos LLM populares y diversos puntos de referencia matemáticos demuestra que la métrica de COSP dentro de nuestro marco de Salamander exhibe una correlación monotónica robusta con el rendimiento del modelo, no solo proporciona explicaciones teóricas para el éxito empírico de la cuna existente de pocas disparos, sino que también establece principios matemáticamente rigurosos para la optimización rápida de la construcción. Además, verificamos la confiabilidad de la explicación, en función de la cual unificamos las ideas de los trabajos anteriores.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web