Salamander: Atribución de expresión matemática basada en Shapley y métrica para el razonamiento de la cadena de pensamiento

Resumen: La provisión de cadena de pensamiento (COT) mejora la capacidad de razonamiento matemático de los modelos de idiomas grandes (LLM) a un gran margen. Sin embargo, el mecanismo subyacente a tales mejoras permanece inexplorada. En este artículo, presentamos textbf {salamander} ( textbf {s} h textbf {a} p textbf {l} ey-b textbf {a} sed textbf {m} expresión atmática textbf {a} ttribution a textbf {nd} M textbf {e} t textbf {r} ic), una metodología teóricamente fundamentada, así como una métrica de evaluación matemáticamente rigurosa para cuantificar las contribuciones a nivel de componentes en el razonamiento de pocos disparos. Concretamente, aprovechamos el valor de Shapley para la atribución de la expresión matemática y desarrollamos un algoritmo de muestreo estratificado eficiente que reduce significativamente la complejidad computacional. Además, desarrollamos el textbf {Cosp} ( textbf {c} ardinity textbf {o} f textbf {s} hAPAY textbf {p} ositives) métrico a través del análisis de covarianza. La validación integral en modelos LLM populares y diversos puntos de referencia matemáticos demuestra que la métrica de COSP dentro de nuestro marco de Salamander exhibe una correlación monotónica robusta con el rendimiento del modelo, no solo proporciona explicaciones teóricas para el éxito empírico de la cuna existente de pocas disparos, sino que también establece principios matemáticamente rigurosos para la optimización rápida de la construcción. Además, verificamos la confiabilidad de la explicación, en función de la cual unificamos las ideas de los trabajos anteriores.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

OpenEstimate: Evaluación de LLM sobre razonamiento en condiciones de incertidumbre con datos del mundo real

Kompeteai: Sistema autónomo de agente autónomo acelerado para la generación de tuberías de extremo a extremo para problemas de aprendizaje automático

FINOS lanza Fluxnova con Fidelity Investments, NatWest Group, Deutsche Bank y Capital One: una plataforma de orquestación de código abierto para escalar la automatización de procesos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido