MITS: Razonamiento de búsqueda de árbol mejorado para LLM a través de información mutua puntual

Resumen: La búsqueda de árboles se ha convertido en un marco representativo para el razonamiento de tiempo de prueba con modelos de idiomas grandes (LLM), ejemplificado por métodos como el árbol de pensamiento y la búsqueda de árboles de Monte Carlo que exploran múltiples rutas de razonamiento. Sin embargo, sigue siendo difícil proporcionar evaluaciones cuantitativas instantáneas y confiables de la calidad de los pasos de razonamiento intermedio, y la exploración de ruta extensa es computacionalmente costosa. Para abordar esto, proponemos la búsqueda de árbol de información mutua (MITS), un marco novedoso que guía el razonamiento con principios teóricos de información. MITS introduce una función de puntuación efectiva basada en la información mutua de puntos (PMI), que permite la evaluación paso a paso de las rutas de razonamiento y la expansión del árbol de búsqueda a través de la búsqueda del haz sin simulaciones más costosas de los apariencia, logrando un rendimiento de razonamiento superior mientras mantiene la eficiencia computacional. El marco se complementa con una estrategia de muestreo dinámico basada en entropía que asigna adaptativamente los recursos computacionales a pasos de razonamiento inciertos donde la exploración es más beneficiosa. Para la predicción final, MITS emplea un esquema de votación ponderado que combina las puntuaciones de PMI con consenso de predicción. A través de experimentos completos en diversos puntos de referencia de razonamiento, los MIT superan constantemente los métodos de referencia, estableciendo un marco de principios y eficientes para el razonamiento de LLM.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ContextBench: modificación de contextos para activación latente dirigida

Algunas veces el mundo no es justo: violar la equidad mediante el uso de mapas autoorganizados

DirectionControl: evaluación holística de la dirección de alineación en LLMS

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido