En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mejora de la cadena de pensamiento para el razonamiento lógico mediante una intervención consciente de la atención

Mejora de la cadena de pensamiento para el razonamiento lógico mediante una intervención consciente de la atención

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento lógico moderno con LLM se basa principalmente en el empleo de marcos interactivos complejos que descomponen el proceso de razonamiento en subtareas resueltas a través de indicaciones cuidadosamente diseñadas o que requieren recursos externos (por ejemplo, solucionadores simbólicos) para explotar sus sólidas estructuras lógicas. Mientras que los enfoques interactivos introducen una sobrecarga adicional, los enfoques híbridos dependen de componentes externos, lo que limita su escalabilidad. Un marco no interactivo de extremo a extremo permite que surja el razonamiento dentro del propio modelo, mejorando la generalización y preservando al mismo tiempo la analizabilidad sin ningún recurso externo. En este trabajo, presentamos un marco no interactivo de extremo a extremo para tareas de razonamiento. Mostramos que la introducción de información estructural en el mensaje de unos pocos disparos activa un subconjunto de cabezas de atención cuyos patrones están alineados con los operadores de razonamiento lógico. Sobre la base de esta idea, proponemos la Intervención Atención-Aware (AAI), un método de intervención de tiempo de inferencia que vuelve a ponderar las puntuaciones de atención en cabezas seleccionadas identificadas por sus patrones lógicos. AAI ofrece una manera eficiente de dirigir el razonamiento del modelo hacia el aprovechamiento del conocimiento previo a través de la modulación de la atención. Amplios experimentos muestran que la AAI mejora el rendimiento del razonamiento lógico en diversos puntos de referencia y arquitecturas de modelos, al tiempo que incurre en una sobrecarga computacional adicional insignificante. El código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web