En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RIFT: Instrucción reordenada siguiendo el banco de pruebas para evaluar el seguimiento de instrucciones en estructuras de indicaciones de varios pasos singulares

RIFT: Instrucción reordenada siguiendo el banco de pruebas para evaluar el seguimiento de instrucciones en estructuras de indicaciones de varios pasos singulares

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) se utilizan cada vez más para flujos de trabajo complejos, pero su capacidad para mantener el flujo de instrucciones sigue estando poco explorada. Los puntos de referencia existentes combinan la complejidad de las tareas con el orden estructural, lo que dificulta aislar el impacto de la topología rápida en el rendimiento. Presentamos RIFT, banco de pruebas de seguimiento de instrucciones reordenadas, para evaluar el seguimiento de instrucciones desenredando la estructura del contenido. Usando Jeopardy reformulado! pares de preguntas y respuestas, probamos los LLM en dos estructuras de indicaciones: indicaciones lineales, que progresan secuencialmente, y indicaciones de salto, que conservan contenido idéntico pero requieren un recorrido no secuencial. En 10.000 evaluaciones que abarcan seis LLM de código abierto de última generación, la precisión se redujo hasta un 72 % en condiciones de salto (en comparación con la línea de base), lo que revela una fuerte dependencia de la continuidad posicional. El análisis de errores muestra que aproximadamente el 50% de las fallas se derivan de violaciones del orden de las instrucciones y deriva semántica, lo que indica que las arquitecturas actuales internalizan el seguimiento de instrucciones como un patrón secuencial en lugar de una habilidad de razonamiento. Estos resultados revelan que la sensibilidad estructural es una limitación fundamental en las arquitecturas actuales, con implicaciones directas para aplicaciones que requieren un flujo de control no secuencial, como la automatización del flujo de trabajo y los sistemas multiagente.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web