RIFT: Instrucción reordenada siguiendo el banco de pruebas para evaluar el seguimiento de instrucciones en estructuras de indicaciones de varios pasos singulares

Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) se utilizan cada vez más para flujos de trabajo complejos, pero su capacidad para mantener el flujo de instrucciones sigue estando poco explorada. Los puntos de referencia existentes combinan la complejidad de las tareas con el orden estructural, lo que dificulta aislar el impacto de la topología rápida en el rendimiento. Presentamos RIFT, banco de pruebas de seguimiento de instrucciones reordenadas, para evaluar el seguimiento de instrucciones desenredando la estructura del contenido. Usando Jeopardy reformulado! pares de preguntas y respuestas, probamos los LLM en dos estructuras de indicaciones: indicaciones lineales, que progresan secuencialmente, y indicaciones de salto, que conservan contenido idéntico pero requieren un recorrido no secuencial. En 10.000 evaluaciones que abarcan seis LLM de código abierto de última generación, la precisión se redujo hasta un 72 % en condiciones de salto (en comparación con la línea de base), lo que revela una fuerte dependencia de la continuidad posicional. El análisis de errores muestra que aproximadamente el 50% de las fallas se derivan de violaciones del orden de las instrucciones y deriva semántica, lo que indica que las arquitecturas actuales internalizan el seguimiento de instrucciones como un patrón secuencial en lugar de una habilidad de razonamiento. Estos resultados revelan que la sensibilidad estructural es una limitación fundamental en las arquitecturas actuales, con implicaciones directas para aplicaciones que requieren un flujo de control no secuencial, como la automatización del flujo de trabajo y los sistemas multiagente.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Eduflow: avance de la competencia de resolución de problemas de MLLMS a través de una crítica multiperspectiva múltiple

Comprensión ambiental eficiente y generalizable para la navegación visual

ZAPGPT: Significación de lenguaje de forma libre para el control celular simulado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido