Resumen: Evaluamos la precisión del modelo en función de la longitud total del contexto aumentando sistemáticamente la cantidad de contexto irrelevante mientras preservamos la señal portadora de respuesta. Esto nos permite aislar el efecto de la longitud del contexto de los cambios en la dificultad de la tarea. Nuestros resultados muestran una degradación constante en el rendimiento a medida que aumenta la longitud del contexto, observándose caídas sustancialmente mayores en tareas de razonamiento de múltiples saltos en comparación con las tareas de extracción de un solo tramo. En particular, HotpotQA exhibe casi el doble de degradación de la precisión que SQuAD en expansiones de contexto equivalentes.
Estos hallazgos resaltan las diferencias en la solidez que dependen de la tarea y sugieren que el razonamiento de múltiples saltos es especialmente vulnerable a la dilución del contexto. Sostenemos que la robustez de la longitud del contexto debe evaluarse explícitamente al evaluar la confiabilidad del modelo, especialmente para aplicaciones que involucran documentos largos o generación de recuperación aumentada.
Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original
