Robustez de la longitud del contexto en los modelos de respuesta a preguntas: un estudio empírico comparativo

Resumen: Evaluamos la precisión del modelo en función de la longitud total del contexto aumentando sistemáticamente la cantidad de contexto irrelevante mientras preservamos la señal portadora de respuesta. Esto nos permite aislar el efecto de la longitud del contexto de los cambios en la dificultad de la tarea. Nuestros resultados muestran una degradación constante en el rendimiento a medida que aumenta la longitud del contexto, observándose caídas sustancialmente mayores en tareas de razonamiento de múltiples saltos en comparación con las tareas de extracción de un solo tramo. En particular, HotpotQA exhibe casi el doble de degradación de la precisión que SQuAD en expansiones de contexto equivalentes.
Estos hallazgos resaltan las diferencias en la solidez que dependen de la tarea y sugieren que el razonamiento de múltiples saltos es especialmente vulnerable a la dilución del contexto. Sostenemos que la robustez de la longitud del contexto debe evaluarse explícitamente al evaluar la confiabilidad del modelo, especialmente para aplicaciones que involucran documentos largos o generación de recuperación aumentada.

Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Por qué Estados Unidos y Europa podrían perder la carrera por la energía de la fusión

Uniendo el razonamiento con el aprendizaje: desenmascarando ilusiones utilizando la complejidad fuera de la generalización de la distribución

GeMM-GAN: un modelo generativo multimodal condicionado a imágenes histopatológicas y descripciones clínicas para la generación de perfiles de expresión genética

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido