En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Límites de carga cognitiva en modelos de idiomas grandes: razonamiento de múltiples saltos de evaluación comparativa

Límites de carga cognitiva en modelos de idiomas grandes: razonamiento de múltiples saltos de evaluación comparativa

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La escala de modelos de lenguaje grande (LLMS) ha expuesto una brecha crítica entre su rendimiento en puntos de referencia estáticos y su fragilidad en entornos dinámicos ricos en información. Mientras que los modelos se destacan en tareas aisladas, los límites computacionales que rigen su razonamiento bajo la carga cognitiva siguen siendo poco conocidos. En este trabajo, presentamos una teoría formal de la carga cognitiva computacional, lo que postula que la información extraña e irrelevante (saturación de contexto) y la interferencia de la conmutación de tareas (residuos atencionales) son mecanismos clave que degradan el rendimiento. Diseñamos la evaluación cognitiva entrelazada (ICE), un punto de referencia desconfiado para manipular sistemáticamente estos factores de carga en tareas desafiantes de razonamiento de múltiples saltos. Un estudio exhaustivo (n = 10 réplicas por ítem en 200 preguntas) reveló variaciones de rendimiento significativas en cinco modelos ajustados a la instrucción. Las arquitecturas de código abierto más pequeñas (Llama-3-8b-Instructo, Mistral-7B-Instructo-V0.2) exhibieron la fragilidad basal, logrando una precisión del 0% (SEM = 0.0) en todas las condiciones, incluidos los controles limpios, en esta tarea de alta carga de infinsic. En contraste, Gemini-2.0-Flash-001 mostró una resiliencia parcial, logrando una precisión del 85 % en las condiciones de control, con una degradación estadísticamente significativa bajo saturación de contexto ($ beta = -0.003 $ por % de carga, $ p <0.001 $). Estos hallazgos proporcionan evidencia preliminar de que la carga cognitiva es un contribuyente clave a las fallas de razonamiento, que respalda las teorías de la alucinación como la consideración bajo incertidumbre. Llegamos a la conclusión de que las pruebas de tensión dinámicas y conscientes de cognitivos, como lo demuestran el punto de referencia de hielo, es esencial para evaluar la verdadera resistencia y seguridad de los sistemas AI avanzados.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web