Seguimiento de los límites de la propagación del conocimiento: cómo los LLM fallan en el razonamiento de varios pasos con conocimientos contradictorios

Resumen: Una solución común para mitigar la información desactualizada o incorrecta en los modelos de lenguaje grande (LLM) es proporcionar datos actualizados en contexto o mediante la edición de conocimientos. Sin embargo, estos métodos introducen conflictos de conocimiento cuando la actualización del conocimiento no logra sobrescribir el conocimiento paramétrico del modelo, lo que se propaga a un razonamiento defectuoso. Sin embargo, los puntos de referencia actuales para este problema se centran en gran medida sólo en actualizaciones de conocimientos individuales y en el recuerdo de hechos, sin evaluar cómo estas actualizaciones afectan el razonamiento posterior. En este trabajo, presentamos TRACK (Testing Reasoning Amid Conflicting Knowledge), un nuevo punto de referencia para estudiar cómo los LLM propagan nuevos conocimientos a través del razonamiento de varios pasos cuando entran en conflicto con el conocimiento paramétrico inicial del modelo. Abarcando tres escenarios de razonamiento intensivo (WIKI, CODE y MATH), TRACK introduce múltiples conflictos realistas para reflejar la complejidad del mundo real. Nuestros resultados en TRACK revelan que proporcionar datos actualizados a los modelos para el razonamiento puede empeorar el rendimiento en comparación con no proporcionar datos actualizados a un modelo, y que esta degradación del rendimiento se exacerba a medida que se proporcionan más datos actualizados. Mostramos que este fracaso se debe tanto a la incapacidad de integrar fielmente hechos actualizados como a un razonamiento defectuoso incluso cuando el conocimiento está integrado. TRACK proporciona un nuevo punto de referencia riguroso para medir y guiar el progreso futuro en la propagación de conocimientos contradictorios en el razonamiento de varios pasos.

Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución

Microsoft dice que la IA puede crear amenazas de “día cero” en biología

Aprender a segmentar los problemas de enrutamiento de vehículos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido