Descomposición de la autocorrección de LLM: la paradoja de la precisión-corrección y la hipótesis de la profundidad del error

Resumen: Se cree ampliamente que los modelos de lenguaje grande (LLM) poseen capacidades de autocorrección, sin embargo, estudios recientes sugieren que la autocorrección intrínseca, donde los modelos corrigen sus propios resultados sin retroalimentación externa, sigue siendo en gran medida ineficaz. En este trabajo, descomponemos sistemáticamente la autocorrección en tres subcapacidades distintas: detección de errores, localización de errores y corrección de errores. A través de experimentos entre modelos en GSM8K-Complex (n=500 por modelo, 346 errores totales) con tres LLM principales, descubrimos una sorprendente paradoja de precisión-corrección: los modelos más débiles (GPT-3.5, 66 % de precisión) logran tasas de corrección intrínseca 1,6 veces más altas que los modelos más fuertes (DeepSeek, 94 % de precisión): 26,8 % frente a 16,7 %. Proponemos la hipótesis de la profundidad del error: los modelos más fuertes cometen menos errores pero más profundos que resisten la autocorrección. Las tasas de detección de errores varían dramáticamente entre arquitecturas (10% a 82%), pero la capacidad de detección no predice el éxito de la corrección: Claude detecta solo el 10% de los errores pero corrige el 29% intrínsecamente. Sorprendentemente, proporcionar sugerencias sobre la ubicación de errores perjudica a todos los modelos. Nuestros hallazgos desafían los supuestos lineales sobre la capacidad del modelo y la automejora, con implicaciones importantes para el diseño de procesos de autorrefinamiento.

Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los centros de datos son increíbles. Todo el mundo los odia.

Evaluación automatizada en tiempo real de la IA de detección de hemorragia intracraneal utilizando un modelo de monitoreo de conjunto (EMM)

Una encuesta sobre modelos de idiomas grandes para el razonamiento matemático

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido