Ilusiones de reflexión: una tarea abierta revela fallas sistemáticas en el razonamiento reflexivo de los modelos de lenguaje grande

Resumen: Los seres humanos no sólo encuentran errores después del hecho: a menudo los detectamos a mitad de camino porque la “reflexión” está ligada al objetivo y sus limitaciones. Los grandes modelos de lenguaje actuales producen tokens de razonamiento y textos “reflexivos”, pero ¿es funcionalmente equivalente al razonamiento reflexivo humano? El trabajo previo en tareas cerradas, con señales claras y externas de “corrección”, puede hacer que la “reflexión” parezca efectiva al tiempo que enmascara los límites de la autocorrección. Por lo tanto, probamos ocho modelos de frontera en una tarea simple del mundo real, abierta pero restringida por reglas, con criterios de éxito auditables: producir elementos de prueba científicos válidos y luego revisarlos después de considerar su propia crítica. El rendimiento del primer paso es deficiente (a menudo se requieren cero elementos válidos de los 4; media $aproximadamente$ 1) y la reflexión produce solo ganancias modestas (también $aproximadamente$ 1). Fundamentalmente, el segundo intento repite con frecuencia la misma violación de la restricción, lo que indica que las “ganancias correctivas” surgen en gran medida de la producción casual de un artículo válido en lugar de la detección de errores y una reparación basada en principios y sensible a las restricciones. El rendimiento antes y después de la reflexión se deteriora a medida que aumenta la flexibilidad y los modelos comercializados para el “razonamiento” no muestran ninguna ventaja. Nuestros resultados sugieren que la ‘reflexión’ actual del LLM carece de evidencia funcional del monitoreo activo impulsado por objetivos que ayuda a los humanos a respetar las limitaciones incluso en una primera pasada. Hasta que tales mecanismos sean instanciados en el modelo mismo, un desempeño confiable requiere una estructura externa que imponga restricciones.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un gemelo digital colaborativo basado en datos justos e infraestructura de cálculo

Comprensión del razonamiento financiero en la IA: un enfoque multimodal de referencia y aprendizaje de errores

Remor: Generación automatizada de revisión por pares con razonamiento LLM y aprendizaje de refuerzo de objetivos múltiples

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido