En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Ilusiones de reflexión: una tarea abierta revela fallas sistemáticas en el razonamiento reflexivo de los modelos de lenguaje grande

Ilusiones de reflexión: una tarea abierta revela fallas sistemáticas en el razonamiento reflexivo de los modelos de lenguaje grande

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los seres humanos no sólo encuentran errores después del hecho: a menudo los detectamos a mitad de camino porque la “reflexión” está ligada al objetivo y sus limitaciones. Los grandes modelos de lenguaje actuales producen tokens de razonamiento y textos “reflexivos”, pero ¿es funcionalmente equivalente al razonamiento reflexivo humano? El trabajo previo en tareas cerradas, con señales claras y externas de “corrección”, puede hacer que la “reflexión” parezca efectiva al tiempo que enmascara los límites de la autocorrección. Por lo tanto, probamos ocho modelos de frontera en una tarea simple del mundo real, abierta pero restringida por reglas, con criterios de éxito auditables: producir elementos de prueba científicos válidos y luego revisarlos después de considerar su propia crítica. El rendimiento del primer paso es deficiente (a menudo se requieren cero elementos válidos de los 4; media $aproximadamente$ 1) y la reflexión produce solo ganancias modestas (también $aproximadamente$ 1). Fundamentalmente, el segundo intento repite con frecuencia la misma violación de la restricción, lo que indica que las “ganancias correctivas” surgen en gran medida de la producción casual de un artículo válido en lugar de la detección de errores y una reparación basada en principios y sensible a las restricciones. El rendimiento antes y después de la reflexión se deteriora a medida que aumenta la flexibilidad y los modelos comercializados para el “razonamiento” no muestran ninguna ventaja. Nuestros resultados sugieren que la ‘reflexión’ actual del LLM carece de evidencia funcional del monitoreo activo impulsado por objetivos que ayuda a los humanos a respetar las limitaciones incluso en una primera pasada. Hasta que tales mecanismos sean instanciados en el modelo mismo, un desempeño confiable requiere una estructura externa que imponga restricciones.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web