En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->La complejidad inmediata diluye el razonamiento estructurado: un estudio de seguimiento sobre el problema del lavado de autos

La complejidad inmediata diluye el razonamiento estructurado: un estudio de seguimiento sobre el problema del lavado de autos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: capas de avisos adicionales. Este seguimiento pregunta: ¿STAR mantiene su efectividad en un sistema de producción puntual?
Probamos STAR dentro del mensaje de producción de más de 60 líneas de InterviewMate, que había evolucionado a través de adiciones iterativas de pautas de estilo, instrucciones de formato y perfil.
características. Tres condiciones, 20 pruebas cada una, en Claude Sonnet 4.6: (A) mensaje de producción con perfil antrópico, (B) mensaje de producción con perfil predeterminado, (C) original
Mensaje solo STAR. C obtuvo una puntuación del 100% (verificado en n=100). A y B obtuvieron 0% y 30%.
La complejidad inmediata diluye el razonamiento estructurado. STAR logra el 100 % de forma aislada, pero se degrada a 0-30 % cuando está rodeado de instrucciones competitivas. El mecanismo: directivas
como “Liderar con detalles” fuerzan la conclusión primero, invirtiendo el orden de razonar y luego concluir que hace que STAR sea efectivo. En un caso, el modelo genera “Respuesta corta:
Camina.” luego ejecutó el razonamiento STAR que identificó correctamente la restricción, demostrando que el modelo podía razonar correctamente pero ya se había comprometido con la respuesta incorrecta.
La comparación entre modelos muestra que solo STAR mejoró del 85% (Sonnet 4.5) al 100% (Sonnet 4.6) sin cambios rápidos, lo que sugiere que las actualizaciones del modelo amplifican el razonamiento estructurado.
en forma aislada.
Estos resultados implican que no se debe asumir que los marcos de razonamiento estructurados se transfieren de pruebas aisladas a entornos complejos. El orden en que un modelo
razones y conclusiones es una variable de diseño de primera clase.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web