En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Invariancia semántica en IA agente

Invariancia semántica en IA agente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) sirven cada vez más como agentes de razonamiento autónomos en el apoyo a la toma de decisiones, la resolución de problemas científicos y los sistemas de coordinación de múltiples agentes. Sin embargo, implementar agentes LLM en aplicaciones consecuentes requiere la seguridad de que su razonamiento permanezca estable bajo variaciones de entrada semánticamente equivalentes, una propiedad que denominamos semántica. esta URL http Las evaluaciones comparativas, que evalúan la precisión de formulaciones de problemas canónicos y fijos, no logran capturar esta dimensión crítica de confiabilidad. Para abordar esta deficiencia, en este artículo presentamos un marco de prueba metamórfico para evaluar sistemáticamente la solidez de los agentes de razonamiento LLM, aplicando ocho transformaciones de preservación semántica (identidad, paráfrasis, reordenamiento de hechos, expansión, contracción, contexto académico, contexto empresarial y formulación contrastiva) en siete modelos fundamentales que abarcan cuatro familias arquitectónicas distintas: Hermes (70B, 405B), Qwen3 (30B-A3B, 235B-A22B), DeepSeek-R1 y gpt-oss (20B, 120B). Nuestra evaluación abarca 19 problemas de razonamiento de varios pasos en ocho dominios científicos. Los resultados revelan que la escala del modelo no predice la robustez: el Qwen3-30B-A3B más pequeño logra la mayor estabilidad (79,6% de respuestas invariantes, similitud semántica 0,91), mientras que los modelos más grandes exhiben una mayor fragilidad.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web