En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de pass@1: un marco científico de confiabilidad para agentes de LLM con horizonte a largo plazo

Más allá de pass@1: un marco científico de confiabilidad para agentes de LLM con horizonte a largo plazo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: requieren confiabilidad: éxito constante en intentos repetidos en tareas de duración variable. Te mostramos estos
Las propiedades divergen sistemáticamente a medida que aumenta la duración de la tarea, y ese paso @ 1 en tareas cortas es estructuralmente ciego a
esta divergencia.
Presentamos un marco científico de confiabilidad para agentes LLM de largo plazo con cuatro métricas: Curva de caída de confiabilidad
(RDC), factor de amplificación de varianza (VAF), puntuación de degradación elegante (GDS) y punto de inicio de fusión (MOP). Nosotros
evalúe 10 modelos en 23,392 episodios en un punto de referencia de 396 tareas que abarca cuatro períodos de duración y tres dominios.
Hallazgos clave: (1) la disminución de la confiabilidad está estratificada por dominio: SE GDS cae de 0,90 a 0,44 durante el procesamiento de documentos
es casi plano (0,74 a 0,71); (2) VAF se bifurca según el nivel de capacidad: un VAF alto es una firma de capacidad, no una
señal de inestabilidad; (3) las clasificaciones de capacidad y confiabilidad divergen sustancialmente, con inversiones de múltiples rangos a largo plazo
horizontes; (4) los modelos de frontera tienen las tasas de colapso más altas (hasta el 19%) porque intentan ambiciosos procesos de múltiples pasos.
estrategias que a veces van en espiral; y (5) los andamios de memoria perjudican universalmente el rendimiento a largo plazo en los 10
modelos. Estos resultados motivan la fiabilidad como dimensión de evaluación de primera clase junto con la capacidad.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web