En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de las tablas de clasificación estáticas: validez predictiva para la evaluación de agentes LLM

Más allá de las tablas de clasificación estáticas: validez predictiva para la evaluación de agentes LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia de los agentes están creciendo rápidamente, pero ningún punto de referencia por sí solo toca más de cuatro o cinco de las dimensiones que expone la implementación. Este documento agrega la mayor inmersión coordinada de un punto de referencia de agente industrial basado en MCP hasta la fecha: catorce estudios de implementación paralelos que cubren nuevas clases de activos (incluida una extensión visual multimodal), orquestaciones alternativas, estrategias de recuperación, modos de razonamiento, optimizaciones de infraestructura y sondas de metodología de evaluación. Al consolidar esos estudios con siete puntos de referencia de agentes anteriores, sostenemos que las tablas de clasificación de puntuación agregada subestiman sistemáticamente la evaluación de los agentes desplegados. Las clasificaciones derivadas de puntuaciones agregadas no se transfieren a entornos fuera de distribución; Retrospectivas recientes de la competencia entre lo público y lo oculto proporcionan evidencia empírica directa de esta inestabilidad de rango. Proponemos configuraciones de clasificación por validez predictiva, la correlación entre el rango dentro y fuera de la muestra, en lugar de la media dentro de la muestra, e informamos un aparato de medición de doce niveles que expone las dimensiones relevantes para la implementación del colapso de HELM y sus sucesores de la era de los agentes. La posición se operacionaliza a través de tres criterios falsificables de fuera de distribución con umbrales explícitos; La evidencia existente lo respalda parcialmente, pero es demasiado escasa para confirmarlo. Cerramos con un diseño piloto prerregistrado y una visión a nivel de campo de lo que debería informar la próxima generación de puntos de referencia agentes.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web