Más allá de las tablas de clasificación estáticas: validez predictiva para la evaluación de agentes LLM

Resumen: Los puntos de referencia de los agentes están creciendo rápidamente, pero ningún punto de referencia por sí solo toca más de cuatro o cinco de las dimensiones que expone la implementación. Este documento agrega la mayor inmersión coordinada de un punto de referencia de agente industrial basado en MCP hasta la fecha: catorce estudios de implementación paralelos que cubren nuevas clases de activos (incluida una extensión visual multimodal), orquestaciones alternativas, estrategias de recuperación, modos de razonamiento, optimizaciones de infraestructura y sondas de metodología de evaluación. Al consolidar esos estudios con siete puntos de referencia de agentes anteriores, sostenemos que las tablas de clasificación de puntuación agregada subestiman sistemáticamente la evaluación de los agentes desplegados. Las clasificaciones derivadas de puntuaciones agregadas no se transfieren a entornos fuera de distribución; Retrospectivas recientes de la competencia entre lo público y lo oculto proporcionan evidencia empírica directa de esta inestabilidad de rango. Proponemos configuraciones de clasificación por validez predictiva, la correlación entre el rango dentro y fuera de la muestra, en lugar de la media dentro de la muestra, e informamos un aparato de medición de doce niveles que expone las dimensiones relevantes para la implementación del colapso de HELM y sus sucesores de la era de los agentes. La posición se operacionaliza a través de tres criterios falsificables de fuera de distribución con umbrales explícitos; La evidencia existente lo respalda parcialmente, pero es demasiado escasa para confirmarlo. Cerramos con un diseño piloto prerregistrado y una visión a nivel de campo de lo que debería informar la próxima generación de puntos de referencia agentes.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Integración de series de tiempo en LLM a través de fusión de incrustación de orientación multicapa para pronósticos mejorados

Consejo Europeo de Innovación 2026 Desafíos pioneros – Jornada informativa

REDACTOR: un marco con alimentación de LLM para la desidentificación de datos clínicos automáticos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido