En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Cómo podemos evaluar las interacciones humano-agente? Estudios de caso en diseño de agentes software.

¿Cómo podemos evaluar las interacciones humano-agente? Estudios de caso en diseño de agentes software.

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes impulsados ​​por LLM son a la vez una nueva tecnología prometedora y una fuente de complejidad, donde las elecciones sobre modelos, herramientas e indicaciones pueden afectar su utilidad. Si bien numerosos puntos de referencia miden la precisión de los agentes en todos los dominios, en su mayoría suponen una automatización total y no representan la naturaleza colaborativa de los casos de uso del mundo real. En este artículo, damos dos pasos importantes hacia la evaluación rigurosa de las interacciones entre humanos y agentes. En primer lugar, proponemos PULSE, un marco para una evaluación más eficiente de los diseños de agentes centrada en el ser humano, que comprende recopilar comentarios de los usuarios, entrenar un modelo de aprendizaje automático para predecir la satisfacción del usuario y calcular los resultados combinando calificaciones de satisfacción humana con pseudoetiquetas generadas por modelos. En segundo lugar, implementamos el marco en una plataforma web a gran escala construida alrededor del agente de software de código abierto OpenHands, recopilando datos de uso en tiempo real de más de 15.000 usuarios. Realizamos estudios de casos sobre cómo tres decisiones de diseño de agentes (elección de la columna vertebral de LLM, estrategia de planificación y mecanismos de memoria) impactan las tasas de satisfacción de los desarrolladores, generando conocimientos prácticos para el diseño de agentes de software. También mostramos cómo nuestro marco puede conducir a conclusiones más sólidas sobre el diseño de agentes, reduciendo los intervalos de confianza en un 40% en comparación con una prueba A/B estándar. Finalmente, encontramos discrepancias sustanciales entre los resultados reales y el desempeño de los puntos de referencia (por ejemplo, la anticorrelación entre los resultados que comparan claude-sonnet-4 y gpt-5), lo que subraya las limitaciones de la evaluación basada en puntos de referencia. Nuestros hallazgos brindan orientación para las evaluaciones de agentes LLM con humanos e identifican oportunidades para mejores diseños de agentes.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web