Resumen: Los agentes impulsados por LLM son a la vez una nueva tecnología prometedora y una fuente de complejidad, donde las elecciones sobre modelos, herramientas e indicaciones pueden afectar su utilidad. Si bien numerosos puntos de referencia miden la precisión de los agentes en todos los dominios, en su mayoría suponen una automatización total y no representan la naturaleza colaborativa de los casos de uso del mundo real. En este artículo, damos dos pasos importantes hacia la evaluación rigurosa de las interacciones entre humanos y agentes. En primer lugar, proponemos PULSE, un marco para una evaluación más eficiente de los diseños de agentes centrada en el ser humano, que comprende recopilar comentarios de los usuarios, entrenar un modelo de aprendizaje automático para predecir la satisfacción del usuario y calcular los resultados combinando calificaciones de satisfacción humana con pseudoetiquetas generadas por modelos. En segundo lugar, implementamos el marco en una plataforma web a gran escala construida alrededor del agente de software de código abierto OpenHands, recopilando datos de uso en tiempo real de más de 15.000 usuarios. Realizamos estudios de casos sobre cómo tres decisiones de diseño de agentes (elección de la columna vertebral de LLM, estrategia de planificación y mecanismos de memoria) impactan las tasas de satisfacción de los desarrolladores, generando conocimientos prácticos para el diseño de agentes de software. También mostramos cómo nuestro marco puede conducir a conclusiones más sólidas sobre el diseño de agentes, reduciendo los intervalos de confianza en un 40% en comparación con una prueba A/B estándar. Finalmente, encontramos discrepancias sustanciales entre los resultados reales y el desempeño de los puntos de referencia (por ejemplo, la anticorrelación entre los resultados que comparan claude-sonnet-4 y gpt-5), lo que subraya las limitaciones de la evaluación basada en puntos de referencia. Nuestros hallazgos brindan orientación para las evaluaciones de agentes LLM con humanos e identifican oportunidades para mejores diseños de agentes.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

¿Cómo podemos evaluar las interacciones humano-agente? Estudios de caso en diseño de agentes software.

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La promesa y los límites de los LLM en la construcción de pruebas y sugerencias para problemas lógicos en sistemas de tutoría inteligente

Cómo lidar mide el costo de los desastres climáticos

La demanda de electricidad de Google se está disparando

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido