En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->OutboundEval: un punto de referencia bidimensional para la evaluación inteligente de salida a nivel experto de la serie Professional-Aligned de Xbench

OutboundEval: un punto de referencia bidimensional para la evaluación inteligente de salida a nivel experto de la serie Professional-Aligned de Xbench

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Proponemos OutboundEval, un punto de referencia integral para evaluar modelos de lenguaje grandes (LLM) en escenarios de llamadas salientes inteligentes a nivel experto. A diferencia de los métodos existentes que sufren de tres limitaciones clave (diversidad insuficiente del conjunto de datos y cobertura de categorías, simulación de usuario poco realista y métricas de evaluación inexactas), OutboundEval aborda estos problemas a través de un marco estructurado. Primero, diseñamos un punto de referencia que abarca seis dominios comerciales principales y 30 subescenarios representativos, cada uno con una descomposición de procesos específica del escenario, puntuación ponderada y métricas adaptables al dominio. En segundo lugar, desarrollamos un simulador de usuario basado en modelos grandes que genera usuarios virtuales diversos y ricos en personalidades con comportamientos realistas, variabilidad emocional y estilos de comunicación, proporcionando un entorno de prueba controlado pero auténtico. En tercer lugar, introducimos un método de evaluación dinámica que se adapta a las variaciones de las tareas, integrando una evaluación automatizada y humana para medir la precisión de la ejecución de las tareas, la aplicación del conocimiento profesional, la adaptabilidad y la calidad de la experiencia del usuario. Los experimentos en 12 LLM de última generación revelan distintas compensaciones entre la finalización de tareas a nivel experto y la fluidez en la interacción, ofreciendo información práctica para construir sistemas de IA salientes confiables y similares a los humanos. OutboundEval establece un estándar práctico, extensible y orientado al dominio para realizar evaluaciones comparativas de LLM en aplicaciones profesionales.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web