Resumen:Proponemos OutboundEval, un punto de referencia integral para evaluar modelos de lenguaje grandes (LLM) en escenarios de llamadas salientes inteligentes a nivel experto. A diferencia de los métodos existentes que sufren de tres limitaciones clave (diversidad insuficiente del conjunto de datos y cobertura de categorías, simulación de usuario poco realista y métricas de evaluación inexactas), OutboundEval aborda estos problemas a través de un marco estructurado. Primero, diseñamos un punto de referencia que abarca seis dominios comerciales principales y 30 subescenarios representativos, cada uno con una descomposición de procesos específica del escenario, puntuación ponderada y métricas adaptables al dominio. En segundo lugar, desarrollamos un simulador de usuario basado en modelos grandes que genera usuarios virtuales diversos y ricos en personalidades con comportamientos realistas, variabilidad emocional y estilos de comunicación, proporcionando un entorno de prueba controlado pero auténtico. En tercer lugar, introducimos un método de evaluación dinámica que se adapta a las variaciones de las tareas, integrando una evaluación automatizada y humana para medir la precisión de la ejecución de las tareas, la aplicación del conocimiento profesional, la adaptabilidad y la calidad de la experiencia del usuario. Los experimentos en 12 LLM de última generación revelan distintas compensaciones entre la finalización de tareas a nivel experto y la fluidez en la interacción, ofreciendo información práctica para construir sistemas de IA salientes confiables y similares a los humanos. OutboundEval establece un estándar práctico, extensible y orientado al dominio para realizar evaluaciones comparativas de LLM en aplicaciones profesionales.
Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original
