Resumen: Los avances recientes en el modelado del lenguaje y el habla han permitido construir asistentes de voz autónomos que entiendan y generen el diálogo humano en tiempo real. Estos sistemas se implementan cada vez más en dominios como el servicio al cliente y la atención de la salud, donde pueden automatizar tareas repetitivas, reducir los costos operativos y proporcionar soporte constante durante todo el día. En este artículo, presentamos una metodología general para clonar un agente de IA de voz conversacional de un corpus de grabaciones de llamadas. Aunque el estudio de caso descrito en este documento utiliza datos de telesales para ilustrar el enfoque, el proceso subyacente se generaliza a cualquier dominio donde hay transcripciones de llamadas disponibles. Nuestro sistema escucha a los clientes por teléfono, responde con una voz sintética y sigue un libro de jugadas estructurado aprendido de los agentes humanos de mejor rendimiento. Describimos la selección de dominio, la extracción de conocimiento y la ingeniería rápida utilizada para construir el agente, integrando el reconocimiento automático de voz, un administrador de diálogo basado en el modelo de lenguaje y la síntesis de texto a voz en una tubería de inferencia de transmisión. El agente clonado se evalúa contra los agentes humanos en una rúbrica de 22 criterios que cubren la introducción, la comunicación del producto, la unidad de ventas, el manejo de objeciones y el cierre. Las pruebas ciegas muestran que el agente de IA aborda el rendimiento humano en aspectos rutinarios de la llamada al tiempo que tiene un rendimiento inferior en la persuasión y el manejo de objeciones. Analizamos estas deficiencias y refinamos el aviso en consecuencia. El documento concluye con lecciones de diseño y vías para futuras investigaciones, incluida la simulación a gran escala y la evaluación automatizada.
Publicado Originalme en export.arxiv.org El 7 de septiembre de 2025.
Ver Fuente Original