Resumen: a pesar de los avances en las tecnologías del lenguaje y el habla, ningún sistema de código abierto permite el diálogo completo de voz a voz, múltiple giro con uso integrado de herramientas y razonamiento de agente. Introducimos aura (agente para la comprensión, razonamiento y uso automatizado de herramientas), el primer asistente nativo de código abierto, nativo de voz capaz de completar tareas complejas e impulsadas por objetivos a través de la invocación de herramientas dinámicas y la conversación de múltiples vueltas. Aura combina el peso abierto ASR, TTS y LLM en una tubería en cascada y admite herramientas como la reserva de calendario, la búsqueda de contacto, la búsqueda web y el correo electrónico. Su diseño modular permite una fácil integración de nuevas herramientas utilizando indicaciones de lenguaje natural y clases de acción. En VoiceBench, Aura obtiene un 92.75% en OpenBookqa que supera todos los sistemas de peso abierto y cerca de GPT-4O y 4.39 en Alpacaeval, competitivo con otros sistemas de peso abierto. La evaluación humana muestra el 90% del éxito de la tarea en tareas de habla compleja de múltiples vueltas.
Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original