En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aura: Agente para la comprensión, el razonamiento y el uso automatizado de herramientas en tareas impulsadas por la voz

Aura: Agente para la comprensión, el razonamiento y el uso automatizado de herramientas en tareas impulsadas por la voz

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: a pesar de los avances en las tecnologías del lenguaje y el habla, ningún sistema de código abierto permite el diálogo completo de voz a voz, múltiple giro con uso integrado de herramientas y razonamiento de agente. Introducimos aura (agente para la comprensión, razonamiento y uso automatizado de herramientas), el primer asistente nativo de código abierto, nativo de voz capaz de completar tareas complejas e impulsadas por objetivos a través de la invocación de herramientas dinámicas y la conversación de múltiples vueltas. Aura combina el peso abierto ASR, TTS y LLM en una tubería en cascada y admite herramientas como la reserva de calendario, la búsqueda de contacto, la búsqueda web y el correo electrónico. Su diseño modular permite una fácil integración de nuevas herramientas utilizando indicaciones de lenguaje natural y clases de acción. En VoiceBench, Aura obtiene un 92.75% en OpenBookqa que supera todos los sistemas de peso abierto y cerca de GPT-4O y 4.39 en Alpacaeval, competitivo con otros sistemas de peso abierto. La evaluación humana muestra el 90% del éxito de la tarea en tareas de habla compleja de múltiples vueltas.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web