Resumen: Los avances recientes en la IA conversacional han sido sustanciales, pero el desarrollo de sistemas en tiempo real para la orientación de tareas perceptivas sigue siendo desafiante. Estos sistemas deben proporcionar asistencia interactiva y proactiva basada en la transmisión de entradas visuales, sin embargo, su desarrollo está limitado por el proceso costoso e laboral de recopilación de datos y evaluación del sistema. Para abordar estas limitaciones, presentamos un marco integral con tres contribuciones clave. Primero, presentamos una nueva tubería de curación de datos que sintetiza los diálogos de videos egocéntricos anotados, lo que resulta en DataSet, un conjunto de datos de diálogo sintético a gran escala que abarca múltiples dominios. En segundo lugar, desarrollamos un conjunto de métricas de evaluación automática, validadas a través de extensos estudios en humanos. En tercer lugar, proponemos un modelo de extremo a extremo que procesa las entradas de video para generar respuestas contextualmente apropiadas, incorporando técnicas novedosas para manejar el desequilibrio de datos y los videos de larga duración. Este trabajo sienta las bases para desarrollar asistentes de IA proactivos en tiempo real capaces de guiar a los usuarios a través de diversas tareas. Página del proyecto: esta URL HTTPS
Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original