Generación de diálogo asistente proactivo desde la transmisión de videos egocéntricos

Resumen: Los avances recientes en la IA conversacional han sido sustanciales, pero el desarrollo de sistemas en tiempo real para la orientación de tareas perceptivas sigue siendo desafiante. Estos sistemas deben proporcionar asistencia interactiva y proactiva basada en la transmisión de entradas visuales, sin embargo, su desarrollo está limitado por el proceso costoso e laboral de recopilación de datos y evaluación del sistema. Para abordar estas limitaciones, presentamos un marco integral con tres contribuciones clave. Primero, presentamos una nueva tubería de curación de datos que sintetiza los diálogos de videos egocéntricos anotados, lo que resulta en DataSet, un conjunto de datos de diálogo sintético a gran escala que abarca múltiples dominios. En segundo lugar, desarrollamos un conjunto de métricas de evaluación automática, validadas a través de extensos estudios en humanos. En tercer lugar, proponemos un modelo de extremo a extremo que procesa las entradas de video para generar respuestas contextualmente apropiadas, incorporando técnicas novedosas para manejar el desequilibrio de datos y los videos de larga duración. Este trabajo sienta las bases para desarrollar asistentes de IA proactivos en tiempo real capaces de guiar a los usuarios a través de diversas tareas. Página del proyecto: esta URL HTTPS

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Primero pregunte, luego responda: un diseño marco para el diálogo de IA basado en preguntas complementarias con modelos de idiomas grandes

El ascenso del terapeuta de IA

Obtener valor con inferencia de IA a escala y en producción

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido