Un marco de evaluación multimodal automatizado para asistentes inteligentes móviles

Resumen: Con el rápido desarrollo de tecnologías de asistente inteligente móvil, los asistentes de IA multimodal se han convertido en interfaces esenciales para las interacciones diarias del usuario. Sin embargo, los métodos de evaluación actuales enfrentan desafíos que incluyen altos costos manuales, estándares inconsistentes y sesgo subjetivo. Este documento propone un marco de evaluación multimodal automatizado basado en grandes modelos de idiomas y colaboración de múltiples agentes. El marco emplea una arquitectura de agente de tres niveles que consiste en agentes de evaluación de interacción, agentes de verificación semántica y agentes de decisión experimentados. A través del ajuste fino supervisado en el modelo QWEN3-8B, logramos una precisión de evaluación significativa con expertos humanos. Los resultados experimentales en ocho principales agentes inteligentes demuestran la efectividad del marco al predecir la satisfacción de los usuarios e identificar los defectos de generación.

Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Razonamiento con una estrella: un conjunto de datos de heliofísica y un punto de referencia para el razonamiento científico agente

¿Es esta la cuadrícula eléctrica del futuro?

EpisTwin: una arquitectura neurosimbólica basada en gráficos de conocimiento para la IA personal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido