Resumen: Con el rápido desarrollo de tecnologías de asistente inteligente móvil, los asistentes de IA multimodal se han convertido en interfaces esenciales para las interacciones diarias del usuario. Sin embargo, los métodos de evaluación actuales enfrentan desafíos que incluyen altos costos manuales, estándares inconsistentes y sesgo subjetivo. Este documento propone un marco de evaluación multimodal automatizado basado en grandes modelos de idiomas y colaboración de múltiples agentes. El marco emplea una arquitectura de agente de tres niveles que consiste en agentes de evaluación de interacción, agentes de verificación semántica y agentes de decisión experimentados. A través del ajuste fino supervisado en el modelo QWEN3-8B, logramos una precisión de evaluación significativa con expertos humanos. Los resultados experimentales en ocho principales agentes inteligentes demuestran la efectividad del marco al predecir la satisfacción de los usuarios e identificar los defectos de generación.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original