Resumen: Proponemos Thelma (evaluación holística basada en tareas de aplicaciones de modelos de lenguaje grande), un marco libre de referencia para aplicaciones de contestadores de preguntas (QA) basados en RAG (recuperación de generación aumentada). Thelma consiste en seis métricas interdependientes diseñadas específicamente para una evaluación holística de grano fino de aplicaciones de control de calidad. Thelma Framework ayuda a los desarrolladores y propietarios de aplicaciones a evaluar, monitorear y mejorar las tuberías de control de calidad de trapo de extremo a extremo sin requerir fuentes o referencia etiquetadas esta url http También presenten nuestros hallazgos sobre la interacción de las métricas de Thelma propuestas, que pueden interpretarse para identificar el componente de RAG específico que necesita una mejora en las aplicaciones de control de calidad.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original