Thelma: Evaluación holística basada en tareas de aplicaciones de modelos de lenguaje grande RAG RAG Respuesta

Resumen: Proponemos Thelma (evaluación holística basada en tareas de aplicaciones de modelos de lenguaje grande), un marco libre de referencia para aplicaciones de contestadores de preguntas (QA) basados en RAG (recuperación de generación aumentada). Thelma consiste en seis métricas interdependientes diseñadas específicamente para una evaluación holística de grano fino de aplicaciones de control de calidad. Thelma Framework ayuda a los desarrolladores y propietarios de aplicaciones a evaluar, monitorear y mejorar las tuberías de control de calidad de trapo de extremo a extremo sin requerir fuentes o referencia etiquetadas esta url http También presenten nuestros hallazgos sobre la interacción de las métricas de Thelma propuestas, que pueden interpretarse para identificar el componente de RAG específico que necesita una mejora en las aplicaciones de control de calidad.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

JudgeSQL: razonamiento sobre candidatos de SQL con torneo de consenso ponderado

Fol-Pretrain: un corpus anotado de complejidad de la lógica de primer orden

Una física estadística del razonamiento del modelo de idioma

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido