Resumen:Presentamos EncouRAGe, un marco integral de Python diseñado para agilizar el desarrollo y la evaluación de sistemas de generación aumentada de recuperación (RAG) utilizando modelos de lenguaje grandes (LLM) y modelos de incrustación. EncouRAGe consta de cinco componentes modulares y extensibles: Type Manifest, RAG Factory, Inference, Vector Store y Metrics, lo que facilita la experimentación flexible y el desarrollo extensible. El marco enfatiza la reproducibilidad científica, diversas métricas de evaluación y la implementación local, lo que permite a los investigadores evaluar de manera eficiente conjuntos de datos dentro de los flujos de trabajo de RAG. Este documento presenta detalles de implementación y una evaluación exhaustiva de múltiples conjuntos de datos de referencia, incluidos 25.000 pares de control de calidad y más de 51.000 documentos. Nuestros resultados muestran que RAG aún tiene un rendimiento inferior al de Oracle Context, mientras que Hybrid BM25 logra consistentemente los mejores resultados en los cuatro conjuntos de datos. Examinamos más a fondo los efectos de la reclasificación, observando solo mejoras marginales en el rendimiento acompañadas de una mayor latencia de respuesta.
Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original
