Más allá de los fundamentos fácticos: el caso de la generación aumentada de recuperación consciente de la opinión

Resumen: Los sistemas RAG han transformado la forma en que los LLM acceden al conocimiento externo, pero encontramos que las implementaciones actuales exhiben un sesgo hacia el contenido objetivo y fáctico, como lo demuestran los puntos de referencia y conjuntos de datos existentes que priorizan la recuperación objetiva. Este sesgo fáctico (tratar opiniones y perspectivas diversas como ruido en lugar de información a sintetizar) limita los sistemas RAG en escenarios del mundo real que involucran contenido subjetivo, desde discusiones en redes sociales hasta reseñas de productos. Más allá de las limitaciones técnicas, este sesgo plantea riesgos para una IA transparente y responsable: efectos de cámara de eco que amplifican los puntos de vista dominantes, subrepresentación sistemática de las voces minoritarias y posible manipulación de la opinión mediante una síntesis de información sesgada. Formalizamos esta limitación a través de la lente de la incertidumbre: las consultas fácticas implican una incertidumbre epistémica reducible a través de la evidencia, mientras que las consultas de opinión implican una incertidumbre aleatoria que refleja una heterogeneidad genuina en las perspectivas humanas. Esta distinción implica que el RAG factual debería minimizar la entropía posterior, mientras que el RAG consciente de la opinión debe preservarla. Sobre la base de esta base teórica, presentamos una arquitectura RAG basada en opiniones que presenta extracción de opiniones basada en LLM, gráficos de opinión vinculados a entidades e indexación de documentos enriquecidos con opiniones. Evaluamos nuestro enfoque sobre los datos del foro de vendedores de comercio electrónico, comparando una base de conocimientos enriquecida con opiniones con una base de referencia tradicional. Los experimentos demuestran mejoras sustanciales en la diversidad de recuperación: +26,8 % de diversidad de sentimientos, +42,7 % de tasa de coincidencia de entidades y +31,6 % de cobertura demográfica del autor en documentos con coincidencias de entidades. Nuestros resultados proporcionan evidencia empírica de que tratar la subjetividad como un ciudadano de primera clase produce una recuperación considerablemente más representativa: un primer paso hacia un RAG consciente de la opinión. El trabajo futuro incluye la optimización conjunta de la recuperación y la generación para lograr fidelidad distributiva.

Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Planificación de medicación personalizada mediante modelado de dominio directo y heurística generada por LLM

Mente Prometheus: adaptación de la memoria a modelos de lenguaje congelados

3 cosas en las que se encuentra James O’Donnell ahora mismo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido