Sesgo de atribución en modelos de lenguaje grandes

Resumen: A medida que los modelos de lenguaje grande (LLM) se utilizan cada vez más para respaldar la búsqueda y la recuperación de información, es fundamental que atribuyan con precisión el contenido a sus autores originales. En este trabajo, presentamos AttriBench, el primer conjunto de datos de referencia de atribución de cotizaciones equilibrado demográfica y de fama. Al equilibrar explícitamente la fama del autor y la demografía, AttriBench permite una investigación controlada del sesgo demográfico en la atribución de citas. Utilizando este conjunto de datos, evaluamos 11 LLM ampliamente utilizados en diferentes configuraciones de mensajes y descubrimos que la atribución de cotizaciones sigue siendo una tarea desafiante incluso para los modelos de frontera. Observamos disparidades grandes y sistemáticas en la precisión de la atribución entre raza, género y grupos interseccionales. Además, presentamos e investigamos la supresión, un modo de falla distinto en el que los modelos omiten la atribución por completo, incluso cuando el modelo tiene acceso a la información de autoría. Encontramos que la supresión es generalizada y distribuida de manera desigual entre los grupos demográficos, lo que revela sesgos sistemáticos que no captan las métricas de precisión estándar. Nuestros resultados posicionan la atribución de citas como un punto de referencia para la equidad de representación en los LLM.

Publicado originalmente en export.arxiv.org el 7 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco analítico para mejorar la percepción de los vehículos autónomos en las ciudades inteligentes

Topología del razonamiento: Comprender los grandes modelos de razonamiento a través de propiedades de gráficos de razonamiento

BIRD-INTERACT: Reimaginación de la evaluación de texto a SQL para modelos de lenguaje grandes a través de lentes de interacciones dinámicas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido