Medir y mitigar el sesgo de identidad en el debate entre múltiples agentes mediante la anonimización

Resumen: El debate entre agentes múltiples (MAD) tiene como objetivo mejorar el razonamiento del modelo de lenguaje grande (LLM) al permitir que múltiples agentes intercambien respuestas y luego agreguen sus opiniones. Sin embargo, estudios recientes revelan que los agentes no son neutrales: son propensos a la adulación impulsada por la identidad y al prejuicio propio, adoptando acríticamente el punto de vista de un par o adhiriéndose obstinadamente a su propia producción anterior, lo que socava la confiabilidad del debate. En este trabajo, presentamos el primer marco de principios que une la adulación y el prejuicio propio para mitigar y cuantificar el sesgo de identidad en MAD. Primero, formalizamos la dinámica del debate como un proceso de actualización bayesiano ponderado por identidad. En segundo lugar, proponemos la anonimización de la respuesta: al eliminar los marcadores de identidad de las indicaciones, los agentes no pueden distinguir “yo” de “pares”, lo que impone pesos iguales a la identidad del agente, reduciendo así el sesgo. En tercer lugar, definimos el coeficiente de sesgo de identidad (IBC), una métrica basada en principios que mide la frecuencia con la que un agente sigue a un par frente a sí mismo. Los estudios empíricos que abarcan múltiples modelos, conjuntos de datos y rondas de debate confirman que el sesgo de identidad está muy extendido, y que la adulación es mucho más común que el sesgo hacia uno mismo. Nuestros hallazgos resaltan la necesidad de “enmascarar” la identidad para garantizar que los sistemas MAD razonen basándose en el contenido y no en la identidad de la fuente. El código se publica en esta URL https.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El hombre que digitalizó la India aún no ha terminado

Comprensión del razonamiento financiero en la IA: un enfoque multimodal de referencia y aprendizaje de errores

El conductor y el motor: un camino hacia el razonamiento codiseñado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido