Mitigar los sesgos de LLM hacia contextos sociales espurios mediante la optimización de preferencias directas

Resumen: Los LLM se utilizan cada vez más para la toma de decisiones de alto riesgo, sin embargo, su sensibilidad a la información contextual espuria puede introducir sesgos dañinos. Esta es una preocupación crítica cuando se implementan modelos para tareas como evaluar la calidad de la instrucción de los docentes, donde la evaluación sesgada puede afectar el desarrollo profesional y las trayectorias profesionales de los docentes. Investigamos la solidez del modelo ante contextos sociales falsos utilizando el conjunto de datos más grande disponible públicamente de expedientes académicos de aula (NCTE) de EE. UU. junto con puntuaciones de rúbricas de expertos. Al evaluar siete modelos de frontera y de ponderación abierta en siete categorías de contextos espurios, incluida la experiencia de los docentes, el nivel educativo, la identidad demográfica y los marcos que inducen a la adulación, encontramos que la información contextual irrelevante puede cambiar las predicciones del modelo hasta en 1,48 puntos en una escala de 7 puntos, y los modelos más grandes a veces muestran una mayor sensibilidad a pesar de una mayor precisión predictiva. Las mitigaciones que utilizan avisos y optimización de preferencias directas (DPO) estándar resultan en gran medida insuficientes. Proponemos **Debiasing-DPO**, un método de entrenamiento autosupervisado que combina el razonamiento neutral generado solo a partir de la consulta, con el razonamiento sesgado del modelo generado tanto con la consulta como con el contexto espurio adicional. Además, combinamos este objetivo con un ajuste fino supervisado de las etiquetas de verdad sobre el terreno para evitar pérdidas en la precisión predictiva. Aplicado a los modelos Llama 3B & 8B y Qwen 3B & 7B Instruct, Debiasing-DPO reduce el sesgo en un 84% y mejora la precisión predictiva en un 52% en promedio. Nuestros hallazgos del estudio de caso educativo resaltan que la solidez ante un contexto espurio no es un subproducto natural del escalamiento del modelo y que nuestro método propuesto puede generar ganancias sustanciales tanto en precisión como en solidez para tareas de predicción basadas en indicaciones.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Redefiniendo la ingeniería de datos en la era de la IA

Los condenados por la IA no se dejan intimidar

La descarga: una conversación con Karen Hao, ¿y cómo comenzó la vida?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido