Resumen: Los LLM se utilizan cada vez más para la toma de decisiones de alto riesgo, sin embargo, su sensibilidad a la información contextual espuria puede introducir sesgos dañinos. Esta es una preocupación crítica cuando se implementan modelos para tareas como evaluar la calidad de la instrucción de los docentes, donde la evaluación sesgada puede afectar el desarrollo profesional y las trayectorias profesionales de los docentes. Investigamos la solidez del modelo ante contextos sociales falsos utilizando el conjunto de datos más grande disponible públicamente de expedientes académicos de aula (NCTE) de EE. UU. junto con puntuaciones de rúbricas de expertos. Al evaluar siete modelos de frontera y de ponderación abierta en siete categorías de contextos espurios, incluida la experiencia de los docentes, el nivel educativo, la identidad demográfica y los marcos que inducen a la adulación, encontramos que la información contextual irrelevante puede cambiar las predicciones del modelo hasta en 1,48 puntos en una escala de 7 puntos, y los modelos más grandes a veces muestran una mayor sensibilidad a pesar de una mayor precisión predictiva. Las mitigaciones que utilizan avisos y optimización de preferencias directas (DPO) estándar resultan en gran medida insuficientes. Proponemos **Debiasing-DPO**, un método de entrenamiento autosupervisado que combina el razonamiento neutral generado solo a partir de la consulta, con el razonamiento sesgado del modelo generado tanto con la consulta como con el contexto espurio adicional. Además, combinamos este objetivo con un ajuste fino supervisado de las etiquetas de verdad sobre el terreno para evitar pérdidas en la precisión predictiva. Aplicado a los modelos Llama 3B & 8B y Qwen 3B & 7B Instruct, Debiasing-DPO reduce el sesgo en un 84% y mejora la precisión predictiva en un 52% en promedio. Nuestros hallazgos del estudio de caso educativo resaltan que la solidez ante un contexto espurio no es un subproducto natural del escalamiento del modelo y que nuestro método propuesto puede generar ganancias sustanciales tanto en precisión como en solidez para tareas de predicción basadas en indicaciones.
Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original
