Resumen:Presentamos XChoice, un marco explicable para evaluar la alineación humana-IA en la toma de decisiones restringida. Yendo más allá del acuerdo de resultados, como la precisión y la puntuación F1, XChoice adapta un modelo de decisión basado en mecanismos a datos humanos y decisiones generadas por LLM, recuperando parámetros interpretables que capturan la importancia relativa de los factores de decisión, la sensibilidad a las restricciones y las compensaciones implícitas. La alineación se evalúa comparando estos vectores de parámetros entre modelos, opciones y subgrupos. Demostramos XChoice sobre la distribución del tiempo diario de los estadounidenses utilizando la Encuesta Estadounidense de Uso del Tiempo (ATUS) como verdad humana, revelando una alineación heterogénea entre modelos y actividades y una desalineación destacada concentrada en grupos negros y casados. Además, validamos la solidez de XChoice mediante un análisis de invariancia y evaluamos la mitigación específica con una intervención de generación aumentada de recuperación (RAG). En general, XChoice proporciona métricas basadas en mecanismos que diagnostican desalineaciones y respaldan mejoras informadas más allá de la coincidencia de resultados superficiales.
Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original
