Resumen: Los modelos de visión-lenguaje (VLM) heredan importantes sesgos sociales de sus datos de entrenamiento, especialmente en la representación de género. Las intervenciones de equidad actuales a menudo adoptan una perspectiva que no tiene en cuenta las diferencias y que impone un trato uniforme entre los grupos demográficos. Estos enfoques, sin embargo, no logran distinguir entre contextos donde se requiere neutralidad y aquellos donde los atributos específicos del grupo son legítimos y deben preservarse. Aprovechando los avances recientes en la equidad de género consciente de las diferencias para modelos de solo texto, extendemos este concepto al dominio multimodal y formalizamos el problema de la equidad de género consciente de las diferencias para los subtítulos de imágenes y la generación de texto a imagen. Abogamos por la eliminación de sesgos selectivos, cuyo objetivo es mitigar los sesgos no deseados en contextos neutrales y al mismo tiempo preservar distinciones válidas en contextos explícitos. Para lograr esto, proponemos BioPro (Bias Orthogonal Projection), un marco completamente libre de capacitación. BioPro identifica un subespacio de variación de género de baja dimensión a través de incrustaciones contrafactuales y aplica proyección para neutralizar selectivamente la información relacionada con el género. Los experimentos muestran que BioPro reduce efectivamente el sesgo de género en casos neutrales mientras mantiene la fidelidad de género en casos explícitos, proporcionando así una dirección prometedora para lograr la equidad selectiva en los VLM. Más allá del sesgo de género, demostramos además que BioPro puede generalizar de manera efectiva a variables de sesgo continuo, como el brillo de la escena, destacando su aplicabilidad más amplia.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
