Caracterización fenomenológica basada en la física del sesgo intermodal en modelos multimodales

Resumen: El término “equidad algorítmica” se utiliza para evaluar si los modelos de IA funcionan de manera justa tanto en contextos comparativos (donde la equidad se entiende como igualdad formal, como “tratar casos similares como similares”) como no comparativos (donde la injusticia surge de la inexactitud, arbitrariedad o inescrutabilidad del modelo). Los avances recientes en los modelos de lenguajes grandes multimodales (MLLM) están abriendo nuevos caminos en la comprensión, el razonamiento y la generación multimodales; sin embargo, sostenemos que las distorsiones discretas que surgen de dinámicas complejas de interacción multimodal pueden conducir a un sesgo sistemático. El propósito de este documento de posición es doble: en primer lugar, pretende familiarizar a los investigadores de IA con enfoques fenomenológicos explicables que se basan en las entidades físicas que la máquina experimenta durante el entrenamiento/inferencia, en contraposición a la explicación simbólica cognitivista tradicional o los enfoques metafísicos; en segundo lugar, afirmar que esta doctrina fenomenológica será prácticamente útil para abordar cuestiones de equidad algorítmica en MLLM. Desarrollamos un modelo sustituto basado en la física que describe la dinámica del transformador (es decir, la estructura de la red semántica y la atención propia/cruzada) para analizar la dinámica del sesgo intermodal en MLLM, que no se captura completamente mediante los análisis convencionales de nivel de incrustación o representación. Apoyamos esta posición a través de experimentos de diagnóstico de múltiples entradas: 1) análisis basados en perturbaciones de la clasificación de emociones utilizando Qwen2.5-Omni y Gemma 3n, y 2) análisis dinámico de la predicción de series temporales caóticas de Lorenz a través del sustituto físico. A través de dos MLLM arquitectónicamente distintos, mostramos que las entradas multimodales pueden reforzar el dominio de la modalidad en lugar de mitigarlo, como lo revelan los patrones estructurados de atractores de errores bajo perturbación sistemática de etiquetas, complementados con análisis dinámico.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Open RAN para redes 6G: arquitectura, casos de uso y problemas abiertos

DISMINUCIÓN: Al reducir el tamaño de los programas ASP de conexión a tierra

La Fundación Linux anuncia que el registro está abierto para Open Source Summit North America y más eventos de 2024

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido