Resumen: Los modelos de aprendizaje profundo han tenido éxito en muchas áreas, pero comprender sus comportamientos sigue siendo una caja negra. La mayoría de los enfoques anteriores de IA explicable (XAI) se han centrado en interpretar y explicar cómo los modelos hacen predicciones. Por el contrario, nos gustaría comprender cómo se pueden explicar los datos con el entrenamiento de modelos de aprendizaje profundo y proponer un enfoque novedoso para comprender los datos a través de uno de los medios más comunes, el lenguaje, para que los humanos puedan comprenderlos fácilmente. Nuestro enfoque propone un canal para generar descripciones textuales que puedan explicar los datos con grandes modelos de lenguaje mediante la incorporación de bases de conocimiento externas. Sin embargo, las descripciones de los datos generados aún pueden incluir información irrelevante, por lo que introducimos explotar la estimación de influencia para elegir las descripciones textuales más informativas, junto con la puntuación CLIP. Además, basándonos en el fenómeno de la transferibilidad intermodal, proponemos una nueva tarea de referencia denominada clasificación de transferencia intermodal para examinar la efectividad de nuestras descripciones textuales. En el experimento de configuración de disparo cero, demostramos que nuestras descripciones textuales son más efectivas que otras descripciones de referencia y, además, aumentamos con éxito el rendimiento del modelo entrenado solo en imágenes en los nueve conjuntos de datos de clasificación de imágenes. Estos resultados están respaldados aún más por la evaluación utilizando GPT-4o. A través de nuestro enfoque, podemos obtener información sobre la interpretabilidad inherente del proceso de toma de decisiones del modelo.
Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original
