Resumen: La edición de conocimiento permite que los modelos de lenguaje grande (MLLM) multimodal (MLLM) actualicen eficientemente información anticuada o incorrecta. Sin embargo, los puntos de referencia existentes enfatizan principalmente las modificaciones a nivel cognitivo, al tiempo que carecen de un enfoque en los procesos meta-cognitivos más profundos.
Leer más →
Resumen: La innovación central se encuentra en nuestro mecanismo global de agregación matriz-hijo, formalizado como: $$ h_i^{(t + 1)} = sigma big (h_i^{(0)} + w_ {pc} sum _ {(p, c) in e_i} f (h_p^{(t)}, h_c^{(t)})}) $ H_i^{(t)} $ representa el estado oculto del nodo $ i $ en iteración $ T $, $ E_I $ denota todos los bordes de los padres e hijos que involucran el nodo $ i $ y $ F (H_P, H_C) $
Leer más →
Resumen: los modelos de lenguaje grande multimodal (MLLMS) han mostrado fuertes habilidades de razonamiento en idioma de visión, pero aún carecen de una comprensión espacial 3D robusta, lo cual es fundamental para la conducción autónoma.
Leer más →