Hacia la edición de conocimiento meta-cognitivo para LLM multimodales

Resumen: La edición de conocimiento permite que los modelos de lenguaje grande (MLLM) multimodal (MLLM) actualicen eficientemente información anticuada o incorrecta. Sin embargo, los puntos de referencia existentes enfatizan principalmente las modificaciones a nivel cognitivo, al tiempo que carecen de un enfoque en los procesos meta-cognitivos más profundos.

Leer más →

Comentarios desactivados en Hacia la edición de conocimiento meta-cognitivo para LLM multimodales

TreeGPT: una nueva arquitectura híbrida para procesamiento de árboles de sintaxis abstracta con agregación global de padres e hijos

Resumen: La innovación central se encuentra en nuestro mecanismo global de agregación matriz-hijo, formalizado como: $$ h_i^{(t + 1)} = sigma big (h_i^{(0)} + w_ {pc} sum _ {(p, c) in e_i} f (h_p^{(t)}, h_c^{(t)})}) $ H_i^{(t)} $ representa el estado oculto del nodo $ i $ en iteración $ T $, $ E_I $ denota todos los bordes de los padres e hijos que involucran el nodo $ i $ y $ F (H_P, H_C) $

Leer más →

Comentarios desactivados en TreeGPT: una nueva arquitectura híbrida para procesamiento de árboles de sintaxis abstracta con agregación global de padres e hijos

OCCVLA: modelo de acción-idioma de visión con supervisión implícita de ocupación 3D

Resumen: los modelos de lenguaje grande multimodal (MLLMS) han mostrado fuertes habilidades de razonamiento en idioma de visión, pero aún carecen de una comprensión espacial 3D robusta, lo cual es fundamental para la conducción autónoma.

Leer más →

Comentarios desactivados en OCCVLA: modelo de acción-idioma de visión con supervisión implícita de ocupación 3D

Fin del contenido

No hay más páginas por cargar