Desde la percepción hasta la cognición: una encuesta de razonamiento interactivo en lenguaje de visión en modelos de idiomas grandes multimodales

Resumen: los modelos de lenguaje grande multimodal (MLLMS) se esfuerzan por lograr una comprensión e interacción profunda y humana con el mundo físico, pero a menudo exhiben una integración superficial e incoherente al adquirir información (percepción) y conducir razonamiento (cognición). Esta desconexión conduce a un espectro de fallas de razonamiento, siendo la alucinación la más prominente. Colectivamente, estos problemas exponen un desafío fundamental: la capacidad de procesar píxeles aún no confiere la capacidad de construir un modelo mundial interno coherente y creíble. Para diseccionar y abordar sistemáticamente este desafío, esta encuesta introduce un marco analítico novedoso y unificado: “ De la percepción a la cognición. Razonamiento basado en esta base perceptiva, cuyo núcleo es la formación de un bucle de razonamiento dinámico observación-pensamiento. Además, revisamos los puntos de referencia críticos y delineamos las instrucciones de investigación futuras.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MATA: un sistema autómata jerárquico entrenable para el razonamiento visual de múltiples agentes

Inyección de inmediato directa transferible mediante muestreo MCMC guiado por activación

DesignAsCode: uniendo la editabilidad estructural y la fidelidad visual en la generación de diseño gráfico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido