Resumen: los modelos de lenguaje grande multimodal (MLLMS) se esfuerzan por lograr una comprensión e interacción profunda y humana con el mundo físico, pero a menudo exhiben una integración superficial e incoherente al adquirir información (percepción) y conducir razonamiento (cognición). Esta desconexión conduce a un espectro de fallas de razonamiento, siendo la alucinación la más prominente. Colectivamente, estos problemas exponen un desafío fundamental: la capacidad de procesar píxeles aún no confiere la capacidad de construir un modelo mundial interno coherente y creíble. Para diseccionar y abordar sistemáticamente este desafío, esta encuesta introduce un marco analítico novedoso y unificado: “ De la percepción a la cognición. Razonamiento basado en esta base perceptiva, cuyo núcleo es la formación de un bucle de razonamiento dinámico observación-pensamiento. Además, revisamos los puntos de referencia críticos y delineamos las instrucciones de investigación futuras.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original
