En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Desde la percepción hasta la cognición: una encuesta de razonamiento interactivo en lenguaje de visión en modelos de idiomas grandes multimodales

Desde la percepción hasta la cognición: una encuesta de razonamiento interactivo en lenguaje de visión en modelos de idiomas grandes multimodales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de lenguaje grande multimodal (MLLMS) se esfuerzan por lograr una comprensión e interacción profunda y humana con el mundo físico, pero a menudo exhiben una integración superficial e incoherente al adquirir información (percepción) y conducir razonamiento (cognición). Esta desconexión conduce a un espectro de fallas de razonamiento, siendo la alucinación la más prominente. Colectivamente, estos problemas exponen un desafío fundamental: la capacidad de procesar píxeles aún no confiere la capacidad de construir un modelo mundial interno coherente y creíble. Para diseccionar y abordar sistemáticamente este desafío, esta encuesta introduce un marco analítico novedoso y unificado: “ De la percepción a la cognición. Razonamiento basado en esta base perceptiva, cuyo núcleo es la formación de un bucle de razonamiento dinámico observación-pensamiento. Además, revisamos los puntos de referencia críticos y delineamos las instrucciones de investigación futuras.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web