En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ENACT: Evaluación de la cognición encarnada con modelos mundiales de interacción egocéntrica

ENACT: Evaluación de la cognición encarnada con modelos mundiales de interacción egocéntrica

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La cognición encarnada sostiene que la inteligencia surge de la interacción sensoriomotora más que de la observación pasiva. Plantea una pregunta intrigante: ¿los modelos modernos de visión y lenguaje (VLM), entrenados en gran medida de manera incorpórea, muestran signos de cognición corpórea? Presentamos ENACT, un punto de referencia que presenta la evaluación de la cognición incorporada como modelado del mundo a partir de la interacción egocéntrica en un formato de respuesta visual a preguntas (VQA). Enmarcado como un proceso de decisión de Markov parcialmente observable (POMDP) ​​cuyas acciones son cambios en el gráfico de escena, ENACT comprende dos tareas complementarias de reordenamiento de secuencia: modelado del mundo directo (reordenar las observaciones mezcladas dadas las acciones) y modelado del mundo inverso (reordenar las acciones mezcladas dadas las observaciones). Si bien conceptualmente es simple, resolver estas tareas exige implícitamente capacidades centrales para el reconocimiento de la capacidad cognitiva incorporada, el razonamiento de acción-efecto, la conciencia corporal y la memoria interactiva de largo horizonte a partir de entradas egocéntricas parcialmente observables, evitando al mismo tiempo la síntesis de imágenes de bajo nivel que podría confundir la evaluación. Proporcionamos un canal escalable que sintetiza pares de control de calidad a partir de simulación robótica (BEHAVIOR) y evalúa modelos en 8972 pares de control de calidad que abarcan actividades a largo plazo a escala doméstica. Los experimentos revelan una brecha de rendimiento entre los VLM de frontera y los humanos que se amplía con el horizonte de interacción. Los modelos consistentemente se desempeñan mejor en la tarea inversa que en la directa y exhiben sesgos antropocéntricos, incluida una preferencia por las acciones diestras y degradación cuando los elementos intrínsecos de la cámara o los puntos de vista se desvían de la visión humana. Sitio web en esta URL https.

Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web