ENACT: Evaluación de la cognición encarnada con modelos mundiales de interacción egocéntrica

Resumen: La cognición encarnada sostiene que la inteligencia surge de la interacción sensoriomotora más que de la observación pasiva. Plantea una pregunta intrigante: ¿los modelos modernos de visión y lenguaje (VLM), entrenados en gran medida de manera incorpórea, muestran signos de cognición corpórea? Presentamos ENACT, un punto de referencia que presenta la evaluación de la cognición incorporada como modelado del mundo a partir de la interacción egocéntrica en un formato de respuesta visual a preguntas (VQA). Enmarcado como un proceso de decisión de Markov parcialmente observable (POMDP) cuyas acciones son cambios en el gráfico de escena, ENACT comprende dos tareas complementarias de reordenamiento de secuencia: modelado del mundo directo (reordenar las observaciones mezcladas dadas las acciones) y modelado del mundo inverso (reordenar las acciones mezcladas dadas las observaciones). Si bien conceptualmente es simple, resolver estas tareas exige implícitamente capacidades centrales para el reconocimiento de la capacidad cognitiva incorporada, el razonamiento de acción-efecto, la conciencia corporal y la memoria interactiva de largo horizonte a partir de entradas egocéntricas parcialmente observables, evitando al mismo tiempo la síntesis de imágenes de bajo nivel que podría confundir la evaluación. Proporcionamos un canal escalable que sintetiza pares de control de calidad a partir de simulación robótica (BEHAVIOR) y evalúa modelos en 8972 pares de control de calidad que abarcan actividades a largo plazo a escala doméstica. Los experimentos revelan una brecha de rendimiento entre los VLM de frontera y los humanos que se amplía con el horizonte de interacción. Los modelos consistentemente se desempeñan mejor en la tarea inversa que en la directa y exhiben sesgos antropocéntricos, incluida una preferencia por las acciones diestras y degradación cuando los elementos intrínsecos de la cámara o los puntos de vista se desvían de la visión humana. Sitio web en esta URL https.

Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Optimización de preferencias estables para LLM: un enfoque bilevel más allá de la optimización de preferencias directas

Aprender de patrones de generalización: un enfoque basado en evaluaciones para mejorar el aumento de datos para ajustar modelos de lenguajes pequeños

Desbloqueando el potencial de datos de instrucciones del habla con la reescritura de consultas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido