Inphyre descubre: los grandes modelos multimodales luchan en el razonamiento físico inductivo

Resumen: Los grandes modelos multimodales (LMM) codifican leyes físicas universales observadas durante el entrenamiento, como la conservación del momento, como conocimiento paramétrico. Permite a los LMM responder consultas de razonamiento físico, como el resultado de un posible evento de colisión a partir de la entrada visual. Sin embargo, dado que el conocimiento paramétrico incluye solo las leyes físicas observadas durante el entrenamiento, es insuficiente para el razonamiento cuando el escenario de inferencia viola estas leyes físicas. En contraste, los humanos poseen la habilidad para adaptar su razonamiento físico a entornos físicos invisibles de algunos ejemplos visuales. Esta capacidad, a la que nos referimos como razonamiento físico inductivo, es indispensable para LMM para reemplazar a los agentes humanos en aplicaciones críticas de seguridad. A pesar de su importancia, los puntos de referencia visuales existentes evalúan solo el conocimiento paramétrico en LMM, y no un razonamiento físico inductivo. Con este fin, proponemos inphyre, la primera pregunta visual que contesta el punto de referencia para medir el razonamiento físico inductivo en LMM. InPhyre evalúa LMM en su capacidad para predecir el resultado de los eventos de colisión en videos de colisión sintéticos generados algorítmicamente. Al inspeccionar 13 LMM, InPhyre nos informa que (1) LMMS lucha por aplicar su conocimiento paramétrico limitado sobre las leyes físicas universales al razonamiento, (2) el razonamiento físico inductivo en LMM es débil cuando las muestras de demostración violan las leyes físicas universales, y (3) el razonamiento físico inductivo en LMMS sufre de lenguaje bias e ignora en gran medida los aportes visuales, cuestionando los de los topes de la confianza visuales.

Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Navegación de gráficos neuronales para una coincidencia inteligente de subgrafos

Aprendizaje de refuerzo de generación a nivel de procedimiento alineado por humanos a través de la representación compartida

EIC STEP Ampliar

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido