En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Inphyre descubre: los grandes modelos multimodales luchan en el razonamiento físico inductivo

Inphyre descubre: los grandes modelos multimodales luchan en el razonamiento físico inductivo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos multimodales (LMM) codifican leyes físicas universales observadas durante el entrenamiento, como la conservación del momento, como conocimiento paramétrico. Permite a los LMM responder consultas de razonamiento físico, como el resultado de un posible evento de colisión a partir de la entrada visual. Sin embargo, dado que el conocimiento paramétrico incluye solo las leyes físicas observadas durante el entrenamiento, es insuficiente para el razonamiento cuando el escenario de inferencia viola estas leyes físicas. En contraste, los humanos poseen la habilidad para adaptar su razonamiento físico a entornos físicos invisibles de algunos ejemplos visuales. Esta capacidad, a la que nos referimos como razonamiento físico inductivo, es indispensable para LMM para reemplazar a los agentes humanos en aplicaciones críticas de seguridad. A pesar de su importancia, los puntos de referencia visuales existentes evalúan solo el conocimiento paramétrico en LMM, y no un razonamiento físico inductivo. Con este fin, proponemos inphyre, la primera pregunta visual que contesta el punto de referencia para medir el razonamiento físico inductivo en LMM. InPhyre evalúa LMM en su capacidad para predecir el resultado de los eventos de colisión en videos de colisión sintéticos generados algorítmicamente. Al inspeccionar 13 LMM, InPhyre nos informa que (1) LMMS lucha por aplicar su conocimiento paramétrico limitado sobre las leyes físicas universales al razonamiento, (2) el razonamiento físico inductivo en LMM es débil cuando las muestras de demostración violan las leyes físicas universales, y (3) el razonamiento físico inductivo en LMMS sufre de lenguaje bias e ignora en gran medida los aportes visuales, cuestionando los de los topes de la confianza visuales.

Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web