En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->TPRU: Avanzando en la comprensión temporal y procesal en grandes modelos multimodales

TPRU: Avanzando en la comprensión temporal y procesal en grandes modelos multimodales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos multimodales de lenguaje grande (MLLM), particularmente las variantes más pequeñas y desplegables, exhiben una deficiencia crítica en la comprensión de datos visuales temporales y procedimentales, un cuello de botella que dificulta su aplicación en la IA incorporada en el mundo real. Esta brecha se debe en gran medida a una falla sistémica en los paradigmas de capacitación, que carecen de datos procedimentalmente coherentes a gran escala. Para abordar este problema, presentamos TPRU, un conjunto de datos a gran escala procedente de diversos escenarios incorporados, como manipulación robótica y navegación GUI. TPRU está diseñado sistemáticamente para cultivar el razonamiento temporal a través de tres tareas complementarias: reordenamiento temporal, predicción del siguiente cuadro y revisión del cuadro anterior. Una característica clave es la inclusión de muestras negativas desafiantes, lo que obliga a los modelos a pasar de la observación pasiva a la validación activa intermodal. Aprovechamos TPRU con una metodología de ajuste del aprendizaje por refuerzo (RL), dirigida específicamente a la mejora de modelos eficientes en recursos. Los experimentos muestran que nuestro enfoque produce ganancias espectaculares: en nuestra prueba TPRU seleccionada manualmente, la precisión de TPRU-7B se dispara del 50,33% al 75,70%, un resultado de última generación que supera significativamente a líneas base mucho más grandes, incluida GPT-4o. Fundamentalmente, estas capacidades se generalizan de manera efectiva, lo que demuestra mejoras sustanciales en los puntos de referencia establecidos. El código base está disponible en esta URL https .

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web