Resumen: Los modelos multimodales de lenguaje grande (MLLM), particularmente las variantes más pequeñas y desplegables, exhiben una deficiencia crítica en la comprensión de datos visuales temporales y procedimentales, un cuello de botella que dificulta su aplicación en la IA incorporada en el mundo real. Esta brecha se debe en gran medida a una falla sistémica en los paradigmas de capacitación, que carecen de datos procedimentalmente coherentes a gran escala. Para abordar este problema, presentamos TPRU, un conjunto de datos a gran escala procedente de diversos escenarios incorporados, como manipulación robótica y navegación GUI. TPRU está diseñado sistemáticamente para cultivar el razonamiento temporal a través de tres tareas complementarias: reordenamiento temporal, predicción del siguiente cuadro y revisión del cuadro anterior. Una característica clave es la inclusión de muestras negativas desafiantes, lo que obliga a los modelos a pasar de la observación pasiva a la validación activa intermodal. Aprovechamos TPRU con una metodología de ajuste del aprendizaje por refuerzo (RL), dirigida específicamente a la mejora de modelos eficientes en recursos. Los experimentos muestran que nuestro enfoque produce ganancias espectaculares: en nuestra prueba TPRU seleccionada manualmente, la precisión de TPRU-7B se dispara del 50,33% al 75,70%, un resultado de última generación que supera significativamente a líneas base mucho más grandes, incluida GPT-4o. Fundamentalmente, estas capacidades se generalizan de manera efectiva, lo que demuestra mejoras sustanciales en los puntos de referencia establecidos. El código base está disponible en esta URL https .
Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original
