Tiny-R1V: modelo de razonamiento unificado multimodal ligero mediante fusión de modelos

Resumen:Aunque los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades notables en diversas tareas, enfrentan numerosos desafíos en términos de eficiencia del razonamiento, como modelos de gran tamaño, pensamiento excesivo y precisión comprometida en escenarios livianos. Sin embargo, faltan investigaciones sobre las capacidades de razonamiento de los MLLM ligeros. Con este fin, proponemos Tiny-R1V, un novedoso modelo 3B liviano que logra una inferencia más rápida y una mayor precisión mediante una optimización de dos etapas, al tiempo que unifica el razonamiento multimodal en múltiples tareas y utiliza menos tokens. En la primera etapa, Tiny-R1V presenta la optimización de políticas relativas basada en la longitud (LIPO), un novedoso método de aprendizaje por refuerzo, para entrenar cada modelo de razonamiento. La LIPO está diseñada para ajustar dinámicamente las ventajas de las respuestas dentro de los grupos, es decir, priorizando respuestas concisas pero de alta calidad para fomentar la generación de respuestas más cortas y precisas. En la segunda etapa, proponemos Adaptive Model Merging (AMM), un método de fusión de modelos sin capacitación que fusiona múltiples modelos especializados en una arquitectura unificada. Específicamente, AMM ajusta de forma adaptativa los pesos de los vectores de tareas y optimiza de manera sólida los vectores fusionados a través de una nueva función de pérdida de regularización de proyección de gradiente, mitigando así los conflictos redundantes entre ellos. Evaluaciones exhaustivas de diez puntos de referencia de razonamiento ampliamente utilizados que cubren matemáticas, datos estructurados (gráficos, tablas, documentos), OCR y capacidades generales muestran el rendimiento superior de Tiny-R1V, lo que permite que los modelos livianos sobresalgan en diversas tareas de razonamiento multimodal.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Automotive Grade Linux lanza la plataforma de referencia SoDeV de código abierto para acelerar los vehículos definidos por software

Mejora de la consistencia física en modelos mundiales livianos

Mejora de TableQA mediante recompensas de rastreo de razonamiento verificable

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido