En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Tiny-R1V: modelo de razonamiento unificado multimodal ligero mediante fusión de modelos

Tiny-R1V: modelo de razonamiento unificado multimodal ligero mediante fusión de modelos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Aunque los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades notables en diversas tareas, enfrentan numerosos desafíos en términos de eficiencia del razonamiento, como modelos de gran tamaño, pensamiento excesivo y precisión comprometida en escenarios livianos. Sin embargo, faltan investigaciones sobre las capacidades de razonamiento de los MLLM ligeros. Con este fin, proponemos Tiny-R1V, un novedoso modelo 3B liviano que logra una inferencia más rápida y una mayor precisión mediante una optimización de dos etapas, al tiempo que unifica el razonamiento multimodal en múltiples tareas y utiliza menos tokens. En la primera etapa, Tiny-R1V presenta la optimización de políticas relativas basada en la longitud (LIPO), un novedoso método de aprendizaje por refuerzo, para entrenar cada modelo de razonamiento. La LIPO está diseñada para ajustar dinámicamente las ventajas de las respuestas dentro de los grupos, es decir, priorizando respuestas concisas pero de alta calidad para fomentar la generación de respuestas más cortas y precisas. En la segunda etapa, proponemos Adaptive Model Merging (AMM), un método de fusión de modelos sin capacitación que fusiona múltiples modelos especializados en una arquitectura unificada. Específicamente, AMM ajusta de forma adaptativa los pesos de los vectores de tareas y optimiza de manera sólida los vectores fusionados a través de una nueva función de pérdida de regularización de proyección de gradiente, mitigando así los conflictos redundantes entre ellos. Evaluaciones exhaustivas de diez puntos de referencia de razonamiento ampliamente utilizados que cubren matemáticas, datos estructurados (gráficos, tablas, documentos), OCR y capacidades generales muestran el rendimiento superior de Tiny-R1V, lo que permite que los modelos livianos sobresalgan en diversas tareas de razonamiento multimodal.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web