Resumen: los modelos de lenguaje grande multimodal (MLLMS) han hecho un progreso significativo en la comprensión de los documentos. Sin embargo, la naturaleza densa en información de las imágenes de documentos aún plantea desafíos, ya que la mayoría de las consultas dependen de solo unas pocas regiones relevantes, y el resto es redundante. Las MLLM de un paso existentes procesan imágenes de documentos completos sin considerar la relevancia de la consulta, a menudo no se centran en regiones críticas y produciendo respuestas infieles. Inspirado en el patrón de lectura humano a fino, presentamos DOC-COB (cadena de caja), un mecanismo simple pero efectivo que integra el razonamiento visual de estilo humano en MLLM sin modificar su arquitectura. Nuestro método permite que el modelo seleccione de forma autónoma el conjunto de regiones (cuadros) más relevantes para la consulta, y luego concentre la atención en ellas para una mayor comprensión. Primero diseñamos una tubería completamente automática, que integramos un MLLM comercial con un analizador de diseño, para generar 249k muestras de entrenamiento con supervisión de razonamiento visual intermedio. Luego incorporamos dos tareas habilitadoras que mejoran la identificación de cuadros y el razonamiento de cuantía, que en conjunto mejoran la comprensión del documento. Experimentos extensos en siete puntos de referencia con cuatro modelos populares muestran que DOC-COB mejora significativamente el rendimiento, lo que demuestra su efectividad y amplia aplicabilidad. Todos los códigos, datos y modelos se publicarán públicamente.
Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original