Resumen: los modelos de lenguaje grande multimodal (MLLMS) han hecho un progreso significativo en la comprensión de los documentos. Sin embargo, la naturaleza densa en información de las imágenes de documentos aún plantea desafíos, ya que la mayoría de las consultas dependen de solo unas pocas regiones relevantes, y el resto es redundante. Las MLLM de un paso existentes procesan imágenes de documentos completos sin considerar la relevancia de la consulta, a menudo no se centran en regiones críticas y produciendo respuestas infieles. Inspirado en el patrón de lectura humano a fino, presentamos DOC-COB (cadena de caja), un mecanismo simple pero efectivo que integra el razonamiento visual de estilo humano en MLLM sin modificar su arquitectura. Nuestro método permite que el modelo seleccione de forma autónoma el conjunto de regiones (cuadros) más relevantes para la consulta, y luego concentre la atención en ellas para una mayor comprensión. Primero diseñamos una tubería completamente automática, que integramos un MLLM comercial con un analizador de diseño, para generar 249k muestras de entrenamiento con supervisión de razonamiento visual intermedio. Luego incorporamos dos tareas habilitadoras que mejoran la identificación de cuadros y el razonamiento de cuantía, que en conjunto mejoran la comprensión del documento. Experimentos extensos en siete puntos de referencia con cuatro modelos populares muestran que DOC-COB mejora significativamente el rendimiento, lo que demuestra su efectividad y amplia aplicabilidad. Todos los códigos, datos y modelos se publicarán públicamente.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

DOC-COB: Mejora de la comprensión de documentos multimodales con razonamiento visual de la cadena de cajas

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Microalgo desarrolla tecnología de auto-optimización del clasificador basada en algoritmos cuánticos variacionales

MAHL: diseño de chiplet jerárquico guiado por múltiples agentes con depuración adaptativa

Meta-optimización mejorada por la reflexión que integran la optimización de indica de estilo textgrad con autoevolución basada en la memoria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido