Extracción estructurada de diagramas de procesos de negocio utilizando modelos de visión-lenguaje

Resumen: El modelo y notación de procesos de negocio (BPMN) es un estándar ampliamente adoptado para representar flujos de trabajo empresariales complejos. Si bien los diagramas BPMN a menudo se intercambian como imágenes visuales, los métodos existentes se basan principalmente en representaciones XML para el análisis computacional. En este trabajo, presentamos un canal que aprovecha los modelos Vision-Language (VLM) para extraer representaciones JSON estructuradas de diagramas BPMN directamente de imágenes, sin requerir archivos de modelo fuente ni anotaciones textuales. También incorporamos reconocimiento óptico de caracteres (OCR) para el enriquecimiento textual y evaluamos las listas de elementos generados con datos reales derivados de los archivos XML de origen. Nuestro enfoque permite una extracción sólida de componentes en escenarios donde los archivos fuente originales no están disponibles. Comparamos varios VLM y observamos mejoras de rendimiento en varios modelos cuando se utiliza OCR para el enriquecimiento de texto. Además, realizamos análisis estadísticos exhaustivos de métodos de enriquecimiento basados en OCR y estudios de ablación rápida, lo que proporcionó una comprensión más clara de su impacto en el rendimiento del modelo.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: Experimento de AI de bienestar de Amsterdam y hacer robots humanoides más seguros

Los científicos pueden ver el permafrost de la Tierra descongelando el espacio

AI de lente abierta: agente de investigación totalmente autónomo para informática de salud

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido