Resumen: El modelo y notación de procesos de negocio (BPMN) es un estándar ampliamente adoptado para representar flujos de trabajo empresariales complejos. Si bien los diagramas BPMN a menudo se intercambian como imágenes visuales, los métodos existentes se basan principalmente en representaciones XML para el análisis computacional. En este trabajo, presentamos un canal que aprovecha los modelos Vision-Language (VLM) para extraer representaciones JSON estructuradas de diagramas BPMN directamente de imágenes, sin requerir archivos de modelo fuente ni anotaciones textuales. También incorporamos reconocimiento óptico de caracteres (OCR) para el enriquecimiento textual y evaluamos las listas de elementos generados con datos reales derivados de los archivos XML de origen. Nuestro enfoque permite una extracción sólida de componentes en escenarios donde los archivos fuente originales no están disponibles. Comparamos varios VLM y observamos mejoras de rendimiento en varios modelos cuando se utiliza OCR para el enriquecimiento de texto. Además, realizamos análisis estadísticos exhaustivos de métodos de enriquecimiento basados en OCR y estudios de ablación rápida, lo que proporcionó una comprensión más clara de su impacto en el rendimiento del modelo.
Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original
