En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Taser: Agentes de tabla para extracción y recomendación guiada por esquemas

Taser: Agentes de tabla para extracción y recomendación guiada por esquemas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los documentos financieros del mundo real informan información esencial sobre las tenencias financieras de una entidad que pueden abarcar millones de diferentes tipos de instrumentos financieros. Sin embargo, estos detalles a menudo están enterrados en tablas desordenadas, múltiples y fragmentadas, por ejemplo, el 99.4% de las tablas en nuestro conjunto de datos no tienen cuadros delimitadores con el número máximo de filas que ascienden a 426 por tabla en 44 páginas. Para abordar estos desafíos únicos de las tablas del mundo real, presentamos un sistema de extracción de tabla agente y aprendizaje continuo, Taser (agentes de tabla para extracción y recomendación guiada por esquemas) que extrae tablas heterogéneas altamente no estructuradas, múltiples y múltiples páginas en resultados normalizados y con conformidad con esquemas. Nuestros agentes de tabla ejecutan en detección de tabla, clasificación, extracción y recomendaciones al aprovechar un esquema inicial. Luego, nuestro agente de recomendación revisa los resultados, recomienda revisiones de esquema y decide sobre las recomendaciones finales, lo que permite que TASER supere los modelos de detección de tabla existentes como el transformador de tabla en un 10.1%. Dentro de este proceso de aprendizaje continuo, destacamos que los tamaños de lotes más grandes dan como resultado un aumento del 104.3% en las recomendaciones de esquemas que son procesables y utilizados, lo que resulta en un aumento del 9.8% en las tenencias extraídas, destacando la importancia de un proceso de aprendizaje continuo. Para entrenar a Taser, hemos etiquetado manualmente 22,584 páginas (28,150,449 tokens), 3,213 tablas por $ 731,685,511,687 de tenencias que culminan en uno de los primeros conjuntos de datos de mesa financiera reales. Lanzamos nuestro conjunto de datos Tasertab para permitir que la comunidad de investigación acceda a las tablas y resultados financieros del mundo real. Nuestros resultados destacan la promesa de los sistemas de extracción de agentes guiados por esquemas para una comprensión sólida de las tablas financieras del mundo real.

Publicado Originalme en export.arxiv.org El 19 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web