Resumen: La rápida expansión de la literatura química plantea desafíos significativos para los investigadores que buscan acceder de manera eficiente al conocimiento específico del dominio. Para apoyar los avances en el procesamiento del lenguaje natural centrado en la química (PNL), presentamos ChemRXIVQuest, un conjunto de datos seleccionado de 970 pares de preguntas de alta calidad (QA) derivadas de 155 preimpresiones de Chemrxiv en 17 subfields de química. Cada par de control de calidad está explícitamente vinculado a su segmento de texto fuente para garantizar la trazabilidad y la precisión contextual. ChemRXIVQuest se construyó utilizando una tubería automatizada que combina el reconocimiento de caracteres ópticos (OCR), la generación de control de calidad basada en GPT-4O y una técnica de coincidencia difusa para la verificación de respuestas. El conjunto de datos enfatiza las preguntas conceptuales, mecanicistas, aplicadas y experimentales, que permiten aplicaciones en sistemas de control de calidad basados en recuperación, desarrollo de motores de búsqueda y ajuste de modelos de idiomas grandes adaptados al dominio. Analizamos la estructura, la cobertura y las limitaciones del conjunto de datos, y describimos las direcciones futuras para la expansión y la validación de expertos. ChemRXIVQuest proporciona un recurso fundamental para la investigación, educación y desarrollo de herramientas de la PNL química.
Publicado Originalme en rss.arxiv.org El 8 de mayo de 2025.
Ver Fuente Original