Resumen: Los grandes modelos de lenguaje ahora se integran en muchos flujos de trabajo científicos, lo que acelera el análisis de datos, la generación de hipótesis y la exploración espacial del diseño. Paralelamente a este crecimiento, existe una creciente necesidad de evaluar cuidadosamente si los modelos capturan con precisión el conocimiento y la notación específicos del dominio, ya que los puntos de referencia de propósito general rara vez reflejan estos requisitos. Esta brecha es especialmente clara en la ciencia cuántica, que presenta fenómenos no intuitivos y requiere matemáticas avanzadas. En este estudio, presentamos QuantumBench, un punto de referencia para el dominio cuántico que examina sistemáticamente qué tan bien los LLM entienden y pueden aplicarse a este campo no intuitivo. Utilizando materiales disponibles públicamente, compilamos aproximadamente 800 preguntas con respuestas que abarcan nueve áreas relacionadas con la ciencia cuántica y las organizamos en un conjunto de datos de ocho opciones de opción múltiple. Con este punto de referencia, evaluamos varios LLM existentes y analizamos su desempeño en el dominio cuántico, incluida la sensibilidad a los cambios en el formato de las preguntas. QuantumBench es el primer conjunto de datos de evaluación de LLM creado para el dominio cuántico y está destinado a guiar el uso eficaz de los LLM en la investigación cuántica.
Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original
