Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más a la investigación científica, sin embargo, los puntos de referencia científicos predominantes investigan el conocimiento descontextualizado y pasan por alto el razonamiento iterativo, la generación de hipótesis y la interpretación de las observaciones que impulsan el descubrimiento científico.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) logran resultados sólidos en la respuesta a preguntas de gráficos de conocimiento (KGQA), pero la mayoría de los puntos de referencia asumen gráficos de conocimiento completos (KG) donde existen tripletas de soporte directo.
Leer más →
Resumen:El conjunto de datos integra 85.000 problemas AoPS seleccionados con 262.000 problemas StackExchange-Math de origen comunitario, combinando tareas de competencia estructuradas con diversas consultas matemáticas del mundo real. Realizamos evaluaciones controladas para evaluar la calidad del conjunto de datos.
Leer más →