Resumen:El conjunto de datos integra 85.000 problemas AoPS seleccionados con 262.000 problemas StackExchange-Math de origen comunitario, combinando tareas de competencia estructuradas con diversas consultas matemáticas del mundo real. Realizamos evaluaciones controladas para evaluar la calidad del conjunto de datos.
Leer más →
Resumen:¿Cuándo deberíamos delegar decisiones a los sistemas de IA? Si bien la literatura sobre alineación de valores ha desarrollado técnicas para dar forma a los valores de la IA, se ha prestado menos atención a cómo determinar, en condiciones de incertidumbre, cuándo una alineación imperfecta es lo suficientemente buena como para justificar la delegación.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más a la investigación científica, sin embargo, los puntos de referencia científicos predominantes investigan el conocimiento descontextualizado y pasan por alto el razonamiento iterativo, la generación de hipótesis y la interpretación de las observaciones que impulsan el descubrimiento científico.
Leer más →