WildSci: avance del razonamiento científico a partir de la literatura salvaje

Resumen: Los avances recientes en el razonamiento con modelos de lenguaje grande (LLM) se han centrado en dominios como las matemáticas y la codificación, donde se encuentran disponibles abundantes datos de alta calidad y métricas de evaluación objetivas. Por el contrario, el progreso en los modelos de razonamiento LLM sigue siendo limitado en dominios científicos como la medicina y la ciencia de materiales debido a la cobertura limitada de los conjuntos de datos y la complejidad inherente de las preguntas científicas abiertas. Para abordar estos desafíos, presentamos WildSci, un nuevo conjunto de datos de preguntas científicas de dominios específicos sintetizados automáticamente a partir de literatura revisada por pares, que cubre 9 disciplinas científicas y 26 subdominios. Al enmarcar tareas complejas de razonamiento científico en un formato de opción múltiple, permitimos una capacitación escalable con señales de recompensa bien definidas. Además, aplicamos el aprendizaje por refuerzo para ajustar los modelos con estos datos y analizar la dinámica de entrenamiento resultante, incluidos los cambios de rendimiento específicos del dominio, los comportamientos de respuesta y las tendencias de generalización. Los experimentos sobre un conjunto de puntos de referencia científicos demuestran la eficacia de nuestro conjunto de datos y nuestro enfoque. Lanzamos WildSci para permitir una investigación escalable y sostenible en razonamiento científico, disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Fol-Pretrain: un corpus anotado de complejidad de la lógica de primer orden

Linux Foundation anuncia el Proyecto de Administrador de paquetes justos para la estabilidad del sistema de gestión de contenido de código abierto

El informe de Linux Foundation, Cossa y Serena muestra que la inversión de riesgo en código abierto supera a las contrapartes y beneficios de beneficios.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido