Resumen:A pesar del gran corpus de textos de formación en biología, el impacto de los modelos de razonamiento en la investigación biológica generalmente va por detrás de las matemáticas y la codificación. En este trabajo, mostramos que las preguntas de biología de los conjuntos de datos de razonamiento a gran escala actuales no se alinean bien con las distribuciones modernas de temas de investigación en biología, y que este desequilibrio de temas puede afectar negativamente el rendimiento. Además, encontramos que los métodos para extraer problemas de investigación desafiantes y verificables de un texto de investigación en biología son un ingrediente crítico aún poco desarrollado en la aplicación del aprendizaje por refuerzo para un mejor desempeño en las tareas de investigación en biología. Presentamos BioAlchemy, un canal para obtener un conjunto diverso de pares de preguntas y respuestas verificables de un corpus científico de textos de investigación en biología. Seleccionamos BioAlchemy-345K, un conjunto de datos de entrenamiento que contiene más de 345.000 problemas de razonamiento científico en biología. Luego, demostramos cómo alinear nuestro conjunto de datos con la distribución temática de la biología científica moderna se puede utilizar con el aprendizaje por refuerzo para mejorar el rendimiento del razonamiento. Finalmente, presentamos BioAlchemist-8B, que mejora su modelo de razonamiento base en un 9,12% en los puntos de referencia de biología. Estos resultados demuestran la eficacia de nuestro enfoque para desarrollar capacidades de razonamiento científico más sólidas en biología. El modelo BioAlchemist-8B está disponible en: esta URL https.
Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original
