BioAlquimia: Destilación de literatura biológica en datos de entrenamiento de aprendizaje por refuerzo listos para el razonamiento

Resumen:A pesar del gran corpus de textos de formación en biología, el impacto de los modelos de razonamiento en la investigación biológica generalmente va por detrás de las matemáticas y la codificación. En este trabajo, mostramos que las preguntas de biología de los conjuntos de datos de razonamiento a gran escala actuales no se alinean bien con las distribuciones modernas de temas de investigación en biología, y que este desequilibrio de temas puede afectar negativamente el rendimiento. Además, encontramos que los métodos para extraer problemas de investigación desafiantes y verificables de un texto de investigación en biología son un ingrediente crítico aún poco desarrollado en la aplicación del aprendizaje por refuerzo para un mejor desempeño en las tareas de investigación en biología. Presentamos BioAlchemy, un canal para obtener un conjunto diverso de pares de preguntas y respuestas verificables de un corpus científico de textos de investigación en biología. Seleccionamos BioAlchemy-345K, un conjunto de datos de entrenamiento que contiene más de 345.000 problemas de razonamiento científico en biología. Luego, demostramos cómo alinear nuestro conjunto de datos con la distribución temática de la biología científica moderna se puede utilizar con el aprendizaje por refuerzo para mejorar el rendimiento del razonamiento. Finalmente, presentamos BioAlchemist-8B, que mejora su modelo de razonamiento base en un 9,12% en los puntos de referencia de biología. Estos resultados demuestran la eficacia de nuestro enfoque para desarrollar capacidades de razonamiento científico más sólidas en biología. El modelo BioAlchemist-8B está disponible en: esta URL https.

Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: el objetivo de un agente de IA y la prevención de rayos

(Perlin) Ruido como coordinador de IA

Resolviendo el problema de vendedores de viajes múltiples Min-Max a través de la generación de rutas basada en el aprendizaje y división óptima

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido