Resumen: Investigamos la aplicación de modelos de lenguaje pequeños (<10 mil millones de parámetros) para la respuesta de las preguntas genómicas a través del marco de agente para abordar los problemas de alucinación y los desafíos de costos computacionales. El marco Nano Bio-Agent (NBA) que implementamos incorpora la descomposición de la tarea, la orquestación de herramientas y el acceso de API en sistemas bien establecidos como NCBI y alfagenoma. Los resultados muestran que las SLM combinadas con dicho marco de agente pueden lograr un rendimiento comparable y en muchos casos de rendimiento superior versus enfoques existentes utilizando modelos más grandes, con nuestra mejor combinación de agente de modelo que alcanza una precisión del 98% en el punto de referencia de geneturing. En particular, los pequeños modelos de parámetros 3-10B alcanzan consistentemente una precisión del 85-97%, al tiempo que requieren recursos computacionales mucho más bajos que los enfoques convencionales. Esto demuestra un potencial prometedor para ganancias de eficiencia, ahorros de costos y democratización de herramientas genómicas propulsadas por ML al tiempo que conserva un rendimiento altamente robusto y preciso.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original
