Resumen:La interpretación de variantes y genes es fundamental para la medicina personalizada y la biomedicina traslacional. Sin embargo, los enfoques tradicionales son manuales y requieren mucha mano de obra. Los modelos de lenguaje generativo (LM) pueden facilitar este proceso, acelerando la traducción de la investigación fundamental en conocimientos clínicamente procesables. Si bien los puntos de referencia existentes han intentado cuantificar las capacidades de los LM para interpretar datos científicos, estos estudios se centran en tareas limitadas que no se traducen en investigaciones del mundo real. Para enfrentar estos desafíos, presentamos CGBench, un punto de referencia sólido que prueba las capacidades de razonamiento de los LM en publicaciones científicas. CGBench se basa en ClinGen, un recurso de interpretaciones de literatura seleccionada por expertos en genética clínica. CGBench mide la capacidad de 1) extraer resultados experimentales relevantes siguiendo protocolos y pautas precisos, 2) juzgar la solidez de la evidencia y 3) categorizar y describir el resultado relevante de los experimentos. Probamos 8 LM diferentes y descubrimos que, si bien los modelos son prometedores, existen lagunas sustanciales en la interpretación de la literatura, especialmente en instrucciones detalladas. Los modelos de razonamiento sobresalen en tareas detalladas, pero los modelos sin razonamiento son mejores en interpretaciones de alto nivel. Finalmente, comparamos las explicaciones de LM con las explicaciones humanas con un enfoque de juez de LM, revelando que los modelos a menudo alucinan o malinterpretan los resultados incluso cuando clasifican correctamente la evidencia. CGBench revela las fortalezas y debilidades de los LM para la interpretación precisa de publicaciones científicas, abriendo vías para futuras investigaciones en IA para la genética clínica y la ciencia en general.
Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original