En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Ampliación de la verificación del razonamiento médico mediante el aprendizaje por refuerzo integrado en herramientas

Ampliación de la verificación del razonamiento médico mediante el aprendizaje por refuerzo integrado en herramientas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de lenguaje han logrado un sólido desempeño en los puntos de referencia de razonamiento médico, sin embargo, su implementación en entornos clínicos exige una verificación rigurosa para garantizar la exactitud de los hechos. Si bien los modelos de recompensa ofrecen un enfoque escalable para la verificación de rastros de razonamiento, los métodos existentes enfrentan dos limitaciones: solo producen valores de recompensa escalares sin justificación explícita y dependen de la recuperación de un solo paso que impide el acceso adaptativo al conocimiento a medida que se desarrolla la verificación. Presentamos $method$, un marco agente que aborda estas limitaciones entrenando a verificadores de razonamiento médico para consultar de forma iterativa corpus médicos externos durante la evaluación. Nuestro enfoque combina la verificación aumentada por herramientas con un paradigma de aprendizaje por refuerzo iterativo que solo requiere supervisión a nivel de seguimiento, junto con un mecanismo curricular adaptativo que ajusta dinámicamente la distribución de los datos de entrenamiento. A través de cuatro puntos de referencia de razonamiento médico, $method$ logra ganancias sustanciales sobre los métodos existentes, mejorando la precisión de MedQA en un 23,5 % y MedXpertQA en un 32,0 % en relación con el generador base en particular. Fundamentalmente, $method$ demuestra una reducción de $mathbf{8times}$ en el requisito de presupuesto de muestreo en comparación con las líneas base del modelo de recompensa anterior. Estos hallazgos establecen que fundamentar la verificación en evidencia recuperada dinámicamente ofrece un camino basado en principios hacia sistemas de razonamiento médico más confiables.

Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web