Resumen: Los avances recientes en modelos de lenguajes grandes (LLM) han demostrado sólidas capacidades de razonamiento a través del aprendizaje por refuerzo previo y posterior al entrenamiento a gran escala, demostrado por DeepSeek-R1. Sin embargo, los métodos actuales posteriores a la capacitación, como la Optimización de Políticas Relativas Agrupadas (GRPO), recompensan principalmente la corrección, que no está alineada con los objetivos multidimensionales requeridos en campos de alto riesgo como la medicina, donde el razonamiento también debe ser fiel y completo. Presentamos la optimización de políticas relativas al objetivo clínico (CRPO), un método de aprendizaje por refuerzo escalable, multiobjetivo y verificable diseñado para alinear la capacitación posterior de LLM con los principios de razonamiento clínico. CRPO integra señales de recompensa verificables y basadas en reglas que optimizan conjuntamente la precisión, la fidelidad y la exhaustividad sin depender de la anotación humana. Para demostrar su eficacia, entrenamos Clinical-R1-3B, un modelo de 3 parámetros B para razonamiento clínico. Los experimentos en tres puntos de referencia demuestran que nuestro CRPO mejora sustancialmente el razonamiento sobre veracidad e integridad con respecto al GRPO estándar, al tiempo que mantiene cómodas mejoras en la precisión. Este marco proporciona una vía escalable para alinear el razonamiento de los LLM con los objetivos clínicos, lo que permite sistemas de IA más seguros y colaborativos para la atención médica y, al mismo tiempo, destaca el potencial de los métodos de RL verificables y multiobjetivos en la ampliación posterior a la capacitación de los LLM para dominios médicos.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
