Resumen: Los pacientes deben poseer el conocimiento necesario para participar activamente en su atención. Presentamos Noteaid-Chatbot, una IA conversacional que promueve la comprensión del paciente a través de un novedoso marco de ‘aprendizaje como conversación’, basado en un modelo de lenguaje grande de múltiples agentes (LLM) y la configuración de aprendizaje de refuerzo (RL) sin datos marcados con humanos. Noteaid-Chatbot se basó en un modelo ligero de LLAMA 3.2 3B entrenado en dos etapas: ajuste inicial supervisado en datos conversacionales generados sintéticamente utilizando estrategias de conversación médica, seguido de RL con recompensas derivadas de las evaluaciones de comprensión del paciente en escenarios de alta hospitalaria simulados. Nuestra evaluación, que incluye evaluaciones y estudios de casos alineados en humanos integrales, demuestra que Nteaid-Chatbot exhibe comportamientos emergentes clave críticos para la educación del paciente, como la claridad, la relevancia y el diálogo estructurado, a pesar de que no recibió una supervisión explícita para estos atributos. Nuestros resultados muestran que incluso el modelado de recompensas basado en la optimización de políticas proximales (PPO) simples puede capacitar con éxito chatbots livianos y específicos del dominio para manejar interacciones múltiples, incorporar diversas estrategias educativas y cumplir con los objetivos de comunicación matizados. Nuestra prueba de Turing demuestra que Noteaid-Chatbot supera a los humanos no expertos. Aunque nuestro enfoque actual está en la atención médica, el marco que presentamos ilustra la viabilidad y la promesa de aplicar RL basado en PPO de bajo costo a dominios conversacionales realesistas y abiertos, ampliando la aplicabilidad de los métodos de alineación basados en RL.
Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original