Resumen:Presentamos un chatbot para la salud materna en la India desarrollado a través de una asociación entre investigadores académicos, una empresa de tecnología sanitaria, una organización sin fines de lucro de salud pública y un hospital. El sistema combina (1) clasificación basada en etapas, enrutando consultas de alto riesgo a plantillas de expertos, (2) recuperación híbrida sobre pautas seleccionadas para madres y recién nacidos y (3) generación condicionada por evidencia a partir de un LLM. Nuestra contribución principal es un flujo de trabajo de evaluación para la implementación de alto riesgo bajo supervisión limitada de expertos. Dirigido a pruebas tanto a nivel de componente como de extremo a extremo, presentamos: (i) un punto de referencia de clasificación etiquetado (N=150) que logra un 86,7 % de recuperación de emergencia, informando explícitamente la compensación entre emergencia omitida y sobreintensificación; (ii) un punto de referencia sintético de recuperación de evidencia múltiple (N = 100) con etiquetas de evidencia a nivel de fragmentos; (iii) comparación de LLM como juez en consultas reales (N = 781) utilizando criterios diseñados conjuntamente por el médico; y (iv) validación de expertos. Nuestros hallazgos muestran que los asistentes médicos confiables en entornos multilingües y ruidosos requieren un diseño de defensa en profundidad junto con una evaluación de múltiples métodos, en lugar de una elección única de modelo y método de evaluación.
Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original
